若然销售员向你推荐某件产品却没有给你合适的理由,又或者医生在判断你患上危疾时没有向你解释筒中原因,相信任何人遇到上述情况都难以接受。不过,这情况在现今世界却愈来愈普遍。在全球新冠肺炎疫情肆虐之下,数码经济大行其道,线上服务已成为普罗大众日常生活一部分,例如网上购物、电子医疗等服务广受欢迎。这些系统所具备的先进功能,是利用深度学习技术,为客户提供贴身的人工智能服务。然而,深度学习以「点对点」(P2P)和「黑箱」(Black Box)形式进行,所以系统输出的答案一般是无法解释的,令用户摸不着头脑,「用户友善」(User Friendly)度甚低。
针对这个问题,电脑科学家着手研发「可解释人工智能」(Explainable AI,XAI)技术。顾名思义,其任务是有系统地去了解究竟深度学习算法如何产生某个特定结果。较多人使用的「可解释人工智能」算法是从训练数据集当中,找出对结果有最大贡献的样本,然后从该样本抽取出特征作为解释。例如,训练集中有3张图片:金鱼、麻雀和蚂蚁,分别代表鱼、鸟和虫类动物,基于此集而训练产生的人工智能系统,会把一张燕子的图片定性为鸟类,透过「可解释人工智能」技术,专家可了解到这决定主要是因为输入的图片(燕子)是受到训练集中麻雀那张图片的影响;进一步分析两张图片,专家发现两者有着共同的特征,包括翅膀、喙等;就此,专家便可以解释燕子是鸟类动物因为它有翅膀和喙。
系统精准度 视乎训练集
在实际环境中,训练集是超大规模的(远远多过3张图片),「可解释人工智能」技术要从中挖掘出最具影响力的样本殊不容易,这正是电脑科学家的研究重点。其中一个折衷的方法是重用讯息,科学家可以把每一次分析的结果结合成为一个智识库(Knowledge Base)。如此这般,系统运作时间愈长,智识库内所建立的资料便愈丰富,「解释」的效率同时亦会愈高。再者,系统所建立的智识库理论上是通用的,可以应用于其他人工智能场景,一举多得。
以上讨论的前设是,人工智能系统所输出的结果是对的,惟现实中系统有机会误判。这是因为输入的资讯(如图片)虽然在学习过程中从来未出现过,但却与某训练样本类似,例如样本是马,输入是鹿,系统可能会错误地「指鹿为马」。在这情况之下,「可解释人工智能」也可派用场,它可以用作为检测器,当找出解释之后,让专家评估其准确性,并进一步分析当中的错处。公司可以使用检测器来修改人工智能系统;政府部门也可以利用此技术,为人工智能产品检测和认证,确保产品的安全性。
数据技术员及检测员吃香
由上述可见,数据驱动(Data Driven)人工智能系统的准确性及可靠性,跟其背后的训练数据集的质量息息相关。电脑科学入门课程中提出「垃圾入垃圾出」(Garbage In Garbage Out)是深度学习以至人工智能的基本原则。因此,人工智能工程在系统开发过程中,必须做好深度学习前期的数据搜集、筛选、标注等准备工作。这些工作是资讯科技业界应运而生的「数据技术员」、「数据检测员」等新工种。在日益增长的全球人工智能市场下,这类工作将会愈来愈抢手。香港在这方面的职业培训也应作好适当的准备,巩固本港在粤港澳大湾区国际创科中心地位。
(文章观点仅代表作者本人)
作者为香港中文大学工程学院副院长(外务)、香港资讯科技联会前会长
来源:信报