因「虚假新闻」造成重大破坏的例子比比皆是,例如去年美国总统大选投票过后,特朗普团队在社交网络中疯传拜登选举舞弊,引发暴徒上街冲击国会山庄。(路透社资料图片)
大数据分析是人工智能背后的核心技术。在现实生活中,人工智能从人类日常生活的数据中学习人类文化,从中进行模仿,达至「机器代人」的目标,例如从市民阅读报章、杂志的习惯,了解他们的生活方式、日常兴趣、甚至其政治立场等,然后针对性地提供个人化的智能服务。
虚假新闻传播 屡造成重大破坏
俗语云:「树大有枯枝」,这道理也适用于大数据应用上。网络上的数据良莠不齐,垃圾信息满布,当中「虚假新闻」更是全球焦点,因而造成重大破坏的例子比比皆是,例如美国于2003年在没有真凭实据下坚持伊拉克拥有大杀伤力武器而入侵该国,导致死伤无数;2016年美国总统大选,市场研究公司「剑桥分析」(Cambridge Analytics)利用5,000万个Facebook私人用户资料发放假信息打压希拉莉,最终特朗普以爆冷姿态在选举中胜出;2020年美国总统大选投票过后,特朗普团队内部在社交网络中疯传拜登选举舞弊,引发暴徒上街冲击国会山庄等。
在香港网络社会中,情况也不遑多让,线上谣言满天飞,虚假新闻严重影响本地社会秩序和常态,例如有「伪专家」指鹿为马,错误地指出「安心出行」存在私隐外泄风险,令市民抗拒下载使用;亦有网民误导普罗大众,刻意指摘新冠疫苗效果不彰,令不少市民放弃接种。这些源源不绝的「假新闻」严重拖慢本港抗疫步伐,打击民生和经济。
面对虚假新闻对社会的负面影响,科技企业、大学、科研中心等各界没有坐视不理,无不积极投放资源进行研究,务求找出有效的方法识别及过滤虚假新闻。笔者的研究领域聚焦于「自然语言处理」,研究目的是利用人工智能技术分析及理解文字信息(例如报章内容),而识别虚假新闻亦是笔者近年的主要研究方向。
两类传媒资讯 AI处理各不同
传媒资讯如报章、杂志等的内容,主要由两类信息组成,分别为「客观信息」(Objective Information)和「主观信息」(Subjective Information),客观信息描述所报道的事件,包括其前因后果,主观信息则是记者或受访者对事件的个人意见。根据传统定义,大众视前者为新闻,而后者则为评论,从人工智能角度,处理这两种信息的目标截然不同。
客观信息理论上由事实组成,因此要判断它的真伪,人工智能系统会进行「事实查证」(Fact Check),目的是核对事件是否事实。如果事件是自然发生的,系统可以从它的合理性及科学性进行研究和求证,但若然系统面对的是社会事件,查证便会较为复杂。分析这类新闻的算法,并非纯粹是证实目标事件是否发生过那么简单,而是把事件在何时进行(When)、那里发生(Where)、谁人导致(Who)、如何造成(How)等关连证据也进行彻底分析,例如系统会追溯事件发生的历史,以及牵涉相关人士之间的人际网络等。
进行这类任务的最大困难是「自然语言理解」(Natural Language Understanding,NLU),因为在这方面的现有技术都是针对特定领域(如法律)而设,并不能普及地应用于日常新闻理解上。
处理主观信息的手法大有区别,其主要目的是作「舆情分析」(Public Opinion Analysis),让用户了解大众对目标事件所关注的要点及程度。人工智能系统首先利用「自然语言处理」技术,从评论中挖掘出各评论员的不同论点,然后统计每一论点的支持人数,最后作出结论,例如分析发现大多数香港年轻人认为「在大湾区创业」是正面的。
然而,由于舆情分析的算法主要基于统计学,因此其结果深受数据(即新闻)完备性的影响,常见的现象包括:1、系统并没有涵盖所有关键持份者,导致其分析结果偏颇或带有立场;2、由于分析系统并没有获取所有论点,因而导致以偏概全的问题,影响分析的可靠性。
缺标准测试数据 碍新闻理解研究
总体而言,无论是「事实查证」或「舆情分析」,两者与其他大数据分析应用同出一辙,都是非常依靠「机器学习」技术。有效的机器学习,与系统背后所采用的训练及测试数据质量息息相关。然而,训练数据不足,以及缺乏标准测试数据,是新闻理解研究的瓶颈,窒碍了它的广泛应用。
以拥有最先进科研能力的Facebook公司为例,自从特朗普首届选举以来,他们便坚决要杜绝「脸书」社交平台上的「虚假新闻」,为此花了不少人力、物力去研发专责的人工智能算法,但到了今天仍未能完全把过程自动化,还是需要人机互动,以人工智能技术辅助专家团队作出最终判断。从另一角度看,此情景又一次反映出坊间盛传的「机器代人」观念在现阶段并不适于传媒行业。新闻采集、写作、而至编辑等工作还是以人为本,很需要真人参与。
(文章观点仅代表作者本人)
作者为香港中文大学工程学院副院长(外务)、香港资讯科技联会荣誉会长
来源:香港经济日报