文 | 黄锦辉
在新闻学的理论上,媒体报道需要具事实及客观性,但在现实中,新闻报道往往并非如此。商业及政治传媒机构往往基于经济利益或政治宣传理由,发表具偏见的言论。再者,在当下讯息爆炸时代,网上独立新闻工作者往往随意地推出主观的帖文,这些海量具偏见的资讯在网络上泛滥,令社会更难把关。而长期阅读带有偏见的新闻报道,难免会令读者的思想变得极端,影响社会和平及稳定的发展。因此,辨识新闻报道中的偏见,是近期人工智能(AI)的热门研究题目,笔者亦参与多年。本文简介笔者自动偏见辨识研究背后资讯分类的基本原则。
言辞可夸张 讯息或偏颇
媒体在报道有关社会事件、问题或冲突等的新闻时,倾向于对某一方、某一政策或者某一观点提供持续性支持或反对的意见,这现象在学术上被定义为“媒体偏见”(Media Bias)。在西方,“媒体偏见”通常会与政治立场拉上关系。技术上,要直观地识别出新闻报道中的偏见,我们可以从新闻文本出发,将“媒体偏见”分类为言辞上的偏见及讯息上的偏见。
在言辞上,偏见表达方式可分类为“哗众取宠”(Exaggeration)、“刻板印象”(Stereotype)、“断章取义”(Quote Out Of Context)、“子虚乌有”(Hypothetical)等。媒体报道中常见“爆”、“疯”等夸张词语,用来吸引读者注意力,但这些用词手法难免会夸大或缩小相关问题的重要性,更会引起读者恐慌或忽视。如果在报道中加深了对某些群体的刻板印象,将会导致在多元社会中不同群体之间的矛盾,甚至引发互相之间的仇恨。断章取义也是一种常见的媒体报道的形式,仅仅选用采访对象陈述中的一小部分,来支持自己的主观意见。而预测性地说“假设……将会……”也是一种主观偏见,诱导读者接受报道者自己的观点,包括与事实不符的言论。
然而,相比言辞上的偏见,讯息内容上的偏见则更难以识别。内容偏见可分为三大类,讯息遗漏、意见失衡、内容具煽动性等。其中最容易被识别的就是煽动性的报道,也就是新闻学所指的“膻色腥”(Sensational)报道。这类内容主要是利用哗众取宠、耸人听闻的方式,不惜罔顾事实真相,不顾一切去吸引读者的注意力。相比之下,其他两种散播偏见的手法则较为隐蔽。举例,凡事都有两面,必然会有支持及反对者;正因如此,有些媒体为了表达自己对事件的支持,故意遗漏掉反对者的声音;又或者相反地为了表达反对意见,而对事件的优点避而不谈。另外,不平衡的报道是指媒体对自己所支持的观点浓墨重彩,而对其他事情则一笔带过,草草了事便算。
慎防LLM把谎言当主流
人工智能“媒体偏见识别”系统建基于“大型语言模型”(Large Language Model, LLM)。运用传统“深度学习”(DL)方法,“偏见识别”LLM学习大量具偏见句子的表达方式,从中分析及了解句子的语法(Syntax)及语义(Semantic)之常用规则,之后用作偏见预测。然而,这方法对识别言辞上的偏见较为有效,对辨别讯息上的偏见却较弱,因为语义分析远比语法困难。要解决这问题,其中一个做法是在学习过程中,在面对同一事件时多输入不同立场的媒体报道。不过,大家要注意的是,相关LLM学习算法本身是否带有偏见。有研究指出,基于统计学“多数决定”(Majority Rule)原则,LLM通常是“左倾”的。所谓“谎言重复一千遍就是真理”;同样地“千个偏见”便会被定性为主流意见。因此,用户不应不假思索便全盘接纳AI“偏见识别”的分析结果。
(作者系立法会议员,文章仅代表作者个人观点)