黄锦辉:DeepSeek开源普惠 美禁科技输出徒劳-紫荆网

黄锦辉:DeepSeek开源普惠 美禁科技输出徒劳

日期:2025-02-12 浏览量: 字号:
分享到
用微信扫描二维码

| 黄锦辉

DeepSeek横空出世,震撼全球。DeepSeek-R1“大型语言模型”(LLM)在上月的瑞士达沃斯世界经济论坛年会备受注视,获得不少科技界大加赞赏。

OpenAI总裁奥尔特曼(Sam Altman)、微软(Microsoft)总裁纳德拉(Satya Nadella)等,都认为DeepSeek-R1的生成人工智能(AI)表现比肩GPT-o4、Llama等模型,但难以置信的是部分培训DeepSeek-R1的任务,只需要它们5%的成本,而且所用的“图形处理器”(GPU)亦只是2,046颗英伟达(NVIDIA)H800型号的次级硬件。

从科研角度看,所有曾接触DeepSeek-R1的评估结果,或者曾试用的科技专家,都对其效能叹为观止,认为DeepSeek-R1的优化LLM算法会为AI产业揭开新一页。例如中小型企业(SME)可以超低成本,为特定应用领域研发所需的“垂直语言模型”(Vertical LLM)。

另一DeepSeek商业模式(Business Model)的优点是“开源”(Open Source),此服务使大学及研究中心均可以使用DeepSeek的数据和算法进行再创新。这正是科研界梦寐以求的目标和愿景,在科研成果共享之下,世界各地科学家均可贡献自己的智慧,开放协同,携手合力推进前沿科研持续发展。所以,DeepSeek的开源做法获得全球推崇,一致认为此举对达至全民“通用人工智能”(AGI)非常关键。

可惜,这只是科学家一厢情愿的崇高理想,现实是在商言商,企业各不相让,斗过你死我活,因此很多AI公司(包括OpenAI)都以不同理由拒绝开源。

世界经济论坛年会过后,多间欧美科技公司便开始“变脸”,对DeepSeek口诛笔伐。OpenAI总裁奥尔特曼批评DeepSeek违反版权法,在未获得OpenAI的同意之下,采用它的数据和API来培训DeepSeek-R1。首先,美国法裔电脑科学家、2018年图灵奖得主杨立昆(Yan LeCun)认为,开源是DeepSeek的至胜之道。但他指出关键并不在DeepSeek推行一套创新的开源算法,而是该公司善用既有的开源资源去研制其LLM,并认为DeepSeek的成功,反映出开源模型正在超越闭源模型,每个人都可以从中受益,发挥开放研究和开源的力量。

OpenAI质疑侵权 如“贼喊捉贼”

由此可见,DeepSeek涉嫌偷用OpenAI知识产权的控诉确实站不住脚,而且更有人批评OpenAI其身不正,对DeepSeek的指控难以服众。理由是OpenAI本身就是因为侵犯他人版权而导致官司缠身,例如《纽约时报》于去年2月指控OpenAI盗取其新闻资讯,开启OpenAI侵犯版权诉讼的先河;又例如5间加拿大媒体公司于去年12月控告OpenAI抄袭其拥有的新闻内容、今年1月印度公司起诉OpenAI偷用其出版的书籍等。

另外,有用户投诉DeepSeek回应不尽不实,故意避开回答一些政治敏感的问题,特别是那些牵涉到中国国家安全的议题。这一点虽然可能是事实,但严格而言这是DeepSeek的特征,因为它采用的训练数据集是以中国文章为主,而这些内容,不一定涉及具政治敏感的资料。系统呈现本地特征无可厚非,一般的资讯及通讯科技产品也是如此,可谓在所难免。

采用数据呈本地特征 无可厚非

在实体世界中,每个人都有自己的个性、带有自己的“立场”(Stance),虚拟人也不在话下。“立场”源于其训练集的内容,因此美国的ChatGPT偏向美国文化,而中国的DeepSeek则倾向中国文化,这是它们各自的特征。兼听则明,偏信则暗,现实中人类要了解某一个议题,理应参考多于一本书,然后综合所有意见再作结论。

所以,批评DeepSeek答案偏颇是不切实际的,因为其他生成式AI(GenAI)系统都会出现类似的问题。这情境在技术上称为“幻觉”(Hallucination),即系统在资料不足的情况下生成不属实的回应。现实中,要减低“幻觉”的影响,用户应该访问多个系统(包括DeepSeek、ChatGPT),集思广益,从中找出最理想的答案。

以上也带出了笔者多次提及的“文化鸿沟”问题,由于ChatGPT的训练集是以美国资料为主,对有关中国或其他国家的问题认识不深,但它却会粗制滥造地提供一个不准确的答覆误导用户。这情况若出现在教育场景,就如“指鹿为马”,对学生学习的影响可大可小。事实上,透过这种行为,有心人很容易进行“文化侵略”,旨在对一些无知的用户进行“洗脑”。由此可见,在今天资讯泛滥的数码世界中,国产DeepSeek对华人教育界十分之重要。

美国一直以来都自以为在创新科技研发上鹤立鸡群,站在时代尖端,特别是在AI领域,认为其他国家都望尘莫及。例如ChatGPT于2022年面世,令美国在AI研发方面声名大噪,全球默认美国为“AI龙头大佬”。美国亦把握这优势向中国(包括香港)施压,禁止先进技术出口到中国,当中包括OpenAI的GPT-4o软件、Nvidia的H100硬件等,企图窒碍中国AI产业发展。特朗普(Donald Trump)上台后,外界一直估计美国会变本加厉。但如今DeepSeek的突破,无疑杀他一个措手不及,政府必须重新评估及部署美国的AI战略。

美方图断供应链源头 成效有限

事实上,美国已开始采取制华行动,例如德州政府禁止部门使用DeepSeek-R1,理由是他们质疑系统会侵犯国家安全;特朗普亦会见了Nvidia总裁黄仁勋,讨论如何阻止Nvidia芯片输送到中国,企图切断中国的AI供应链的源头。不过,这做法可能成效不大,因为DeepSeek创新主要是基于一套低成本、高效率的运算架构,在模型训练时大大减低对算力(硬件)的要求。这做法与欧美国家所推崇的“暴力”(Brute-Force)式,即以不断加入硬件来提升算力的做法截然不同。

DeepSeek的出现亦令OpenAI及Nvidia的股价大跌,所以他们也忙着想办法走出困局。这现象不难理解,且看大部分AI初创公司都仍在“烧银纸”,例如OpenAI于去年的损失估计不少于50亿美元,当中不少是花在硬件设备上。现在DeepSeek既然能够以5%的成本便能研发出同水平的产品,那么投资者还会继续支持OpenAI和其他“传统”的AI公司吗?

【知识库】何谓“暴力计算”?

•“暴力计算”(Brute-Force Computation)不需要复杂的算法,只需逐一尝试所有可能的解决方案,直至找到正确答案。

•由于暴力计算会遍历所有可能的解决方案,所以它可以保证找到最优方案,前提是有足够的计算资源和时间。

•由于暴力计算需要不断加入硬件来提升算力,特别是当解决方案空间非常庞大时,计算成本会非常高。

•随着问题规模的增大,暴力计算方法的可扩展性很差,难以处理大规模的问题。

(作者系立法会议员,文章仅代表作者个人观点)

扫描二维码分享到手机

五一假期开启返程模式 全国铁路、公路进入返程高峰
投资界春晚来袭!2025巴菲特股东大会五大焦点全梳理
陈茂波:致力打造新海滨 推动无处不旅游
外籍游客、外语导游、外国博主……多视角讲述“China travel”独特记忆
紫荆杂志
影响有影响力的人