黄锦辉:用DeepSeek开发AI大平台 助港科研创新-紫荆网

黄锦辉:用DeepSeek开发AI大平台 助港科研创新

日期:2025-02-01 来源:紫荆 浏览量: 字号:
分享到
用微信扫描二维码

|黄锦辉

DeepSeek(“深度求索”)研发的大模型横空面世,提供一个效能处于世界顶尖水平且极具性价比的LLM开源模型,特区政府若可采用DeepSeek公开数据,开发“公开开源人工智能平台”,正好可以帮助香港突破人工智能技术局限,又让香港充分发挥联通世界所长,推动DeepSeek高端智能技术进一步走向世界。

乙巳年启始,坊间喜喜兴兴地送龙迎蛇,人工智能界亦发生一件举世瞩目的大事。灵蛇引来一头来自中国人工智能公司DeepSeek(“深度求索”)创造、震动美国硅谷、冲击华尔街股市的“蓝鲸”——DeepSeek-R1 (DS-R1)人工智能推理模型。简单形容,从应用层面来说,DS-R1可成为OpenAI开发的ChapGPT之代替品。

DS-R1的优点是其在系统生成中的性价比(Price-Performance)远高于传统“生成式人工智能”,例如ChatGPT。在基准测试(Benchmark Evaluation)中,DS-R1的效率不但比其他大型语言模型,包括ChatGPT、 Llama等优胜,而且其所需要的硬件设备亦较少。例如,DS-V3(R1的前一版)训练成本约560万美元,仅使用了2,048颗英伟达(Nvidia)H800晶片,并在两个月内成功开发。

采用了两种崭新技术

相比之下,OpenAI训练ChatGPT-4o模型使用了2.5万颗性能强大的H100晶片,训练成本高达1亿美元。而且除了经济考虑之外,训练DS-R1所需的能源消耗亦较Llama3低。

从技术层面,DS-R1采用了两种崭新技术,分别为“多头潜在注意力机制”(Multi-head Latent Attention, MLA)及“混合专家系统”(Mixture of Experts, MoE)。两者目标一致,令运算更聚焦,避免浪费算力。MoE精简了训练对象的特征,从而提升模型对于计算资源的利用效率,并加速人工智能的整个训练过程。简而言之,人工智能预测依赖特征,但关键在于特征的质量而非数量。

运算的高维特征空间中常常包含重复或冗余的信息。举个例子,当我们判断一个人是否在跑步时,会观察心率加快、呼吸急促、出汗增多等生理指标。虽然这些都是独立的指标,但它们之间存在密切的关联,本质上都在描述同一种运动状态。冗余的信息不仅对训练没有帮助,反而会增加不必要的计算负担。

针对这问题,DeepSeek模型的MLA在传统注意力机制的基础上作出创新:通过低秩近似技术,提取出一组精简但富有代表性的“基础特征”。这就像是从纷繁复杂的数据中找出真正起决定性作用的关键因素,既保留了重要信息,又显著降低了计算成本,从而大大提升模型的运行效率。

MoE也是DeepSeek模型的一个重要组成部分。MoE就像一个有很多专家组成的团队,每个专家都拥有擅长的知识和技能,专门处理某一类特定任务,例如代码编写、数学分析、文学写作等。MoE就像一个智能的调度员,会根据输入的信息来决定应该让哪个专家来处理。因为每个专家都有自己擅长的领域,所以在处理复杂任务时,MoE比一般的单一模型做得更好。

除此之外,MoE只有在有需要的时候才调用特定的专家,不需要让整个大模型都工作,从而节省了计算资源,提升计算效率。这种专家分工协作的设计理念,使MoE在保持强大性能的同时,实现了更灵活和高效的资源利用。

开源运作大获欢迎

DS-R1另一优点是开源。它的模型以及其代码都是公开的,任人使用。相比ChatGPT的封闭式操作专有模型,DS-R1大获全球科技界欢迎。DeepSeek的完全开源策略不仅降低了使用者的使用门槛,也促进了人工智能开发者社群的协作生态。透过开源,DeepSeek吸引了大量开发者和研究人员的关注,他们可以在平台上自由取得和修改模型程式码,共同推动人工智能技术的发展。美国法裔电脑科学家、2018年图灵奖得主杨立昆(Yan LeCun)认为,开源是DeepSeek致胜之道,但他指出关键并不在DeepSeek推行完全开源,而是该公司善用开源操作,并认为DeepSeek的成功,反映出开源模型正在超越专有模型,每个人都可以从中受益,发挥开放研究和开源的力量。对此,笔者非常同意,并建议香港创科业界认真考虑推行,而且特区政府可以利用其公开数据的经验,开设一个“公开开源人工智能平台”,让科学家、工程师共享原代码。

2015年OpenAI成立,他们的计划是研发安全人工智能,并把成果公诸于世,以不牟利开源模式与全球共享。可是,到了ChatGPT-3面世之后,公司总裁阿特曼(Sam Altman)因承受不住经济压力改变初衷,公司开始推行商业运作模式,以赚钱来支持公司大额的研发经费。

助港提升新质生产力

更不可接受的是,OpenAI停止向中国(包括香港特区在内)提供服务,令香港产学研界的工作都受到严重影响。例如学界只能使用旧版ChatGPT,严重影响教与学。为了摆脱对OpenAI的依赖,特区政府去年投资了过亿港元,与本地大学合作研发一套港版ChatGPT。

人工智能是香港创新发展的重点领域,大型语言模型是全球热门研究领域,本港科研团队也非常投入。以笔者为例,正在研究提升LLM可靠性的技术。不过,自“特朗普1.0”开始,美国变本加厉打压中国科技发展,禁止美国先进人工智能科技产品出售给中国,当中包括英伟达芯片,令内地及香港科研进度受阻。所幸的是,DeepSeek研发出极具成本效益的运算方法,对中国人工智能发展大有帮助,亦有助工商界提升新质生产力。

(作者系立法会议员、香港中文大学工程学院副院长(外务)、香港专业及资深行政人员协会副会长,文章观点仅代表作者本人)

来源:紫荆

扫描二维码分享到手机

编辑:刘可熠 校对:刘雨晨 监制:连振海
跨越山海 以球会友——西藏青少年足球队来港开展交流活动
《哪吒2》举行香港首映礼 现场星光熠熠座无虚席
入境处“光影”行动打击外卖非法劳工 共24人被拘
李家超:19日举行CEPA宣讲会 “盛汇超级三月”活动浪接浪
紫荆杂志
影响有影响力的人