黄锦辉:突破AI技术瓶颈 “人机互动”起革命-紫荆网

黄锦辉:突破AI技术瓶颈 “人机互动”起革命

日期:2025-04-17 浏览量: 字号:
分享到
用微信扫描二维码

| 黄锦辉

在人工智能技术(AI)快速发展的当下,智能对话系统(Dialogue System,DS)已成为现代生活中不可或缺的数位伙伴。从智能手机、平板电脑到智能车载系统,语音交互技术正深刻改变人机互动的方式。

系统“记忆力”有限 难连贯对话

随着“大语言模型”(Large Language Model,LLM)技术的突破性进展,智能对话系统的理解能力和回应品质都获得了显著提升。然而,现有系统在“长期记忆”(long Memory)保持和“多模态”(Multi Modal)信息处理方面仍存在明显不足,影响对话效率。

当前主流智能对话系统主要面临两个核心挑战,首先是记忆能力的局限性:现有系统大多采用“讲完即弃”的工作模式,无法有效地建立用户画像和对话历史数据库。这种设计缺陷导致系统在连续对话场景中表现欠佳,难以提供连贯且个人化的服务。

举例,当用户先后输入“周五下午5点安排会议”和“周五下午5点看电影”两个指令时,系统通常只会机械式地记录两项行程,而无法识别时间冲突,并提供智能提醒。这种缺乏上下文关联的互动模式,使得对话体验显得生硬,经常导致用户中途放弃。

其次是多模态理解能力的不足:现有系统主要局限于文本(Text)和语音(Speech)的单模态处理,对图像(Image)、影片(Video)等视觉信息的理解能力较为薄弱。

当用户提交图片查询请求时,系统往往只能透过搜寻引擎进行简单的相似度比对,返回一些相似图片附带的链结或文字说明,无法真正理解图像内容,并与用户建立有意义的互动。这使得用户在查询某张图片的相关资讯时,只能询问图片“是甚么”,而无法探讨图片“怎么用”,这种浅层处理方式,严重限制了系统在建议咨询、产品推荐等实际应用场景中的价值。

针对上述技术瓶颈,学术界对其进行了广泛的研究。在记忆管理方面,目前的主流技术可以分成两个流派:一个是以外挂记忆库(External Memory)为代表的检索(Retrieval-based)流派,另外一种是以加大模型能够处理的上下文长度的扩展(Extension-based)流派。

融合长短期记忆 主动思考判断

长短期记忆融合是基于“检索流派”的一种常用演算法。这项技术透过构建动态记忆网络,分别对长短期记忆进行管理,实现了对话上下文的关联和用户偏好的持续学习。系统能够自动截取对话中的关键信息,在长期记忆中进行检索比对,建立结构化记忆单元,并在后续互动中实现对相关记忆的精准调用。

例如,当用户曾表示“不喜欢辛辣食物”的饮食偏好后,系统在后续的旅行建议中会自动避开相关选项,例如推荐大湾区这类饮食清淡的地区,而非重庆等以辣味闻名的地区,毋须用户反复说明相关偏好。

同样地,在行程安排方面,系统能够识别时间冲突,并主动提醒用户:“您周五下午5点已安排了会议,是否需要调整看电影的时间?”这种融入长期记忆后产生的主动思考和有效判断,不仅能提升“对话系统”的可用性,也能让用户体验到更加人性化和个人化的服务。

“滑动窗口注意力”(Sliding Window Attention)机制是“扩展流派”的代表,这种技术通过改进传统Transformer架构中的“注意力”(Attention)计算方式,使模型能够处理更长的序列(Sequence)输入。它采用“滑动窗口”(Sliding Window)的方式,将长序列分割成多个重叠的窗口,在每个窗口内部进行局部注意力计算,同时保持窗口之间的信息流动。

这种方法既保证了计算效率,又能维持序列中远距离依赖关系的捕捉,使模型可以处理更长的对话历史,从而提供更连贯和上下文相关的回应。

在多模态理解方面,跨模态表征学习框架能够深度融合视觉与语言信息,从而突破传统单模态处理的限制,使系统不仅能实现对图像内容的语意层级理解,还能将图像信息与对话上下文有机结合,基于综合理解与用户针对图片进行讨论,并且提供有价值的建议。

以服装搭配咨询场景为例,当用户上传不同款式的西装图片时,系统不仅能准确识别服装的款式、颜色等视觉特征,还能结合穿着场合、个人风格等提供专业建议。这种深度理解能力使“对话系统”能从简单的资讯检索工具进化为具有专业知识的智能顾问,在与用户的互动中提供更丰富且有价值的资讯,有效优化用户体验。

智能对话助手 更个性化情境化

随着长期记忆管理和多模态理解技术的不断突破,“对话系统”日趋智能化,在从单一的指令执行工具,逐步演进为真正意义上的智能伙伴。这种进化不仅体现在技术层面的创新,更重要的是带来了“人机互动”范式的根本转变。

通过长短期记忆的融合与多模态信息的深度理解,对话系统得以建立起持续性的用户认知模型,实现个性化、情境化的智能服务。未来,随着这些技术的进一步成熟与融合,我们有理由期待智能对话助手将在更广泛的应用场景中发挥价值,为人类生活带来更多便利与智慧。这不仅是技术的进步,更是人机协作关系的质变,朝着更自然、更深入的交互方向迈进。

【知识库】何谓“多模态”信息处理?

•“多模态”信息处理指的是能够同时处理和整合来自多种模态(例如文字、图像、音频、视频等)的信息的技术。

•这技术能够跨越不同的数据类型,进行理解、生成和分析,从而实现更复杂的任务。

•多模态模型可以分析一篇文章的文字内容,同时理解附带的图片和相关的音频或视频,并将这些信息整合起来提供更全面的结果。

•客户服务:提升聊天机器人的能力,使其能解释用户提供的图片和文字查询。

•医疗:结合病患的文字纪录、影像扫描和生理数据进行诊断。

•娱乐:分析视频内容和对话纪录,以生成字幕。

(作者系全国政协委员、香港立法会议员,文章仅代表作者个人观点)

扫描二维码分享到手机

五一假期开启返程模式 全国铁路、公路进入返程高峰
投资界春晚来袭!2025巴菲特股东大会五大焦点全梳理
陈茂波:致力打造新海滨 推动无处不旅游
外籍游客、外语导游、外国博主……多视角讲述“China travel”独特记忆
紫荆杂志
影响有影响力的人