X 关闭

对话腾讯蒋杰:全链路自研通用大模型有何挑战
来源:界面新闻    时间:2023-09-09 08:55:56


9月7日,腾讯正式宣布旗下的通用大模型“混元大模型”对外开放,作为全链路自研的通用大语言模型,混元具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

在大会后的采访中,腾讯集团副总裁蒋杰,介绍了它的研发过程、方向选择思路以及自研模型的技术挑战。


(资料图片仅供参考)

蒋杰表示,腾讯混元大模型拥有自主研发的路径规划,掌握了从算法到框架再到平台的全链路自研技术。

在其它公司着急推出各种模型的时候,腾讯的通用大模型已经在内部大量业务场景中进行了长期测试,产品成熟之后才对外输出。

这种先服务于腾讯本身的业务,再通过腾讯云对外开放、服务客户和外部合作方的模式,也被腾讯视为自家通用大模型的重要优势。

腾讯方面表示,混元大模型有良好的上下文理解和长文记忆能力,能够流畅完成各专业领域的对轮问答;支持文学创作、文本摘要、角色扮演;能够准确理解用户意图,基于已有数据或信息进行推理、分析;同时有效解决事实性、时效性问题,提升内容生成效果。

蒋杰认为,大语言模型最有商业价值的部分是提效,这也是大语言模型存在的使命。

未来混元大模型将重点做好提效的基础能力,“希望它不要胡言乱语,更安全、更可靠、有更好的逻辑思维能力,可以回答更复杂的题目”。

对于大模型在训练和存储过程中涉及到的数据问题,蒋杰表示,无论有没有大模型,腾讯都严格遵循法律要求,“我们可以向大家保证,我们做的小模型、大模型还是大语言模型,都绝不会使用个人隐私数据。”

混元为什么不着急

公开数据显示,截止到今年7月底国内已经有130个大模型产品亮相或宣布,其中既有一些大模型,也有小模型,有通用模型,也有专业领域的模型。

但腾讯的通用大模型虽然已经在内部运营迭代多个版本,但直到9月份才正式对外开放,这也被很多人认为是一次姗姗来迟的亮相,多少显得有些“不着急”。

其实,混元大模型的推出并非一蹴而就,从2021年开始,腾讯就已经在研发相关的技术能力。也是从那年起,腾讯先后推出了千亿和万亿参数的NLP稀疏大模型。

他向界面新闻介绍称,混元大模型是从零开始训练,整个体系包含了平台架构、模型和算法等能力,同时将腾讯自身的业务需求和大模型进行深度结合。

马化腾在股东大会上曾明确表示,腾讯在埋头研发自己的大模型,但是并不急于早早做完,把半成品拿出来展示。

在最近几个月内,混元大模型始终处于边研发边应用的状态,腾讯内部一直在用大量内部业务场景对它进行磨炼,尤其是腾讯文档、腾讯会议和腾讯广告等非常复杂的应用场景。

在腾讯看来,对于基础模型而言,技术和机会并不仅局限于聊天机器人这样的问答式场景,大模型的长期价值将通过应用来体现,所以更广泛的应用场景是决胜的关键因素。

虽然测试大语言模型的途径有很多,部分厂商也采用了Chat的方式进行测试,但蒋杰认为,腾讯在过去二十年间积累了大量的C端应用场景以及海量用户,也包含了很多B端应用场景验证体系,混元大模型在腾讯内部各业务的场景中也能得到良好的测试。

此前在6月份,腾讯曾推出MaaS(Model-as-a-Service)服务,向外部客户提供行业大模型服务。本次混元大模型对外开放之后,也将作为MaaS服务的底座,客户可以基于混元大模型,也可以基于开源模型,来搭建自己专属的行业大模型。

选择自研,寻求技术突破

现在市场上有很多开源大模型,部分厂商选择在它们基础上叠加精调,然后推出自己的大模型产品。

但蒋杰认为,如果不从头做自研,就无法对这项技术完全掌握。腾讯选择自研的首要原因就是要解决根本的技术能力突破,建立自己的技术栈体系,模型的后续研发迭代速度会更快,也更容易与未来腾讯其他产品业务相融合。

其次,腾讯旗下拥有很多海量高并发的业务,而很多开源模型的架构并不能支撑这种体量。所以腾讯需要走出一条基于自主体系研发的道路,才能应对海量高并发业务的冲击。

与此同时,全链路自研也让腾讯的大模型拥有了差异化的优势。

比如,“幻觉”是每个大语言模型都会面临的重要问题,当前Transformer架构的大模型无论做到什么阶段,都会出现不同程度的幻觉,这是做大语言模型的技术人员终身的挑战。

行业内很多大模型用的是知识图谱和搜索外挂的方式,去提升模型的检索能力,腾讯也部分采用了这些方式,“但比例不会很高,我们要在整个大模型的预训练阶段就控制这个问题”,蒋杰表示。

在腾讯内部看来,虽然搜索增强能丰富大模型的答案,但它并不是大模型的底层能力。在方向选择上,腾讯更倾向于通过底层能力的提升来增强大模型的水平,这也是腾讯选择自研“探真”技术来解决幻觉的原因。

蒋杰表示,虽然市面上并不缺乏大模型产品,很多公司的技术路线也都类似,但这是一个拼细节的过程。

也许未来对头部厂商大模型进行评分,大家的差距仅在一两分之间,但投入资源的不同、专注细节的区别,都会凸显不同模型之间的差异性。

蒋杰认为,大模型还远没有触碰到技术的天花板,不是靠几个技术单点的突破就能让大模型呈现出最终形态,这是一个综合实力的比拼过程。它包括了技术突破的能力、语料的完整度、数据标注的能力、纠错能力和评测能力的突破等。

而腾讯“有使用场景的资源,有数据方面的优势,有云计算基础设施方面的加持,有打造人工智能应用,为既有业务提供辅助方面的长期实践。”用腾讯总裁刘炽平的话说,这也是腾讯持续投入大模型研发并参与市场竞争的底气。

(文章来源:界面新闻)

X 关闭

Copyright   2015-2022 热讯咨询网版权所有  备案号:豫ICP备20005723号-6   联系邮箱:295 911 578@qq.com