对话腾讯蒋杰：全链路自研通用大模型有何挑战

当前位置：首页 > 专栏 >

X 关闭

来源：界面新闻时间：2023-09-09 08:55:56

9月7日，腾讯正式宣布旗下的通用大模型“混元大模型”对外开放，作为全链路自研的通用大语言模型，混元具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。

在大会后的采访中，腾讯集团副总裁蒋杰，介绍了它的研发过程、方向选择思路以及自研模型的技术挑战。

(资料图片仅供参考)

蒋杰表示，腾讯混元大模型拥有自主研发的路径规划，掌握了从算法到框架再到平台的全链路自研技术。

在其它公司着急推出各种模型的时候，腾讯的通用大模型已经在内部大量业务场景中进行了长期测试，产品成熟之后才对外输出。

这种先服务于腾讯本身的业务，再通过腾讯云对外开放、服务客户和外部合作方的模式，也被腾讯视为自家通用大模型的重要优势。

腾讯方面表示，混元大模型有良好的上下文理解和长文记忆能力，能够流畅完成各专业领域的对轮问答；支持文学创作、文本摘要、角色扮演；能够准确理解用户意图，基于已有数据或信息进行推理、分析；同时有效解决事实性、时效性问题，提升内容生成效果。

蒋杰认为，大语言模型最有商业价值的部分是提效，这也是大语言模型存在的使命。

未来混元大模型将重点做好提效的基础能力，“希望它不要胡言乱语，更安全、更可靠、有更好的逻辑思维能力，可以回答更复杂的题目”。

对于大模型在训练和存储过程中涉及到的数据问题，蒋杰表示，无论有没有大模型，腾讯都严格遵循法律要求，“我们可以向大家保证，我们做的小模型、大模型还是大语言模型，都绝不会使用个人隐私数据。”

混元为什么不着急

公开数据显示，截止到今年7月底国内已经有130个大模型产品亮相或宣布，其中既有一些大模型，也有小模型，有通用模型，也有专业领域的模型。

但腾讯的通用大模型虽然已经在内部运营迭代多个版本，但直到9月份才正式对外开放，这也被很多人认为是一次姗姗来迟的亮相，多少显得有些“不着急”。

其实，混元大模型的推出并非一蹴而就，从2021年开始，腾讯就已经在研发相关的技术能力。也是从那年起，腾讯先后推出了千亿和万亿参数的NLP稀疏大模型。

他向界面新闻介绍称，混元大模型是从零开始训练，整个体系包含了平台架构、模型和算法等能力，同时将腾讯自身的业务需求和大模型进行深度结合。

马化腾在股东大会上曾明确表示，腾讯在埋头研发自己的大模型，但是并不急于早早做完，把半成品拿出来展示。

在最近几个月内，混元大模型始终处于边研发边应用的状态，腾讯内部一直在用大量内部业务场景对它进行磨炼，尤其是腾讯文档、腾讯会议和腾讯广告等非常复杂的应用场景。

在腾讯看来，对于基础模型而言，技术和机会并不仅局限于聊天机器人这样的问答式场景，大模型的长期价值将通过应用来体现，所以更广泛的应用场景是决胜的关键因素。

虽然测试大语言模型的途径有很多，部分厂商也采用了Chat的方式进行测试，但蒋杰认为，腾讯在过去二十年间积累了大量的C端应用场景以及海量用户，也包含了很多B端应用场景验证体系，混元大模型在腾讯内部各业务的场景中也能得到良好的测试。

此前在6月份，腾讯曾推出MaaS（Model-as-a-Service）服务，向外部客户提供行业大模型服务。本次混元大模型对外开放之后，也将作为MaaS服务的底座，客户可以基于混元大模型，也可以基于开源模型，来搭建自己专属的行业大模型。

选择自研，寻求技术突破

现在市场上有很多开源大模型，部分厂商选择在它们基础上叠加精调，然后推出自己的大模型产品。

但蒋杰认为，如果不从头做自研，就无法对这项技术完全掌握。腾讯选择自研的首要原因就是要解决根本的技术能力突破，建立自己的技术栈体系，模型的后续研发迭代速度会更快，也更容易与未来腾讯其他产品业务相融合。

其次，腾讯旗下拥有很多海量高并发的业务，而很多开源模型的架构并不能支撑这种体量。所以腾讯需要走出一条基于自主体系研发的道路，才能应对海量高并发业务的冲击。

与此同时，全链路自研也让腾讯的大模型拥有了差异化的优势。

比如，“幻觉”是每个大语言模型都会面临的重要问题，当前Transformer架构的大模型无论做到什么阶段，都会出现不同程度的幻觉，这是做大语言模型的技术人员终身的挑战。

行业内很多大模型用的是知识图谱和搜索外挂的方式，去提升模型的检索能力，腾讯也部分采用了这些方式，“但比例不会很高，我们要在整个大模型的预训练阶段就控制这个问题”，蒋杰表示。

在腾讯内部看来，虽然搜索增强能丰富大模型的答案，但它并不是大模型的底层能力。在方向选择上，腾讯更倾向于通过底层能力的提升来增强大模型的水平，这也是腾讯选择自研“探真”技术来解决幻觉的原因。

蒋杰表示，虽然市面上并不缺乏大模型产品，很多公司的技术路线也都类似，但这是一个拼细节的过程。

也许未来对头部厂商大模型进行评分，大家的差距仅在一两分之间，但投入资源的不同、专注细节的区别，都会凸显不同模型之间的差异性。

蒋杰认为，大模型还远没有触碰到技术的天花板，不是靠几个技术单点的突破就能让大模型呈现出最终形态，这是一个综合实力的比拼过程。它包括了技术突破的能力、语料的完整度、数据标注的能力、纠错能力和评测能力的突破等。

而腾讯“有使用场景的资源，有数据方面的优势，有云计算基础设施方面的加持，有打造人工智能应用，为既有业务提供辅助方面的长期实践。”用腾讯总裁刘炽平的话说，这也是腾讯持续投入大模型研发并参与市场竞争的底气。

（文章来源：界面新闻）

X 关闭

热点

专栏