对话邱锡鹏：深度解构大语言模型，国内首个类Chat GPT模型Moss是怎样炼出来的？

2023-04-17 17:45:51 来源：李梦琪

4月11日，国家互联网信息办公室发布《生成式人工智能服务管理办法（征求意见稿）》，以期促进生成式人工智能技术健康发展与规范应用，拉开国内对大预言模型监管的序幕。

事实上，自去年年末以来，ChatGPT等其他大型语言模型备受全球关注的同时，也引发人们诸多担忧：是否会加剧社会不平等，是否会造成个人隐私数据泄露，是否会危机网络安全……为了更好引导技术服务与人类社会，全球各国都相继对ChatGPT采取了相应的监管举措。

这一场由Chat GPT引发的全球大讨论仍在继续，有观点认为人工智能正在陷入一场失控的竞赛之中，人类社会还未对其可能造成的影响做好准备，也有观点认为这是历史性时刻，人类即将迎来一个智能变革的新时代。

(资料图片仅供参考)

那么如何理解和应对ChatGPT及其他大模型技术涌现所带来的机遇和挑战，打造符合社会价值观的，体现社会的公平性的、可信的、可依赖的人工智能？本期财联社连线分享复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏的观点，从技术和原理的角度深度解构时下大热的ChatGPT模型，解读ChatGPT的影响和发展方向，以下：

本文整理自复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏在复旦大学管理学院主办的“复旦科创先锋论坛”上的讲话

编辑 | 李梦琪蔺文颖

策划 | 郭楠

01 ChatGPT为什么这么强？

60天内月活用户直接破亿，ChatGPT成为了史上用户增长最快的消费级应用。

其展现出的对话理解与表达能力令人惊艳，也让越来越多人意识到人工智能正在迎来全新的里程碑，并且有望作为一个至关重要的基座系统，以前所未有的速度渗透进各行各业，持续引爆未来世界的数字经济体系。

解释ChatGPT背后的技术原理，首先要从“语言模型”（Language Model）出发。语言模型，即利用计算机去重新建模人类语言，把自然语言转化为机器能够理解并判断的语言的一种机制。人类自然语言的灵活性给建模造成了极大的困难与挑战。

它一方面有规则，另一方面又随时可以打破规则，甚至存在巨大的歧义性。面对这种不确定，我们可以利用概率判断进行语句处理：如果句子符合自然语言规律，它就会被赋予一个比较高的概率，反之，则会被赋予一个比较低的概率。

要想赋予句子以概率，需要从互联网上获取海量文本数据。但这会引发另外一个难题，概率空间很大，难以直接建模。目前行业内的解决方案是通过把整个句子的联合概率拆解成其中每个词的条件概率的连乘，从而大幅降低语言模型的建模难度。

这样语言模型就转换为给定上文，预测下文的机器学习任务。

好的语言模型，要想预测得越准，就越需要充分理解人类语言和世界常识。比如让模型预测鸡蛋是圆的而不是方的，本身便隐含着一定的生活常识在里面。

此外，语言学上还有一个非常难的问题叫“指代”，比如“你”“我”“他”是代词，但是到底指的是谁却不一定，有些中文场景下，预测时甚至连代词都直接省略，这就需要我们通过上下文补全，才能够把下一个词预测得更加准确。

再比如说“12×3+9=？”，我们需要预测这个数学公式的结果，但是在训练的时候未必会告诉模型“×”代表什么意思，“+”代表什么意思，就只是输入大量的数学公式让它自己训练。然而只要见的公式足够多，模型也还是能够捕捉到“×”是什么规则，“+”是什么规则，从数据中完成自我学习。

我们迫使语言模型努力发现文字语言背后蕴含的规律，从而使这个模型更好理解人类语言和世界知识。

语言模型要不断地进行自我学习，不止是简单记住其所包含的知识，还要累计各种数据、规则。当前，主流的语言模型都在使用Transformer架构体系，不仅能力强，而且对GPU运算特别友好。

尽管如此，我们想要模型预测准确，依旧需要大量的参数对其进行训练，以帮助大规模语言模型能够充分理解人类语言规则及其逻辑关系。

在Transformer的加持之下，人类已经可以将模型规模做到百亿级、千亿级，即如今的大型语言模型（Large Language Model）。

在大型语言模型当中，可以通过输入一些上文，经过语言模型背后的仿人类神经元构成Transformer神经网络加工处理，从而实现对下一个词的预测，并输出相应文本。

在这个训练过程当中，科学家发现，计算量大概在10的22次方之后，模型能力会完成从量变到质变的飞跃，呈现出惊人的爆发式增长，通常也将其称之为“涌现能力”。

02 涌现能力背后隐藏着哪些关键技术？

大型语言模型在达到百亿级规模后开始获得“涌现能力”，而涌现能力的背后，则进一步隐含着三个非常重要的技术：情景学习、思维链和指令学习，这也是ChatGPT得以在人工智能领域叱咤风云的关键原因。

情景学习（In-context Learning）深刻改变了传统机器学习的范式，只需要通过一系列精心设计的提示语句（Prompt），对任务进行详细描述，再辅以一些情景例子，即可让模型参考着既定例子完成特定任务。

例如，我们现在统计某部电影的评分到底是正面居多还是负面居多，那么就可以设计一个提示语句，先对任务进行描述：

这是一个电影评论情感分类器。

评论：“我喜欢这部电影！” 这条评论是正面的。

评论：“我不知道，它还行吧。。” 这条评论是中立的。

评论：“真是浪费时间，不推荐这部电影。” 这条评论是负面的。

评论：“我真的很喜欢这部电影！” 这条评论是什么性质的？

那么模型就会自动结合上下文进行学习，并预测【正面的】。

这种模式跟此前将知识直接储存在参数里的逻辑显然不太一样，也在一定程度上揭示了为什么ChatGPT通常是以多轮对话的形式进行呈现。

事实上，对于ChatGPT来说，每一次接受人类发来的对话，它都会把之前的聊天历史全部作为上文，输入给语言模型，然后由语言模型续写出一个下文，反馈给用户。这种让一个大型语言模型直接和人类进行交互，从产品创新的角度非常有智慧和远见。

思维链（Chain-of-Thought）：将一个复杂问题分解为多步推理的简单问题，让模型能够明白并学习人类如何逐步推导出该答案，这就是所谓的思维链。经过海量预训练之后的大模型已经掌握很多推理方式，我们只需要一步步引导，就可以令大模型按照人类预想的方式进行推理。

思维链方式进一步解放了模型潜力，它将模型原本不会解的复杂问题分解成多个简单问题，通过逐一解决简单问题，最终使得复杂问题迎刃而解。

自然指令学习（Learning from Natural Instructions）。传统上，机器学习都需要大量标记数据，才能让机器学习模型从数据当中实现学习。标数据本身极其繁琐，但人类总还是希望语言模型能够直接从指令中进行学习，直接听懂人类的语言。

而事实也证明，这个思路是可行的，甚至人类只需要在少量的任务上进行指令化，在经历大概40多个任务指令化之后，然后对模型进行适度微调，就很容易泛化到上百、上千种任务，即使那些任务可能从来没有见过，它也仍旧能够很好地进行应对。

尽管自然指令学习大幅提升了泛化能力，但是对人类真实意图的理解仍然有着很大差异。

OpenAI通过收集真实的人类意图，请专家写答案，从而更好地与人类偏好进行匹配。在这个过程当中，人的参与意义非常重要，使得机器在迭代中始终保持和人类的价值观、思维方式对齐，也避免了机器自己迭代起来有可能会离人类的偏好和初衷越来越远。

03 国内首个类Chat GPT模型

MOSS是如何炼成的？

在了解ChatGPT背后的基本技术原理之后，我们可以大致复现大型语言模型的关键步骤：

1、实现语言模型基座；2、指令微调；3、能力不断强化迭代。虽然这些关键步骤以及发展大势都已经十分明朗，但每一步的细节都需要进行探索。

第一步主要是Transformer架构上进行模块优化。对于ChatGPT来说，它并没有特别关注中文，很多时候只是直接把中文按照英文的方式进行编码，我们作为中国人自然是希望对中文进行优化，这就需要重新实现更好的中文编码，并想办法把中文和英文打通；此外，将来如果接入多模态的话，编码问题同样会带来架构设计以及训练稳定性等诸多问题与麻烦。

第二步是指令微调，个人认为指令微调的难度甚至比预训练更高。在预训练阶段，可以利用一些大公司成熟的预训练模型，在短时间内取得不错的训练效果；但是指令微调短期内很难实现，这一点上和OpenAI之间存在明显差距。

在与人类对齐方面，让模型的回答尽可能符合人类思维习惯是很难做到的。如果要想超过ChatGPT，肯定就得去找到一条比它更好的实现路径，而这个过程无疑充满艰险。

具体到MOSS的实现方案上，首先要激发MOSS这一大型语言模型的对话能力。因为学校不像OpenAI公司可以雇很多人去写答案，所以需要通过自指令技术先写一些种子，通过“达芬奇”帮我们扩展很多的条件语句和答案。然后基于产生的小规模对话数据，进一步利用监督策略搭建模型，并在此基础上进行能力提升，让它能够和人类的真实需求逐步对齐。

我们使用大预言模型的过程其实就是帮助它对齐人类、变得越来越好的必由之路。我们科学家就是要让机器自己去写答案，鼓励它按照我们人类的偏好不断实现迭代优化，去生产越来越符合我们人类习惯的数据类型。我们现在仍旧在加紧迭代MOSS，预计将于4月中旬开源。

整体而言，MOSS系统基于公开的中英文数据训练，目前已经拥有200亿参数，具有和人类对话的能力，并可以通过与人类交互实现迭代优化。

然而，尽管对语言的理解能力和ChatGPT已经非常相近，但是目前MOSS的整体完成度却并不高。主要原因在于MOSS在部署和训练上投入的资本还非常有限，相较于千亿级的ChatGPT，大概只是其规模的十分之一，所以MOSS还有很多事实类知识记不住，思维链能力也相对较差。目前团队也在积极尝试引入一些外部工具，来进一步扩大模型参数规模，不断实现改进与优化。

04 AI如何对未来社会形成颠覆性影响？

ChatGPT已经拥有通用语言理解的能力，并可以进一步增加对外接口，成为通用人工智能的技术基座。

这也意味着通用人工智能（Artificial General Intelligence，AGI）的加速实现对于现阶段的人类来说已经不是梦想。甚至乐观一点说，类似科幻片中的人工智能形象可能很快就会在我们的生活中出现。

以ChatGPT为代表的通用人工智能技术，可以引爆数字经济，充分发挥数据和算力效能，并催生出海量的新商业模式；可以赋能产业数字化，并通过人机协同的方式解决行业专家资源不足的问题；可以以数字人、个人助理、搜索引擎等形式对数字经济新业态、新模式提供发展动能；更将深刻改变教育、社会治理、司法等领域的生态，大幅提升行业水平。

当然，目前的通用人工智能技术尚且存在很多不足，包括随机性、不可控、容易“一本正经地胡说八道”等，不过，相信随着时间的推移，这些问题都将在未来通过各种方式逐步得到改进。或许正如图灵奖得主、著名人工智能专家杨立昆（Yann LeCun）所言：下一代模型应该更加具有事实性、无害性、即时性，并且能够灵活使用计算器、数据库、搜索引擎、模拟器等各种辅助工具，而这也是人们亟需重点解决的时代课题。

对于下一阶段的大型语言模型来讲，我们目前重点需要去做的事情就是让模型和现实世界以及人类的价值观进行“对齐”，成为一个真正的智能体，具有自身学习、跨模态学习、知识和工具利用等能力。

与此同时，AI与人类价值观“对齐”也同样不可忽视，毕竟如果AI的价值观和人的价值观背道而驰，那将会是非常危险的。

标签：

对话邱锡鹏：深度解构大语言模型，国内首个类Chat GPT模型Moss是怎样炼出来的？

本文整理自复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏在复旦大学管理学院主办的“复旦科创先锋论坛”上的讲话

编辑 | 李梦琪 蔺文颖

策划 | 郭楠

01

ChatGPT为什么这么强？

02

涌现能力背后隐藏着哪些关键技术？

03

国内首个类Chat GPT模型

MOSS是如何炼成的？

04

AI如何对未来社会形成颠覆性影响？

编辑 | 李梦琪蔺文颖