1、谷歌:全球搜索与移动生态公司巨头,转型AI+云计算
1.1、公司概况:全面推进AI+云计算转型
谷歌为全球搜索与移动生态公司巨头,以在线广告收入为核心,并逐步推进“AI+云计算”建设。谷歌由 拉里·佩奇和谢尔盖·布林于 1996 年联合创立,2004 年于纳斯达克上市,2015 年,谷歌成立母公司 Alphabet, Google 成为母公司旗下最大子公司,Calico、Nest、Fiber 等成为 Google 同级子公司。谷歌(Alphabet)的业务 板块包括 Google 和 Other Bets 两部分,其中 Google 为公司的核心收入来源。Google 以广告业务为核心,辅以 云业务、应用商店、硬件产品等互联网产品与服务,具体包括 Android、Search、YouTube、Apps、Maps 和 Ads。 此外,子公司 Other Bets 业务涉及生物科技(Calico)、智能家居(Nest)、资本投资(GV)、宽带服务(Fiber)和自 动驾驶(Waymo)等领域。
发展历程方面,谷歌成立 20 余年间,由单一的搜索引擎服务公司转型为全球搜索与移动生态公司巨头,其 发展历程大致分为四个阶段。第一阶段为 1996 年-2004 年,谷歌依靠搜索引擎广告收入营收。谷歌搜索最初版 本为 BackRub 搜索引擎,利用读取网络标题并利用 PageRank 算法对搜索结果排序。2000 年,谷歌基于 BackRub, 发布 AdWords,利用广告商针对搜索结果界面定向广告投放机会的价格竞拍营收,为公司提供稳定的收入来源。 第二阶段为 2004 年-2008 年,搜索引擎业务收入来源单一且局限,谷歌开始快速收购初创公司,构建公司主营 业务框架。
(资料图)
为寻找搜索引擎业务外新的收入增长点,谷歌于 2004 年上市后大量收购初创公司,其中包括 2005 年收购 Android 拓展移动生态业务,2006 年收购 YouTube 拓展视频广告业务,2007 年收购网络广告服务商 DoubleClick 和发布广告产品 AdSense,拓展在线广告业务。在此阶段,谷歌构建了其主要业务板块搜索和视频 广告、硬件、应用商店的基础。第三阶段为 2008 年-2015 年,谷歌一方面在搜索引擎、移动生态领域快速发展,另一方面,主攻技术的联合创始人拉里·佩奇于 2011 年重新担任 CEO,谷歌开始探索各类创新产品。
具体而 言 1)谷歌潜心深入发展移动生态和搜索引擎业务,于 2008 年推出 Chrome 浏览器并开源操作系统 2)谷歌在 CEO 拉里·佩奇带领下开始尝试各种新奇的想法,比如开发自动驾驶技术、谷歌眼镜,成立生物科技公司 Calico 等尝试。第四阶段为 2015 年至今,通过四年探索,谷歌的在线广告业务和其他业务逐步成熟,开始探索 AI 和 云业务的布局。2014 年谷歌收购 Deepmind,2016 年整合谷歌云,谷歌云在公司收入中占比逐年增加,未来公 司将以“AI+云计算”作为公司新的业务增长点。
管理团队方面,公司共经历了拉里·佩奇、埃里克·施密特、拉里·佩奇和桑达尔·皮猜四任 CEO。拉里·佩 奇自 1998 年-2001 年担任公司 CEO,因投资人质疑其年龄和经验限制要求其卸任。2001-2011 年,前 Sun 和 Novell 的首席执行官埃里克·施密特担任公司 CEO,因其具有丰富的管理经验,埃里克·施密特负责公司运营,两位 联合创始人专注于技术。埃里克·施密特任职期间,谷歌实现搜索引擎公司向科技巨头的转型。2011 年-2019 年,拉里·佩奇重新成为谷歌 CEO,谷歌在在线广告业务外,不断探索云业务、生物科技、智能家居、资本投 资、宽带服务和自动驾驶等创新业务。2019 年桑达尔·皮猜任职 Alphabet 和谷歌 CEO,桑达尔·皮猜曾担任谷 歌 Android 操作系统、Chrome 浏览器等核心产品负责人,对谷歌主营业务运营具备经验。
组织架构方面,谷歌组织建构经过三次调整。上市之初,公司组织架构运行“创始人+CEO 三人共同决策& 扁平化”的组织结构,其中两位联合创始人聚焦技术,具有丰富经验的桑达尔·施密特担任 CEO 负责运营。此 时组织架构特点为:公司内部减少层级关系,以项目组形式开展工作,但项目实行申请制且项目职责不明,导 致公司管理混乱且复杂。
2011 年,谷歌联合创始人拉里·佩奇(Larry Page)出任谷歌 CEO 后,简化组织框架,将 组织架构调整为“CEO+六位高级副总裁”。此阶段组织架构特点为:YouTube、搜索、广告、社交、Chrome 和移动业务等重要产品部门分别由一位高级副总裁负责,部门可独立提出产品计划,自主权提高。2015 年,因 为谷歌除主营业务外,进一步探索了自动驾驶、生物科技等多领域产品,为解决组织架构庞大和体系臃肿问题, 以及充分划分公司业务和部门职能,谷歌组建母公司 Alphabet,将核心业务归于谷歌,非核心业务拆分谷歌的 同级子公司,归于母公司 Alphabet 下。子母公司 CEO 分别由桑达尔·皮猜和拉里·佩奇担任。2019 年,谷歌 进一步简化组织架构,Alphabet 和 Google 均由桑达尔·皮猜担任 CEO。
1.2、财务分析:收入结构逐步优化,利润率保持稳定
收入结构上,广告收入是公司主要营收来源但占比逐年下滑,谷歌云营收占比逐年提高,而其他收入保持 稳定。谷歌收入结构包括广告业务、谷歌云和其他收入等,FY12- FY22,谷歌广告收入从 95%降至 80%。谷歌 云营收由 6%增至 9%,而其他收入稳定保持约 10%。费用率方面,FY21- FY22 受疫情影响、海外监管政策压制 和招聘放缓,2021 年管理费用下降,但 2022 年呈现回升态势。
2、LLM大语言模型:具备充分想象力的技术趋势
2.1、研究框架:聚焦模型结构、预训练模型、下游调试、部署、推断等环节
大模型领域的研究核心要素包括模型结构、预训练模型、下游调试、模型部署、模型推断等。根据青源会, 大模型研究领域存在一定问题,包括同质化严重的情况,多数厂商采取类似的模型架构,例如 GPT、Bert、T5 等。由于模型架构同质化,影响模型效果的核心因素更多是工程方面的技巧、细节。总体上,大模型领域的研 究机会主要包括 1)模型结构,例如非注意力交互机制、稀疏路由结构等;2)预训练模型,例如预训练任务设 计、模型更新方法等;3)下游调试,如探索任务微调效率提升方法;4)模型部署,如统一的任务范式,通过 单一模型支撑多种任务;5)模型推断,如模型压缩、剪枝、动态路由等。我们对比不同厂商大模型研发水平也 主要参照上述框架。
2.1.2、综述:Scaling Law、Prompt Engineering驱动LLMs加速发展
从技术路线上看,GPT、T5、BERT 都是基于 Transformer 架构衍生而来的。Tranformer 相对 RNN 引入 了注意力机制(Attention mechanism),实现对全局信息的利用,同时简化计算复杂度,实现对下游任务的泛化 应用。由于更简洁的模型结构设计和参数假设,Transformer 在数据抓取能力方面有所取舍,从而导致为了实现 效果提升,需要进行更大规模的数据训练,以及构建更大规模的模型,间接导致了当前模型越来越大的趋势。
根据 OpenAI 研究,预训练模型的扩大带来资源投入的指数级增长,而效果呈现线性增长的趋势,这意味 着边际投入带来的效果提升,即边际收益呈现递减的趋势,也就是给定算力等资源成本下存在参数规模的极限 值,使得 ROI 最优。另外,根据 GPT-4 技术报告,Inverse Scaling Prize 提出,在一些任务上,随着参数规模的 扩张,大模型在任务上的表现反而出现下降的情况。
GPT 是基于Transformer架构,将decoder(解码器)取出,也就是 Decoder-only 模型;相较之下,BERT是将 Transformer 架构的 Encoder(编码器)取出,即 Encoder-only,后续 T5 模型则是 Encoder-Decoder 模型。 模型结构的差异会导致其在下游任务表现的差异,例如过去学界认为 Encoder 模型对上下文理解能力更强, 因为其可以结合上下文信息进行辅助判断,而 Decoder-Only 模型仅能通过下文信息进行决策,存在一定信息损 失。这一定程度上解释了 BERT 类模型在小参数规模下在下游任务上表现好于 GPT 系列模型。
然而,近年 NLP 行业下游任务的统一化趋势改变了 BERT 模型的相对优势,即学者发现可以通过改变提问 方式将分类、匹配等下游任务统一为一类问题,从而最大化模型效果,后续发展出 Prompt engineering(提示工程)。下游任务的统一相当于帮助 Encoder/Decoder 模型规避其不擅长的任务领域。在此基础上,GPT 能够脱颖 而出更多得益于工程方面的提升而非在技术思想上创新,需要指出的是,GPT 模型采用的多数技术都是此前的 学术研究成果,就科研贡献本身,GPT 模型的提升并不多。
从技术路线上看,包括 ERNIE 在内的多数厂商选择 BERT 路线(Encoder-only),少数选择T5路线 (Encoder-Decoder),较少选择GPT路线(Decoder-only)。这种选择可以从学术影响力看出,BERT 论文的 被引用量远大于 GPT 系列论文及 T5 系列论文。事后看,当前OpenAI旗下GPT系列模型的领先得益于早期技 术选型的成功,这一成功是建立在以下基础上——GPT的学界/业界影响力小于 BERT,导致多数厂商选择跟踪 BERT 的工作。
GPT 路线此前的影响力弱于 BERT 路线主要由于 1)Google 品牌背书;2)开源精神;3)产研结合难度。 OpenAI 旗下的 GPT 路线基于 Transformer 架构,将解码器单独取出,论文发布时间早于 BERT 论文发布时间。 但论文的业界影响力弱于 BERT,我们认为,这主要由于 Google 的品牌背书,Google 研究团队在 AI 领域的研 究积累导致业界对其研究关注度更高。另一方面,GPT 系列论文发布后,相关数据集、模型不完全开源,导致 其他研究团队很难跟进和复现其研究成果,这进一步削弱了业界/学界跟进研究的动力。最重要的是,OpenAI 团队解决问题的思路与当时业界/学界有所差异,此前研究人员更倾向于设计精细的模型结构和高效的方法,实 现相同规模下效果更优,而 GPT 引入 Few-Shot/Zero-Shot 下表现没有明显好于 Fine-tuning 下的其他模型,只是 在数据量和参数量指数提升后表现快速提升。
这里存在 2 个问题:1)线性外推的思维定式。2)业界研究的思维习惯:追求效率,聚焦更具体的问题。 首先是 1)线性外推的思维定式,多数研究团队选择优先调整模型结构和训练方法等路线的隐含假设是,规模 扩张不会对技术路线的效率产生明显影响,或者即使产生影响,但相比规模扩张带来的成本,其投入难度很难 同比扩大。例如,OpenAI 的团队在 2020 年 1 月发现模型参数规模与效果存在幂律关系,即模型参数呈指数增 长时,性能会线性增加,但 GPT-3 规模大于 BERT large 几个数量级,Zero-Shot/One-Shot 下效果也没有明显优 势。这意味着 Fine-tuned 的效率提升优于参数规模扩大所带来的影响。2022 年 1 月,Google 和 DeepMind 研究 团队发现 Fine-tuning 也存在幂律关系2,因此行业主要聚焦既定规模模型的效率提升。
Google研究推动规模竞赛加速,规模界限分别是62B和175B。2022年1月,Google团队开创了思维链(CoT) 领域研究《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,通过 prompt 中引导大模型 进行逻辑推理的方式实现性能优化,并且这种优化幅度大于此前规模提升带来的线性提升。而下一个自然的问 题则是参数规模的界限,Google 团队在 2022 年 12 月3比较了不同参数规模下直接 prompt 以及 CoT 下的表现, 得出以下结论:对于所有小于 62B 的模型,直接用提示词都好于思维链。结合 GPT-3 模型规模,至少需要大 于 175B4,思维链的效果才能大于 Fine-tuned 小模型的效果。
除规模外,训练语料也可能对 CoT 能力产生较大影响。根据 Mirac Suzgun(2022)等人的研究5,基于代 码和文本数据训练的 Codex 模型在基于提示遵循任务指令、探索算法规律方面表现优于 InstructGPT 和 PaLM。 更进一步,学界/业界希望分析出具体哪一因素导致 CoT 能力产生(主要区分 fine-tuned/代码训练),因而进行 对比研究。Jason Wei在第一版论文(https://arxiv.org/pdf/2201.11903v1.pdf)提到,GPT-3 text-davinci-001在GSM8K 测试集上表现的推理能力较弱,而 text-davinci-001 是完全基于文本训练的模型。在论文第五版中 GPT-3 text-davinci-002/Codex code-davinci-002 在 GSM8K 测试集上表现明显提升。
而 Percy Liang 等研究6总结基于代码 训练的模型在推理能力方面强于非代码训练的模型,其测试集中平均推理能力 Codex cushman v1 位列(9/30), Codex davinci v2(1/30)。因此推理能力来自代码训练的可能性更大,代码训练对提升推理能力有明显帮助。更进一步的佐证是 Zero-Shot Prompting。根据 Takeshi Kojima 等人的研究7,通过加入“Let’s think step by step” 提示,模型的表现有显著提升。且根据《Scaling Instruction-Finetuned Language Models》,Finetune 计算量仅占 预训练的很小比例,因此更大可能逻辑推理能力是预训练模型本身具备的,CoT Prompt 激活了这类能力。
对齐调优方面,根据《A Survey of Large Language Models》,RLHF 等技术主要是帮助实现对齐调优 (Alignment Tuning),目前的主流目标是 Helpful、Honest、Harmless。OpenAI 团队8提出通过递归法能够实 现对长难文本的归纳总结,并指出这类方法可以进一步泛化至其他类型的任务上,实现与人类的对齐。此外, 论文指出 RL 比 SL 更有效地帮助模型对比。
具体细节方面,John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》9提到,SFT 与其等价的 BC 存在固有缺陷,即训练越充分越容易出现欺骗(即 模型并不明确自己知识的边界),RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈,而且对偏离样本的惩罚较重,RL 多样性更好,因而在面对不知道的问题时,SL 训练充分的模型倾向于 回答(胡编乱造),而非反馈不知道10。需要指出的是,OpenAI 提出 alignment tax,即模型牺牲部分性能实现 与人的对齐。
2)另一方面,业界追求效率的思路,关注投入产出比。这种思路的本质是投入资源稀缺,要在有限的资源 投入下最大化产出。而研究思路背后是互联网公司 AI 实验室与业务部门的博弈。纵观国内外互联网公司的 AI 研究部门,其大致经历了职能制、矩阵制、事业部制等架构,背后反映了大 厂对 AI 科研部门的不同期许和考核体制,这种激励体制也影响了 AI 科研部门的中长期发展。
2013 年成立的 FAIR 采取职能制,其定义 Facebook 的 AI 部门为 FAIR + Applied Machine Learning(应用机器学习团队)+ Product Groups(产品部署团队)11。但 2018 年组织架构调整后,FAIR 转向矩阵制,即 AI 实验室同时对业务部门和技 术领导(一般是 CTO 体系)负责。2021 年底 FAIR 进一步调整,将旗下 AI 研究团队并入业务部门,转向事业 部制。从职能制向矩阵制、事业部制,考核体制上越来越接近业务,越来越远离学术影响力/前瞻研究,这种转 变大多是由于互联网公司面临营收、利润压力,业绩压力倒逼研究团队转向业务团队的“外包”,压力下部分 研究人员离开业界,重回学术界,这是过去我们看到的业界 AI 研究的循环。
大厂在大模型领域研究的落后有一定时代特征:对谷歌来说是价值观变革导致凝聚力减弱,同时创新工作 不足;对 Meta 而言是企业声誉受损导致凝聚力减弱,此外则是战略重心调整导致人员流动。以谷歌为例,2018-21 年谷歌经历了介入军事、语音监听、伦理委员会等风波,价值观或政治正确在内外部引发的争议导致研究人员 产生分歧,进而离开公司。2021 年至今一些谷歌高级研究人员离职创业、加入竞争对手等。总体上来看谷歌 研究人员的离开主要是公司规模扩张带来价值观稀释,内部分歧管控失败导致的,另一方面大企业机制下对“创新”的激励趋弱,部分员工离职创业或加入中小型公司,寻求更自由、追求创新的工作。
对 Meta 而言,2018年因非法向剑桥分析泄露超 5000 万用户信息从而影响美国选举,Meta 的企业形象大幅 恶化,影响了员工对于企业的信心,导致当年大批高管及核心研究人员离职12。另外2021年 Meta员工的离职 潮主要受战略变化及组织架构调整影响,由于公司战略转向 AR/VR,一些员工出于职业发展的考虑13加入其他 公司继续本领域的研究和工作。
更大的趋势在于 1)开源带来的技术扩散,头部科研院所及互联网科技公司相比中小公司/科研院所的相对 优势在缩减,这主要由于过去 AI 领域的创新主要来自方法论层面,而非工程层面,而方法论的创新更随机;2) 对大型科技企业的监管约束趋严,大多数美国互联网科技企业都是在 1990 年后成立,并受益于 20 世纪末、21 世纪初的反垄断监管,在快速发展阶段经历了经济高速增长、监管边际宽松的环境,但 2017 年以来欧盟、韩国 等对谷歌、亚马逊、Meta、苹果公司、微软等加强监管,导致大型科技公司面临较高的监管压力。
此外,舆论环境对中小型创业公司容忍度更高也是影响大公司创新成本的要素。包括 Meta、Google、微软 在内的科技公司此前推出类似产品时都出现过由于语言模型生成内容存在虚假、政治不正确的情况,并引发舆论热议,从而迫使产品下线。例如 2015 年 Google 将黑人女性的图片识别为 Gorilla(大猩猩)14;2016 年微软 聊天机器人因种族歧视言论迅速被下线15;2021 年 Facebook(Meta)将黑人男性标注为 Primate(灵长类动物) 16。对于大型科技公司的舆论和监管压力天然高于创业公司17,这也导致其面临较高的合规成本,丧失部分灵活 性。
总结来看,BERT 模型由于存在双向路径,实现相似效果需要的参数量更大,对计算资源的要求更高,在 千亿规模下表现相对弱于 GPT,且下游任务统一化利于 GPT 模型。而据 OpenAI,其认为 GPT 模型规模已经接 近极限,往后的效果提升需要指数级参数/数据规模提升,边际效果提升较小,ROI 较低。在类似 Transformer 的新架构出现前,GPT 较 BERT 是更好的技术路径,不同 GPT 模型的差异主要取决于预训练等环节的差异。
2.1.3、预训练:差异来自数据集、知识图谱、参数规模、训练策略
预训练环节的主要差异来自 1)语料,包括语料规模、语料配比;2)知识图谱的引入;3)训练策略的优 化;4)参数规模。 1)语料 ERNIE 团队在 ERNIE 1.0 时注意到引入不同种类的语料能够提升模型预测的准确率。OpenAI 团队在 GPT-3 论文中也引入大规模且多种类的训练数据。总体而言,语料多样性越充分,高质量语料占比越高,对模型的预 测准确度有帮助,但学界在这方面的定量研究仍较为稀缺,语料对于模型预测准确率的量化影响尚不明确。
2)知识图谱的引入 ERNIE 1.0 模型相比 BERT 最大的变化就是引入知识图谱,从而提升预测准确度。具体来讲,2019 年 4 月 ERNIE 团队提出基于 BERT 的改进掩码策略,1)在单词级别随机生成掩码并引导模型预测(BERT 框架, basic-level masking),2)词组级别(phrase-level masking)、实体级别(entity-level masking)随机生成掩码并 引导模型预测。通过引导模型预测词组、实体,模型训练隐性地18引入知识图谱概念。 例如:哈利波特是 J.K.罗琳写的小说。单独预测哈[MASK]波特或者 J.K.[MASK]琳情况下,模型无法学到 哈利波特和 J.K.罗琳的关系。如果把哈利波特直接 MASK 掉的话,那模型可以根据作者,就预测到小说这个实 体,实现知识的学习。
3)训练策略的优化,ERNIE 2.0 引入持续学习框架,解决知识遗忘及训练效率的问题。ERNIE 1.0 相比基础版 BERT,改变了掩 码策略(引入知识图谱)和数据结构(加入多轮对话语料),提升了模型预测准确率。此后学界讨论通过多任 务学习提升模型的预测准确率,例如微软研究团队在《Multi-Task Deep Neural Networks for Natural Language Understanding》中论证了通过在预训练模型中加入有监督的下游任务,能够优化模型在 NLU(自然语言理解) 方面的效果。因此,后续的一个思路就是通过堆叠训练任务提示模型预测准确率,但相应存在一个问题,即模 型出现学习新知识后容易遗忘旧知识,ERNIE 2.0 主要的变化就是针对这一问题提出持续学习框架,实现知识 库扩充,优化模型效果。
常规的模型训练即序列训练模式,即后一个模型训练是建立在前一个模型训练结束后,从模型参数的角度, 后一个模型训练初始参数为前一个模型,但训练结束后参数有所调整,且由于训练是基于后一个任务,其对此 前任务的预测准确率可能低于此前的训练结果。学界此前的解决思路是将多个任务同时训练,确保模型对不同 时序加入的任务等权学习,但每新增一个任务,模型都需要重新训练此前所有的任务,这对应较高的训练成本。 ERNIE 2.0 提出序列多任务学习(Sequential Multi-task Learning)模式,通过给每个任务分配 N 个训练迭代,自 动将每个任务的 N 个迭代分配到不同训练阶段,兼顾学习效果和效率,较 BERT 框架继续优化。
OpenAI 在训练策略方面并未披露细节,但结果上看 OpenAI 训练效果好于 Meta。GPT-4、InstructGPT 论 文中其透露微软为 GPT 专门构建了计算集群和训练环境,确保训练的稳定性。GPT-4 的训练环境经过多次迭代 后表现非常稳定。而根据 Susan Zhang 教授19,Meta 在 OPT-175B 模型的训练中出现了 50 多次的断点(需要回 到 Checkpoint 重启训练),下图中不同颜色代表着模型连续训练的时间。GPT-4 能够基于“小模型”训练预测大模型的损失函数,从而降低训练负载,同时并发训练多个模型,提 升训练效率。目前没有在其他竞对中看到类似的效果。
2.1.4、下游调试、部署、推断:RHLF仍处于技术发展的早期,潜在优化空间大
GPT 系列模型的拐点在 InstructGPT,其引入了 RHLF,对应 SFT、RM、PPO 三阶段,最终效果是 PPO 模 型预测准确度好于 SFT-175 模型。而 Anthropic 团队研究《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》指出,InstructGPT 基于较小的 RM 训练反馈并非最优的,大规模 的 RM 模型对模型性能的提升可能更好。
Anthropic 团队上述研究的副产物即在 RLHF 中模型性能提升与 RM 的关系,进而在后续研究中可以通过这 一关系估算给定性能提升目标需要多大规模的 RM,并且不同参数规模的模型性能提升曲线基本上平行的,也 就是基于 RLHF 不同规模的模型的性能极限可能不同,并且性能提升的斜率可能是近似相同的。 部署和推断在 OpenAI 论文中大多数被忽略了,仅提到微软在这方面的支持。ERNIE 在论文中提到在线蒸 馏框架,实现算力节约。
总结来看,OpenAI 在 GPT-4 训练结束后花费 6 个月左右时间进行调试和其他调整,其主要精力大体上是 放在调试上,而部署、推断等更多依赖微软和其他合作方的支持。微软/英伟达在合作声明中提到,双方基于数 万块 A100、H100 GPU 芯片,NVIDIA Quantum-2 400Gb/s InfiniBand 架构,以及 NVIDIA 企业级配套软件等构 建了基于公有云的 AI 超级计算机。此外,基于 ONNX runtime 的推理框架,模型的在线推理速度能够进一步优 化。
2.1.5、量化效果:基于公开测试集进行量化评估
学界/业界对 LLM 的评估主要是基于公开测试集的评分,例如 GPT-4 的评分情况如下,GPT-4 在绝大多数 语言评测中都大幅超越了此前的 LLM SOTA(最高分),在视觉评测中部分超越此前的 SOTA,但整体表现并 不如 GPT-4 的一骑绝尘。主要难点可能在于视觉信息、文本信息的联合训练、理解。
2.2、谷歌的竞争分析:全栈技术积累深厚,总体处于第一梯队
2.2.1、预训练环节:谷歌在训练基础设施/训练策略方面布局领先
谷歌在训练集方面不具备明显优势。在训练数据集方面,现有的大模型主要采用书籍、文章、网页等文本 数据,这些数据能够帮助大模型积累语法、文本知识、文本理解、上下文连贯逻辑等能力,而在前文“综述” 部分我们提到代码对语言模型的逻辑推理能力具备帮助,因此训练数据集的多样性较为重要,确保大模型积累 多样化的能力以便后续激活,这里的问题主要是,例如逻辑推理的培养需要一定比例的高质量代码数据,1)如 何定义高质量的数据,怎么对原始数据进行清理、去重20、标注等?2)多大比例的数据能够积累能力?就我们 的知识范围,目前学术界/业界尚未有较为公开且权威的研究能够回答上述问题,但总体而言,数据质量上论文 /书籍/百科≥代码/文章≥对话≥网页。从这一角度看,Google 在数据源方面不存在明显的优势。
谷歌在 AI 架构、芯片方面处于行业领先地位。Google 在《Pathways: Asynchronous Distributed Dataflow for ML》 提出了 Pahtways 作为新一代 AI 架构,其特点是多任务,多通道,稀疏激活。在《PaLM: Scaling Language Modeling with Pathways》中,Google 提到 Pathway 下 MFU(Model Flops Utilization)达到 46.2%,高于 GPT-2/3 在 A100/V100 集群上的利用率 35.7%/21.3%,但低于 GPT-3 基于英伟达 Megatron-A100 集群实现的利用率 52%。TPU 方面, TPU 在 MLPerf 部分场景的性能测试中表现优于 A100,其中 TPU v4 在 4096 块芯片,应用 BERT 场景下性能是 A100 的 1.15 倍左右;ResNet 场景下 TPU v4 则是 A100 性能的 1.67 倍。
大模型的训练稳定性是过去研究涉及较少的。由于小模型训练时长较短,涉及的软硬件协同面较窄,扩展 至大模型下集群出现异常或错误的概率大幅提升,相应带来模型训练的不稳定性(Training instability),以及 资源的额外耗费(一般需要回到 checkpoint 重新训练)。在训练策略上,Google 团队在 PaLM 论文中提到模型 训练过程中多次出现损失函数的突变(we observed spikes in the loss roughly 20 times during training21),而 Susan Zhang 在 Stanford 分享 OPT 模型训练过程中展示了模型训练中也出现了多次波动。
谷歌在模型训练方面具有较好积累。Diederik P. Kingma 和 Jimmy Lei Ba 2014 年发表《Adam: A method for stochastic optimization》,Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭 代地更新神经网络权重。Diederik P. Kingma 于 2015 年与其他合伙人共同创立 OpenAI,并于 2018 年加入 Google Brain。而 Google 团队于 2023 年 2 月提出了 Lion 优化器22,此前流行的 AdamW 等自适应优化器需要同时保存 一阶和二阶矩相比,Lion 只需要动量,这意味着内存占用降低,且在训练大型模型和大 Batch size 时效果显著。
此外,Google 研究团队在 2021 年《Sharpness-aware minimization for efficiently improving generalization》提 出 Sharpness-aware minimization (SAM)方法,除了提升模型的泛化表现,SAM 可以提高模型对标签噪声的稳健性 (robustness)。后续 NUS23和字节跳动24的研究团队进一步优化了 SAM 方法。模型初始化策略方面,MIT 和 Google252019 年提出 Fixup 策略,避免梯度爆炸或消失,并可以应用于超过 1 万层的神经网络。后续 UCSD26和 Google27进一步在此基础上提出 Rezero 和 SkipInit,具体到每一层执行操作, 实现进一步优化。
2.2.2、模型调试:谷歌在Fine-tuning,Prompt engineering方面领先,在Alignment Tuning等领域与OpenAI存在差距
Google 团队在模型调试和 Prompt engineering 方面积累领先行业。在前文综述部分,我们提到谷歌团队开 创了 CoT 研究,其论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》引入 CoT Prompt, 并通过对比实验探测出模型能力涌现的界限大约是 62B 和 175B。Google 团队在 2022 年 12 月比较了不同参数 规模下直接 prompt 以及 CoT 下的表现,得出以下结论:对于所有小于 62B 的模型,直接用提示词都好于思维 链。结合 GPT-3 模型规模,至少需要大于 175B,思维链的效果才能大于 Fine-tuned 小模型的效果。东京大学和 Google 团队《Large Language Models are Zero-Shot Reasoners》更进一步提出 Zero-Shot Prompting,即加入“Let’sthink step by step”可以显著的提升模型性能。
对齐调优方面,OpenAI 及 Anthropic 相对领先。OpenAI 团队28提出通过递归法能够实现对长难文本的归 纳总结,并指出这类方法可以进一步泛化至其他类型的任务上,实现与人类的对齐。此外,论文指出 RL 比 SL 更有效地帮助模型对比。具体细节方面,John Schulman 在《Reinforcement Learning from Human Feedback: Progress and Challenges》29提到,SFT 与其等价的 BC 存在固有缺陷,即训练越充分越容易出现欺骗(即模型并不明确自 己知识的边界),RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈,而且对偏 离样本的惩罚较重,RL 多样性更好,因而在面对不知道的问题时,SL 训练充分的模型倾向于回答(胡编乱造), 而非反馈不知道30。需要指出的是,OpenAI 提出 alignment tax,即模型牺牲部分性能实现与人的对齐。
总结来看,谷歌在大模型领域的布局是全方位的,涵盖上游芯片、分布式计算集群、深度学习框架,以及 模型训练、调试优化策略,并且在多数环节保持领先地位,OpenAI 的成功则是建立在与微软、英伟达等公司相 互合作的基础上,并且是 OpenAI 与微软是通过股权投资绑定利益关系,这意味着其他竞争者模仿的难度较大, 而就互联网平台而言,Google 在 AI 领域的积累深厚,整体并不落后于 OpenAI 的情况。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)