作者:宋嘉吉孙爽
摘要
ChatGPT发布后不久,Meta就开源了类GPT大语言模型LLaMA,此后,Alpaca、Vicuna、Koala等多个大模型诞生,它们以远低于ChatGPT的模型规模和成本,实现了令人瞩目的性能,引发业内人士担忧“谷歌和OpenAI都没有护城河,大模型门槛正被开源踏破,不合作就会被取代”。资本市场也在关注大模型未来竞争格局如何,模型小了是否不再需要大量算力,数据在其中又扮演了什么角色?……本报告试图分析这波开源大语言模型风潮的共同点,回顾开源标杆Linux的发展史,回答这些问题。
共同点一:始于开源。开源≠免费,开源的商业模式至少包括:1、靠服务变现。曾上市、后被IBM收购的Linux企业服务公司红帽即是一例。企业为了更稳定和及时的技术支持,愿意付费。2、靠授权费变现。安卓开源,但谷歌向欧盟使用安卓谷歌套件的厂商收取许可费即是一例。3、许可证、标准和能力评价体系的发展,是开源大模型商用程度深化的催化剂。这波开源大模型采用的许可证协议主要是Apache2.0和MIT,它们不禁止商用,并且不禁止用户修改模型后闭源,这有助于公司应用此类大模型。
共同点二:参数少、小型化。相较于GPT3+千亿参数超大模型,这波开源大模型的参数量普遍在十亿至百亿级别。目前尚没有一套系统的大模型性能评价体系,其中仅部分任务有公信力较强的评分标准。开源大模型中,Vicuna的能力也较强,在部分任务能达到92%GPT4的效果。总体来说,OpenAIGPT系仍一骑绝尘,但训练成本高,难复现。而开源大模型借助更大标识符训练数据集、DeepSpeed、RLHF等方式,实现低训练成本和高性能,超大模型以下大模型的壁垒正在消失。
共同点三:数据集重视人类指令,并走向商用。ChatGPT相较于GPT3效果大幅提升的重要因素是使用了RLHF,即在训练中,使用人类生成的答案和对AI生成内容的排序,来让AI“对齐”人类偏好。LLaMA没有使用指令微调,但LLaMA之后的大量大模型使用并开源了指令数据集,并且逐步探索自建指令数据集,而非使用有商用限制的OpenAI的,进一步降低了复现GPT的门槛,扩展了商用可用性。
接下来怎么看开源大模型?站在开源大模型浪潮中,我们注意到两个趋势:1)与多模态融合,清华大学的VisualGLM-6B即是著名开源语言模型ChatGLM的多模态升级版,我们认为,其可基于消费级显卡在本地部署的特性是大势所趋。2)开源模型+边缘计算推动AI商用落地,哈尔滨大学的中文医疗问诊模型“华驼”以及在跨境电商的使用就是案例。
投资建议:我们认为,对大模型的看法应该分时、分层看待。1、短期内,OpenAI的GPT系超大模型仍然超越众开源大模型,因此,应当重点关注与其在股权和产品上深度合作的微软、能获得ChatGPTiosApp收益分成的苹果,以及超大模型的算力服务商英伟达等;2、中长期来看,如果部分开源大模型能力被进一步验证,则应用将快速铺开,大模型对算力将形成正循环;3、其他:边缘算力、大数据公司和开源大模型服务商业态也值得关注。建议关注:1)光模块服务商:中际旭创、新易盛、天孚通信、源杰科技;2)智能模组服务商:美格智能、广和通;3)边缘IDC服务商:龙宇股份、网宿科技;4)AIoT通信芯片及设备厂商:中兴通讯、紫光股份、锐捷网络、菲菱科思、工业富联、翱捷科技、初灵信息;5)应用端标的:恺英网络、神州泰岳、佳讯飞鸿、中科金财等。
风险提示:伦理风险、市场竞争风险、政策法律监管风险。
Hackathon DAO获得100万美金捐助,推动去中心化、无许可的开源创新:11月19日消息,Hackathon DAO获得100万美金捐助,资助方为Dora Factory。Hackathon DAO是一个去中心化的开发者社区,通过资助黑客马拉松的方式,帮助和鼓励全球开源开发者,让他们专注于真正有价值的技术难题和创新,推进开源运动在Web3及新科技领域中的发展。[2021/11/19 22:04:20]
一、引言
一篇报道引发了公众对开源大语言模型的强烈关注。
1.1“谷歌和OpenAI都没有护城河,大模型门槛正被开源踏破”
“除非谷歌和OpenAI改变态度,选择和开源社区合作,否则将被后者替代”,据彭博和SemiAnalysis报道,4月初,谷歌工程师LukeSernau发文称,在人工智能大语言模型赛道,谷歌和ChatGPT的推出方OpenAI都没有护城河,开源社区正在赢得竞赛。
这一论调让公众对“年初Meta开源大模型LLaMA后,大模型大量出现”现象的关注推向了高潮,资本市场也在关注大公司闭源超大模型和开源大模型谁能赢得竞争,在“模型”“算力”“数据”三大关键要素中,大模型未来竞争格局如何,模型小了是否就不再需要大量算力,数据在其中又扮演了什么角色?……本报告试图剖析这波开源大模型风潮的共同点,回顾开源标杆Linux的发展史,回答以上问题,展望大模型的未来。
1.2开源大模型集中出现,堪称风潮
2月24日,Meta发布LLaMA开源大模型,此后,市场集中涌现出一批大模型,大致可以分为三类。
1.2.1“LLaMA系”:表现好,但商用化程度低
LLaMA包括四个不同的参数版本,不支持商用,指令数据集基于OpenAI,模型表现可与GPT-3持平或优于GPT-3。其中,70亿和130亿参数版拥有包含1万亿个标识符的预训练数据集;330亿和650亿参数版拥有包含1.4万亿个标识符的预训练数据集。在与GPT-3的对比中,LLaMA-70亿参数版在常识推理任务、零样本任务、自然问题和阅读理解中的表现与GPT-3水平相当,而130亿参数及更高参数的版本模型在以上领域的表现均优于GPT-3。
LLaMA模型本身没有使用指令数据集,但考虑到效果优于GPT-3的ChatGPT使用了人类指令数据集,一批开源大模型在LLaMA模型基础上,使用了OpenAI指令数据集来优化模型的表现,包括Alpaca、GPT4All、Vicuna、Koala、OpenAssistant和HuggingChat。由于OpenAI指令数据集不可商用,因此这批基于LLaMA的开源大模型也都不可商用。
1.2.2Dolly2.0、RedPajama、StableLM等:商用化程度高
这些大模型没有使用OpenAI指令数据集,因此可以商用,但大多数还在持续开发中。
1.2.3中文双子星:ChatGLM-6B和MOSS
ChatGLM-6B和MOSS分别由清华大学和复旦大学相关研究团体推出,在中文社区知名度较高。
这批模型还具有一些共同点,报告将在下文详述。
二、共同点一:始于开源
这波风潮中,不管是模型本身,还是模型所使用的数据集,它们首要的共同点是“开源”。
2.1为什么要开源?
市场对开源大模型的重要问题是,为什么要开源,这是否会损伤大模型行业的商业模式。我们梳理了部分大模型对开源原因的自述,总结如下。
开源支付网络 Celo 与 Mysten Labs 合作以提高平台扩展性并增加密钥恢复功能:9月23日消息,开源支付网络 Celo 宣布与 Web3 基础设施研究实验室 Mysten Labs 合作以提高 Celo 平台的可用性和扩展性,并增加密钥恢复功能。合作的第一步是将 Narwhal 和 Tusk 共识引入 Celo,接下来,Mysten 还将为 Celo 平台添加 Side-by-Side 的 Move 语言支持,并将 Celo 核心合约迁移至 Move (例如 cUSD 和 cEUR 代币)。这项合作将提高 Celo 平台的可用性和可扩展性,Narwhal、Tusk、Move 的组合可以在全球网络延迟的情况下实现超过 14 万 TPS 的吞吐量。另一个合作是 Mysten 将为 Celo 增加 KELP 密钥恢复协议,这将使 Celo 用户更容易自我保管资产,减少丢失密钥的可能。[2021/9/23 17:00:22]
2.1.1模型视角:防止大公司垄断,破除商业禁用限制
为了使人工智能研究民主化,弥合开放模型和封闭模型之间的质量差距,破除商业化禁用限制,开源大模型的蓬勃发展有望促进以上目标。
2.1.2数据视角:保护企业机密,使定制化数据训练成为可能
保障数据隐私,允许企业定制化开发。对于许多行业而言,数据是企业的命脉,大模型的开源使得企业可以将自己的数据集在大模型上进行训练,同时做到对数据的控制,保护企业数据隐私。同时,开源大模型允许企业的开发人员在模型的基础上进行定制化开发,定向训练数据,也可以针对某些主题进行过滤,减少模型体量和数据的训练成本。
2.1.3算力视角:降低算力成本,使大模型的使用“普惠化”
开源大模型节省了训练阶段的算力消耗,为企业降低算力成本,推动大模型使用“普惠化”。算力总需求=场景数*单场景算力需求。在大模型的训练和使用中,算力消耗分为两部分场景,即训练成本消耗及推理成本消耗。
就训练成本而言,大模型的训练成本高,普通企业的算力资源难以承受,而开源大模型主要节省了企业预训练阶段的算力。但由于不同垂类的训练场景更加丰富,所以整体训练需求是增长的。
就推理成本而言,大模型在参数体量庞大的情况下,其推理成本也很高,普通公司难以维持其日常开销,因此,降低模型参数体量可进而降低企业在使用模型时的推理成本。
2.2开源,需要什么土壤?
开源大模型的蓬勃发展并非没有先例,全球规模最大的开源软件项目——Linux有类似的故事。研究Linux的发展史,对展望开源大模型的未来,有借鉴意义。
2.2.1从开源标杆Linux说开去
Linux是一款基于GNU通用公共许可证发布的免费开源操作系统。所有人都能运行、研究、分享和修改这个软件。经过修改后的代码还能重新分发,甚至出售,但必须基于同一个许可证。而诸如Unix和Windows等传统操作系统是锁定供应商、以原样交付且无法修改的专有系统。
许多全球规模最大的行业和企业都仰赖于Linux。时至今日,从维基百科等知识共享网站,到纽约证券交易所,再到运行安卓的移动设备,Linux无处不在。当前,Linux不仅是公共互联网服务器上最常用的操作系统,还是速度排名前500的超级电脑上使用的唯一一款操作系统。
服务器市场,Linux市占率已经远超操作系统“鼻祖”Unix,“Linux时刻”发生。以中国市场为例,根据赛迪顾问数据,按照装机量统计,在服务器架构上,Linux是市场主流,占据绝对领先地位,市场占有率达到79.1%。Windows市场占有率降至20.1%,Unix市场占有率仅剩0.8%。
2.2.2Linux并非一己之作,借力于社区身后的开源历史
Unix开源过,为Linux提供了火种
Paydex开源测试取得成功:据官方消息,paydex开源测试已经取得成功,代码托管平台地址见原文链接。[2020/3/17]
Unix,现代操作系统的鼻祖。操作系统是指直接管理系统硬件和资源的软件,它位于应用与硬件之间,负责在所有软件与相关的物理资源之间建立连接。而Unix被许多观点认为是现代操作系统的鼻祖。
Unix曾开源。世界上第一台通用型计算机诞生于1946年,而Unix开发于1969年。在长达十年的时间中,UNIX拥有者AT&T公司以低廉甚至免费的许可将Unix源码授权给学术机构做研究或教学之用,许多机构在此源码基础上加以扩展和改进,形成了所谓的“Unix变种”。后来AT&T意识到了Unix的商业价值,不再将Unix源码授权给学术机构,并对之前的Unix及其变种声明了著作权权利
Unix回归闭源之后太贵,促成了Linux的开发
Linux由LinuxTorvalds于1991年设计推出,当时他还在读大学,认为当时流行的商业操作系统Unix太贵了,于是基于类Unix操作系统Minix开发出了Linux,并将其开放给像自己这样负担不起的团队。
仅用于教学的Minix,启发了Linux的开发
在AT&T将源码私有化后,荷兰阿姆斯特丹自由大学教授塔能鲍姆为了能在课堂上教授学生操作系统运作的实务细节,决定在不使用任何AT&T的源码前提下,自行开发与UNIX相容的作业系统,以避免版权上的争议。他以小型UNIX之意,将它称为MINIX。第一版MINIX于1987年释出,只需要购买它的磁片,就能使用。在Linux系统还没有自己的原生档案系统之前,曾采用Minix的档案系统。
开源社区、许可证与标准助力
从开始就开源。1991年8月,Linux创始人LinusTorvalds将Linux发到MinixUsenet新闻组。随后他将Linux发布到FTP网站上,因为他想让更多人一起来开发这个内核。
许可证助力生态开枝散叶、生生不息。Linux基于GNUGPL许可证模式。GPL许可证赋予“自由软件”赋予用户的四种自由,或称“Copyleft”:
自由之零:不论目的为何,有“使用”该软件的自由。
自由之一:有“研究该软件如何运作”的自由,并且得以“修改”该软件来符合用户自身的需求。可访问源代码是此项自由的前提。
自由之二:有“分发软件副本”的自由,所以每个人都可以借由散布自由软件来敦亲睦邻。
自由之三:有将“公布修订后的版本”的自由,如此一来,整个社群都可以受惠。可访问源代码是此项自由的前提。
GPL许可证要求GPL程序的派生作品也要在遵循GPL许可证模式。相反,BSD式等许可证并不禁止派生作品变成专有软件。GPL是自由软件和开源软件的最流行许可证。遵循GPL许可证使得Linux生态能生生不息,不至于走进无法继续发展的“死胡同”。
标准对内使生态“形散而神不散”,对内拥抱“巨鲸”。
对内统一标准。Linux制定了标准LSB来规范开发,以免各团队的开发结果差异太大。因此,各Linux衍生开发工具只在套件管理工具和模式等方面有所不同。我们认为,这使得Linux开源社区的发展“形散而神不散”,使Linux生态的发展不至于分崩离析。
对外兼容Unix。为了让Linux能兼容Unix软件,LinusTorvalds参考POSIX标准修改了Linux,这使得Linux使用率大增。该标准由IEEE于20世纪90年代开发,正是Linux的起步阶段,它致力于提高Unix操作系统环境与类Unix操作系统环境下应用程序的可移植性,为Linux的推广提供了有利环境。
2.3开源了,还怎么赚钱?
声音 | 李林:火币公链的特性是开源、自主、可定制、可监管:在12月5日,由海南省工业和信息化厅主办,南南合作金融中心协办,海南生态软件园、火币中国承办的“海南自贸港数字经济和区块链国际合作论坛”上,火币集团创始人李林表示,火币公链第一个特性是开源,系统共享;第二个是自主,公链上每个国家和地区,每个伙伴都可以在链上设置自己的节点,自主运营;第三是可为金融应用定制, 包括支持政府监管,支持政府作为关键节点加入。[2019/12/5]
市场对“开源”的核心疑问是商业模式。“开源”本身免费,但“开源”作为土壤,“开源社区”孕育出了各种商业模式,从Linux的生态中可以学习到这一点。
2.3.1红帽公司:服务至上
红帽公司是Linux生态的领军企业,超过90%的《财富》500强公司信赖红帽公司,红帽作为公司的商业价值巨大。1993年,红帽成立,1999年,红帽即在纳斯达克上市,红帽招股书援引IDC的数据称,截止到1998年所有经授权的新安装Linux操作系统中,有56%来自红帽;2012年,红帽成为第一家收入超过10亿美元的开源技术公司;2019年,IBM以约340亿美元的价格收购了红帽。
关于Linux和红帽的商业模式,就像好奇心日报打的比方,某种意义上,开源的Linux内核像免费、公开的菜谱,红帽们像餐厅,人们仍然愿意去餐厅品尝加工好的菜肴和享受贴心的服务。红帽面向企业提供Linux操作系统及订阅式服务,主要服务内容包括:1、24*7技术支持;2、与上游社区和硬件厂商合作,支持广泛的硬件架构,如x86、ARM、IBMPower等;3、持续的漏洞警报、定向指导和自动修复服务;4、跨多个云的部署;5、实时内核修补、安全标准认证等安全防护功能;6、检测性能异常、构建系统性能综合视图,并通过预设调优配置文件应用等。
2.3.2安卓系统:背靠谷歌,靠广告变现
根据Statcounter数据,截至2023年4月,安卓系统是全球第一手机操作系统,市占率高达69%,远超第二名。安卓基于Linux内核开发,2005年被谷歌收购。随后,谷歌以Apache免费开放源代码许可证的授权方式,发布了安卓的源代码,使生产商可以快速推出搭载安卓的智能手机,这加速了安卓的普及。
而关于商业模式,安卓手机预装的诸多服务由谷歌私有产品提供,例如地图、GooglePlay应用商店、搜索、谷歌邮箱……因此,尽管安卓免费、开源,但谷歌仍能通过其在移动市场“攻城略地”,将用户流量变现。
谷歌还直接向安卓手机厂商收取授权费,从2018年10月29日开始,使用安卓系统的手机、平板电脑的欧盟厂商使用谷歌应用程序套件,必须向谷歌支付许可费,每台设备费用最高达40美元。
2.4开源大模型主流许可证支持商用
开源社区已经有GPL、BSD、Apache等知名许可证。大模型方面,我们注意到,2023年2月发布的、引领了大模型开源浪潮的LLaMA禁止商用,仅可用于研究,MetaAI将根据具体情况,授予公务员、社会团体成员、学术人员和行业研究实验室,访问该模型的权限。其中,LLaMA的推理代码基于GPL3.0许可证,这意味着:1)他人修改LLaMA的推理代码后,不能闭源;2)新增代码也必须采用GPL许可证。不过,我们注意到,部分开发人员在LLaMA基础之上开发的变体模型,有不同类型的许可证。例如,基于nanoGPT的LLaMA实现Lit-LLaMA新增了部分模型权重,这部分模型采用的许可证是Apache2.0。
开源大模型采用的协议主要是Apache2.0和MIT许可证。Alpaca、Vicuna、Dolly、OpenAssistant和MOSS均采用Apache2.0许可证,Koala和GPT4all采用MIT许可证。这两个许可证均允许商用。但令人惋惜的是,Alpaca、Vicuna、Koala和GPT4all因OpenAI或LLaMA限制无法商用。同时,值得注意的是,Apache2.0和MIT许可证均允许再修改源码后闭源,公司可以在开源大模型基础上开发自己的模型,或对公司更有吸引力。
动态 | 微软公布新开源形式验证工具VeriSol,旨在优化智能合约质量:据Crypto Globe消息,6月3日,微软研究院(Microsoft Research)在博客中揭示了一个新的开源形式验证工具。该工具旨在提高使用Solity(为以太坊区块链构建的编程语言)子集编写的智能合约的质量。 新工具名为VeriSol(即Verifier for Solidity),曾出现在一篇概述微软Azure区块链智能合约验证的设计和应用的学术论文中。博客文章称,尽管VeriSol迄今仍然是一个主要由Azure智能合约驱动的原型,但研究人员对其期望很高,同时也在鼓励开放协作以促进形式验证发展并引入主流智能合约开发中。[2019/6/4]
三、共同点二:开源大模型参数少、小型化
“模型参数的大小”与“模型对算力的需求”正相关。
3.1超大模型和大模型分别多大?
预训练赋予模型基本能力。在自然语言处理中,预训练是指在特定任务微调之前,将语言模型在大量文本语料库上训练,为模型赋予基本的语言理解能力。在预训练过程中,模型被训练以根据前面的上下文预测句子中的下一个单词。这可以通过掩盖一些输入中的单词并要求模型预测它们的方式进行,也可以采用自回归的方法,即根据句子中的前面单词预测下一个单词。
预训练模型通常包括大量的参数和对应的预训练数据。2017年谷歌大脑团队Transformer模型的出现,彻底改变了NLP的面貌,使得模型可以更好地理解和处理语言,提高NLP任务的效果和准确性。
超大模型和大模型分别多大?语言模型的大小是根据其参数量来衡量的,参数量主要描述了神经元之间连接强度的可调值。目前一般大语言模型参数量在几十到几百亿之间,超过千亿参数的我们称为“超大模型”,例如GPT-3。
3.2GPT系超大模型能力最强,但难复现
大模型的性能评价标准并没有统一。一个重要原因是大模型生成内容的任务种类多,不同的应用场景和任务可能需要不同的指标和方法去评估模型的表现。其中部分任务可能有公信力较强的评分标准,如机器翻译中的BLEU,但大部分任务缺乏类似标准。
模糊共识是超大模型性能好。大语言模型目前的发展趋势是越来越大,原因是大模型在预训练后就具有较好通用性和稳定性。例如,谷歌团队的超大模型PaLM,在零样本和少量样本测试中均有良好的成绩,并且随着其训练标识符数量的上升,性能仍能提升。这也不难理解,简单来说,模型见得多了,自然会的也多了。
“同行评议”,GPT系大模型“风华绝代”。当前,OpenAIGPT系的超大模型拥有着强大的能力和广泛的应用,在处理自然语言任务时具有高准确性和强大的表达能力,其在文本生成、问答系统、机器翻译等多个领域都取得了出色效果,成为了当前自然语言处理领域的标杆之一,被各类大模型当作比较基准。复现ChatGPT的门槛并没有降低,开源大模型大部分仅在某些方面有较好的表现,整体质量与ChatGPT仍不可比,尚需观望。
近段时间以来,我们还注意到如下评价体系,评价方法主要包括机器自动评测、人类盲评等,我们重点介绍其中部分及其测评结果,但不论哪种评价体系,GPT系大模型都一骑绝尘。
海外
伯克利大学ChatbotArena借鉴游戏排位赛机制,让人类对模型两两盲评;
开源工具包ZenoBuild,通过HuggingFace或在线API,使用Critique评估多个大模型。
海内
SuperCLUE中文通用大模型综合性评测基准,尝试全自动测评大模型;
C-Eval采用1.4万道涵盖52个学科的选择题,评估模型中文能力,类似标准尚需时间和市场的检验。
3.2.1Vicuna:利用GPT-4评估
目前大部分开源大模型性能未进行系统评价,更多处在起步试验阶段。在对性能进行评价的开源大模型中,Vicuna的报告中利用GPT-4进行的评估相对较为系统,结果也最令人瞩目。
3.2.2ZenoBuild测评:较新,较全面
ZenoBuild对GPT-2、LLaMA、Alpaca、Vicuna、MPT-Chat、CohereCommand、ChatGPT七个模型测评,结果与GPT-4评价结果相近。ChatGPT有明显优势,Vicuna在开源模型中表现最佳。
3.2.3C-Eval:全面的中文基础模型评估套件
C-Eval评估结果显示,即便是在中文能力上,GPT-4也是一骑绝尘,但GPT-4也仅能达到67%的正确率,目前大模型的中文处理能力尚有很大提升空间。
3.2.4GPT系超大模型训练成本高,短期内难复现
ChatGPT所需算力和训练成本可观。不考虑与日活高度相关的推理过程所需的算力,仅考虑训练过程,根据论文《LanguageModelsareFew-ShotLearners》的测算,ChatGPT的上一代GPT-3所需的算力高达3640PF-days,已知单张英伟达A100显卡的算力约为0.6PFLOPS,则训练一次GPT-3,大约需要6000张英伟达A100显卡,如果考虑互联损失,大约需要上万张A100,按单张A100芯片价格约为10万元,则大规模训练就需要投入约10亿元。OpenAI在GPT-3的训练上花费了超过400万美元,而为了维持ChatGPT和GPT4的运转,每个月理论上更高。
3.3开源大模型性价比高,超大模型以下大模型的壁垒正在消失
开源大模型小型化趋势明显,参数约为百亿级别,成本降低乃题中之义。开源大模型通常具有较少的参数,在设计、训练和部署上,需要的资源和成本都相对较低。这波开源大模型的参数普遍较小,均在十亿~百亿级别左右。
“船小好调头”,基于已有的开源预训练模型进行微调也是开源大模型的优势之一。在预训练模型基础上进行微调和优化,以适应不同的任务和应用场景,这种方法不仅可以大大缩短模型的训练时间和成本,而且还可以提高模型的性能和效率。
更多标识符训练数据和新技术,让超大模型以下的大模型壁垒趋于消失。LLaMA被“开源”,让大家都有了一个可上手的大模型,并且随着DeepSpeed、RLHF等技术的发展,几百亿的模型可以部署在消费级GPU上。
更多标识符训练数据可能比更多参数重要:DeepMind发表于2022年3月29日的研究《TrainingCompute-OptimalLargeLanguageModels》向我们揭示了模型大小和训练数据规模之间的关系:
大模型往往训练不足,导致大量算力的浪费。
用更小的模型更充分地训练,能达到比大模型更好的性能。例如DeepMind的Chinchilla,模型仅有700亿参数,经过1.4万亿标识符训练数据集的训练,在测试中效果优于DeepMind的Gopher和OpenAI的GPT-3。
为了更好地实现模型性能,模型参数量每翻一倍,标识符训练数据集的规模也应该随之翻一倍。
更小的模型,也意味着更小的下游微调和推理成本。
DeepSpeed技术:可以显著减少训练大模型的时间和成本;
RLHF:可以以较小的标识符训练量提高模型的性能和准确性。
四、共同点三:开源大模型数据集重视人类指令,并自立门户
“数据集的大小”也与“模型所需的算力”正相关。
4.1学习ChatGPT方法论,引入人类指令数据集
微调是提升特定性能的捷径。微调是指在已经预训练的模型上,使用具有标注数据的特定任务数据集,进一步小规模训练。微调可以以较小的算力代价,使模型更加适应特定任务的数据和场景,从而提高模型的性能和准确性。目前微调多为指令微调,指令数据集逐渐成为开源大模型的标配。
RLHF,是一种新兴的微调方法,它使用强化学习技术来训练语言模型,并依据人类反馈来调整模型的输出结果。RLHF是ChatGPT早期版本GPT3所不具备的功能,它使得只有13亿参数的InstructGPT表现出了比1750亿参数GPT-3更好的真实性、无害性和人类指令遵循度,更被标注员认可,同时不会折损GPT-3在学术评估维度上的效果。
RLHF分为三个步骤:1)监督微调:让标注员回答人类提问,用这一标注数据训练GPT;2)奖励模型训练:让标注员对机器的回答排序,相较于第一步由标注员直接撰写回答的生成式标注,排序作为判别式标注的成本更低,用这一标注训练模型,让它模拟人类排序;3)无人类标注,用近端策略优化算法微调模型。
这三个步骤对应的数据集的大小分别为1.3万个、3.3万个、3.1万个。
对于具有大量数据和一定算力的公司来说,使用自己的数据进行微调可以展现出模型的特化能力,并且用较小的算力达成接近大模型的效果。如多校联合开发的Vicuna语言模型,基于Meta的LLaMA-130亿参数版模型,对7万条用户分享的ChatGPT对话指令微调,部分任务上,达到了92%的GPT4的效果。在通用性和稳定性上无法超过超大模型,但可以通过微调强化其某些方面的能力,性价比要更高,更适合中小公司应用。
4.2数据集走向商用
数据集是语言模型发展的重要基础和支撑,通常是由公司或组织自主收集、整理或直接购买获得。相比之下,开源数据集大多由社区或学术界共同维护的,其数据量和种类更加丰富,但可能存在一定的数据质量问题和适用性差异。
4.2.1预训练数据集少量可商用
预训练数据集开源对模型商用至关重要。在后LLaMA时代,开源大模型犹如雨后春笋般涌现,但很快大家便发现由于LLaMA和OpenAI的限制,基于其开发的模型无法商用,为了打破这一局面,Dolly2.0率先出手,“为了解决这个难题,我们开始寻找方法来创建一个新的,未被“污染”的数据集以用于商业用途。”随后RedPajama和MOSS接踵而至。
4.2.2指令数据集部分可商用
打造开源生态,各取所需。在早期开源项目中,因其指令数据及多来自ChatGPT生成或对话内容,受OpenAI限制无法商用。除去研究用途微调外,目前越来越多模型选择自己构建指令数据集来绕开这一限制。
指令数据集多样化,部分模型的指令数据集可商用化。按照上文对此批集中出现的大模型的分类,除去LLaMA、基于LLaMA开发出的模型以及StableLM使用OpenAI的指令数据集外,其余大模型的指令数据集均不基于OpenAI,也因此这些大模型的指令数据集可商用化,这会加快推动使用且重视RLHF训练范式的此类大模型的更迭与发展。
五、展望
我们注意到开源大模型走向相似的路口。
5.1多模态化:助力通用人工智能发展
多模态开源大模型开始出现,将大模型推向新高潮,助力人类走向通用人工智能。多模态即图像、声音、文字等多种模态的融合。多模态模型基于机器学习技术,能够处理和分析多种输入类型,可以让大模型更具有通用性。基于多领域知识,构建统一、跨场景、多任务的模型,推动人类走向通用人工智能时代。
5.1.1ImageBind闪亮登场,用图像打通6种模态
ImageBind开源大模型可超越单一感官体验,让机器拥有“联想”能力。5月9日,Meta公司宣布开源多模态大模型ImageBind。该模型以图像为核心,可打通6种模态,包括图像、温度、文本、音频、深度信息、动作捕捉传感。相关源代码已托管至GitHub。该团队表示未来还将加入触觉、嗅觉、大脑磁共振信号等模态。
从技术上讲,ImageBind利用网络数据,并将其与自然存在的配对数据相结合,以学习单个联合嵌入空间,使得ImageBind隐式地将文本嵌入与其他模态对齐,从而在没有显式语义或文本配对的情况下,能在这些模态上实现零样本识别功能。
目前ImageBind的典型用例包括:向模型输入狗叫声,模型输出狗的图片,反之亦可;向模型输入鸟的图片和海浪声,模型输出鸟在海边的图片,反之亦可。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。