CHI:一文了解 ChatGPT 等 LLMs 得到明显改进的 3 个变化

原文作者:Tanya Malhotra

来源:Marktechpost

近年来,大型语言模型(Large Language Models,LLMs)在全世界受到了广泛赞赏,并在自然语言处理领域备受欢迎。这使我们能够使用比以往任何时候都更好、更清晰的语言理解来描述智能系统(Intelligent Systems)。

诸如 GPT-3、T5、PaLM 等 LLMs 的性能有了显着提高,并且这些模型将继续存在,因为它们可以完成从通过学习阅读来模仿人类,到生成文本和总结长段落内容的所有工作。而根据一些深入的研究,如果 LLM 的规模很大,那么它的表现就会很好。通过在大量数据上训练这些模型,它们可以理解人类语言的语法、语义和语用学。 

分析师:FOMC或认为利率已具有足够的限制性:金色财经报道,分析师预计,美联储将继续加息25个基点至5.25%,这标志着本轮紧缩周期的终点利率。经济数据走软和信贷紧缩的迹象,可能会促使FOMC达成共识,认为利率已经具有足够的限制性,暗示有在下次会议上暂停加息的倾向。但由于通胀居高不下,美联储主席鲍威尔将不再向市场保证暂停加息是板上钉钉的事,也不会向市场保证降息迫在眉睫。[2023/5/4 14:41:09]

由 OpenAI 开发的流行的大型语言模型 ChatGPT 之所以发展得如此之快,正是因为采用了人类反馈强化学习(RLHF)等先进技术。通过 RLHF,机器学习算法结合并使用人工输入提高了模型的性能。它针对预训练的 LLM 进行了微调,用于开发聊天机器人、虚拟助手等任务。

Nubank宣布在墨西哥进行3.3亿美元的股权投资:金色财经报道,拉丁美洲最大的金融科技公司巴西数字银行Nubank周二宣布在墨西哥进行3.3亿美元的股权资本化,以推动在墨西哥的业务扩张。 (路透)[2022/12/6 21:26:29]

此外,ChatGPT 等 LLMs 所基于的预训练基础模型也得到了明显的改进。这主要是由于三个方面的变化:

1.实践证明,模型的扩展性(Scaling)对提高其性能很有帮助。以 Pathways 语言模型(Pathways Language Model,PaLM)为例,该模型通过扩展小样本学习(few-shot learning)大大影响了其性能,小样本学习可以减少根据具体应用调整模型所需的特定任务训练实例的数量。

金融基础设施提供商Prime Trust宣布剥离旗下Fund America股权融资业务:9月21日消息,金融基础设施提供商Prime Trust宣布将于今年年底退出旗下Fund America股权融资业务,主要原因是该公司数字资产业务增长迅速(去年增幅达50%以上),因此将把精力集中在最具前景的领域。

Prime Trust表示,未来将不再支持Fund America平台上的股权融资活动,Fund America会把当前的众筹和托管服务转移到显示众筹平台DealMaker,Fund America客户拟在2022年12月31日之前迁移到DealMaker。Prime Trust将继续建立其核心产品,包括合规服务、数字钱包、以及数字资产托管等,让加密货币可以成为每个人的投资组合选项。(Crowdfund Insider)[2022/9/21 7:10:12]

通过使用 Pathways 语言模型在 6144 TPU v4 芯片上扩展和训练 5400 亿个参数,PaLM 展示了重复扩展的好处,其表现超过了各种传统模型,并显示出很大的进步。因此,深度和宽度的扩展都是提高基础模型性能的一个重要因素。

概念公司业绩不佳 元宇宙产业仍处早期布局阶段:6月23日消息,昨日,受“大客户Meta的元宇宙硬件/头显将放缓”消息,VR龙头歌尔股份股价闪崩跌停。元宇宙在经历2021年概念炒作后,2022年发展持续低于预期,波折不断。业内人士表示,元宇宙有望引领未来20年的全球科技浪潮,但受制于技术发展,目前仍处于早期布局阶段。(财联社)[2022/6/23 1:25:37]

2.另一个变化是在预训练时增加标记数量的过程。像 Chinchilla 这样的模型(开源语言模型)已经证明,通过增加预训练数据,大型语言模型的表现会更好。

Chinchilla 是一个计算最优模型。在相同的计算预算下,在 70B 参数和比 Gopher 模型多四倍的数据上进行训练,Chinchilla 的表现一致优于 Gopher,它甚至比 GPT-3、Jurassic-1 和 Megatron-Turing NLG 等 LLMs 效果更好。这清楚地描述了对于每一个计算最优的训练,标记的数量应该相应地缩放——即模型大小的两倍,因此训练标记的数量应该是两倍。 

3.第三个变化是使用干净和多样化的预训练数据。Galactica 的性能证明了这一点,它是一种存储、混合和推理科学知识的大型语言模型。经过几篇科学论文文本的训练,Galactica 的表现优于 GPT-3、Chinchilla 等模型。另一个大型语言模型 BioMedLM 是一种针对生物医学文本的特定领域 LLM,在针对特定领域数据进行训练时,它表现出了巨大的性能提升。它清楚地表明,在特定领域的数据上进行的预训练胜过在通用数据上的训练。

LLMs 的成功无疑归功于多种因素的混合,包括 RLHF 的使用和预训练基础模型的发展。这三个变化极大地影响了 LLMs 的性能。此外,GLaM(通用语言模型)通过使用稀疏激活的混合专家架构(Mixture-of-Experts architecture),以更少的训练成本扩展模型的容量,从而显着提高了性能。因此,这些变化为更高级的语言模型开辟了道路,而这些模型将继续让我们的生活变得轻松。  

DeFi之道

个人专栏

阅读更多

金色财经 善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

深潮TechFlow

MarsBit

BTCStudy

澎湃新闻

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

地球链

TUSDTOS:狂飙的 AI 绘画能否摧毁视觉中国们

图片来源:由无界 AI 生成只需要输入简单的语言描述,短短几分钟后便可生成画作。这种利用AI作画的技术,以及与之相关的AIGC在去年底很快就火了起来,相关话题至今依然热度不减.

[0:31ms0-1:600ms