CHA:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因

撰文：Tanya Malhotra

来源：Marktechpost

编译：DeFi 之道

图片来源：由无界版图AI工具生成

随着生成性人工智能在过去几个月的巨大成功，大型语言模型（LLM）正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI 开发的 ChatGPT 是一个自然语言处理模型，允许用户生成有意义的文本。不仅如此，它还可以回答问题，总结长段落，编写代码和电子邮件等。其他语言模型，如 Pathways 语言模型（PaLM）、Chinchilla 等，在模仿人类方面也有很好的表现。

前美国货币审计长Joseph Otting宣布加入Blockchain.com董事会:金色财经报道，前美国货币审计长Joseph Otting宣布加入Blockchain.com董事会，Otting于2017年至 2020 年在特朗普政府期间担任审计长。审计长负责监管在美国运营的联邦特许银行、储蓄协会和外国银行的联邦分支机构。[2022/11/16 13:13:02]

大型语言模型使用强化学习（reinforcement learning，RL）来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理（agent）通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈，而完成地不好则会有相应的惩罚。像 ChatGPT 这样的 LLM 表现出的卓越性能都要归功于强化学习。

Chainalysis：稳定币有助于保护储蓄免受高通胀或当地货币波动的影响:金色财经报道，据美国区块链研究机构Chainalysis称，随着越南、印度和巴基斯坦等新兴和发展中市场经济体快速增加某些采用措施，比特币及其同类资产的价格和受欢迎程度在去年飙升，稳定币等数字代币还有助于保护储蓄免受高通胀或当地货币波动的影响。（路透社）[2021/10/2 17:21:00]

ChatGPT 使用来自人类反馈的强化学习（RLHF），通过最小化偏差对模型进行微调。但为什么不是监督学习（Supervised learning，SL）呢？一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢？人工智能和机器学习研究员 Sebastian Raschka 在他的推特上分享了一些原因，即为什么强化学习被用于微调而不是监督学习。

韩国前任总理旗下公司总裁Jaewon SHIN就任TrueChain基金会理事:9月4日，韩国前总理、第56届联合国大会主席韩升洙博士旗下公司总裁Jaewon SHIN（申在原）先生宣布就任TrueChain基金会理事，负责TrueChain全球商业和生态发展，并且将重点在韩国发力，与各大韩国财团、韩国政府建立紧密的关系。与此同时Jaewon SHIN（申在原）先生是中国著名媒体澎湃新闻特约撰稿人，擅长韩、中、英、日四国语言，一直在韩国从事亚洲和全球的资本投资业务。[2020/9/4]

Blockchain CEO：加密货币市值在2018年将达到1万亿美元:全球最大数字钱包平台之一Blockchain的首席执行官于本周一告诉CNBC，全球所有加密货币的总价值将在2018年达到1万亿美元。一些市场参与者认为，单是比特币市场就会在不久的将来价值1万亿美元。Standpoint Research的创始人Ronnie Moas于周一告诉CNBC，比特币的价格可能会达到40万美元一个，其市值最终将达到1万亿美元。[2017/12/20]

不使用监督学习的第一个原因是，它只预测等级，不会产生连贯的反应；该模型只是学习给与训练集相似的反应打上高分，即使它们是不连贯的。另一方面，RLHF 则被训练来估计产生反应的质量，而不仅仅是排名分数。

Sebastian Raschka 分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话也是必要的，而监督学习无法提供这种奖励。

不选择 SL 的第三个原因是，它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上，改变反应中的个别单词可能对整体损失只有很小的影响，但如果一个单词被否定，产生连贯性对话的复杂任务可能会完全改变上下文。因此，仅仅依靠 SL 是不够的，RLHF 对于考虑整个对话的背景和连贯性是必要的。

监督学习可以用来训练一个模型，但根据经验发现 RLHF 往往表现得更好。2022 年的一篇论文《从人类反馈中学习总结》显示，RLHF 比 SL 表现得更好。原因是 RLHF 考虑了连贯性对话的累积奖励，而 SL 由于其文本段落级的损失函数而未能很好做到这一点。

像 InstructGPT 和 ChatGPT 这样的 LLMs 同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中，首先使用 SL 对模型进行微调，然后使用 RL 进一步更新。SL 阶段允许模型学习任务的基本结构和内容，而 RLHF 阶段则完善模型的反应以提高准确性。

DeFi之道

个人专栏

金色财经善欧巴

金色早8点

Odaily星球日报

欧科云链

Arcane Labs

MarsBit

深潮TechFlow

BTCStudy

澎湃新闻

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

火币下载WEB:Web3的五大趋势

1900/1/1 0:00:00

编者按：虽然 Web3 还没有大规模普及,但这个概念已经流传很久了。本文提出了 5 个 Web3 的趋势,希望能帮助大家更了解 Web3。本文来自编译,希望对您有所启发.

中币下载GPT:万字详解 OpenAI 发布的 GPT-4

1900/1/1 0:00:00

作者：AIGC研修社北京时间今天凌晨 1 点,OpenAI 发布了全网期待已久的 GPT-4。GPT-4 的看点都有哪些呢？逻辑推理,强到可以代替你考律师啦角色扮演,cosplay 认定角色不轻.

币安交易所app下载虚拟资产:美国加密银行Silvergate深陷困境香港与美国虚拟资产监管是否殊途同归？

1900/1/1 0:00:00

作者：毕良寰引言近日,美国最大加密友好银行Silvergate Bank客户逃离叠加监管质疑,美国监管一面提醒流动性风险,一面忙于处罚.

币赢加密货币:金色早报 | 知情人士：亚马逊将于4月24日上线NFT平台

1900/1/1 0:00:00

▌知情人士：亚马逊将于4月24日上线NFT平台金色财经报道,亚马逊将于4月24日上线NFT平台,计划通过“Amazon Digital Marketplace”选项卡在亚马逊网站上提供.

地球链

CHA:ChatGPT 等 LLM 使用强化学习而非监督学习进行微调的 5 个原因

地球链