RHO:看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

来源：量子位

作者：萧箫

大模型们胡说八道太严重，英伟达看不下去了。

他们正式推出了一个新工具，帮助大模型说该说的话，并回避不应该触碰的话题。

这个新工具名叫“护栏技术”，相当于给大模型加上一堵安全围墙，既能控制它的输出、又能过滤输入它的内容。

一方面，用户诱导大模型生成攻击性代码、输出不道德内容的时候，它就会被护栏技术“束缚”，不再输出不安全的内容。

另一方面，护栏技术还能保护大模型不受用户的攻击，帮它挡住来自外界的“恶意输入”。

加密矿企Riot子公司起诉Rhodium Enterprises拖欠2600万美元的托管费:金色财经报道，比特币矿业公司 Riot Platforms (RIOT) 的子公司 Whinstone US 正在起诉另一家矿业公司 Rhodium Enterprises，指控其欠 2600 万美元的托管费。这起违约民事诉讼由 Riot 公司于 5 月 2 日向德克萨斯州米拉姆县地方法院提起，Rhodium 公司的四家子公司作为被告。Riot 声称 Rhodium “故意错误计算”了它必须为 Riot 的托管服务支付的托管费用，这两家公司本应分享 Rhodium 在 Whinstone 设施开采的净收入，并进一步指控 Rhodium 实体从 2021 年到 2023 年第一季度拖欠 2600 万美元的托管费。[2023/5/13 15:00:22]

现在，这个大模型护栏工具已经开源，一起来看看它的效果和生成方法。

消息人士：SBF父母面临对FTX业务参与程度的审查:金色财经报道，据消息人士透露，SBF的父母Joseph Bankman和Barbara Fried在巴哈马参与了SBF的业务运营，正在面临对FTX业务参与程度的审查。此外FTX首席执行官John J.Ray III在国会听证会期间曾被问及SBF的父母是否为FTX雇员，他表示，“这家人肯定收到了付款”。（澳大利亚天空电视台）[2022/12/19 21:53:19]

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍，目前NeMoGuardrails一共提供三种形式的护栏技术：

话题限定护栏、对话安全护栏和攻击防御护栏。

Bancor发起销毁100万枚BNT以支撑币价的提案:9月27日消息，Bancor 发起社区提案投票，提案建议从 Bancor Vortex v3 保险库中销毁 100 万枚 BNT，以观察销毁是否会对 BNT 产生积极影响。若效果良好，Bancor 预期未来会继续发起销毁 BNT 的提案。[2022/9/27 22:33:56]

话题限定护栏，简单来说就是“防止大模型跑题”。

大模型具备更丰富的想象力，相比其他AI更容易完成创造性的代码和文字编写工作。

但对于特定场景应用如写代码、当客服而言，至少用户不希望它在解决问题时“脱离目标范围”，生成一些与需求无关的内容。

这种情况下就需要用到话题限定护栏，当大模型生成超出话题范围的文字或代码时，护栏就会将它引导回限定的功能和话题上。

CoinDCX推出DeFi移动应用程序Okto:金色财经报道，印度加密货币交易所CoinDCX于周五推出了去中心化金融(DeFi)移动应用程序Okto，旨在缓解加密消费者向DeFi的过渡。Okto的目标是帮助用户“通过其内置钱包安全地导航DeFi并从多个DEX跨链访问数千个代币”，并“随时随地交换加密货币，并通过访问DeFi中最好的流动性池来最大化其收益。”该产品是无密钥的，因为用户只需要一个基本的电子邮件和电话号码，这些号码由多方计算(MPC)技术保护，用户可以避免管理冗长的私钥。（coindesk）[2022/8/26 12:50:30]

对话安全护栏，指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误，即“听起来很有道理，但其实完全不对”的东西；

另一方面是大模型生成带偏见、恶意的输出，如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏，即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病APP从而攻击它，也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击，避免大模型瘫痪。

所以，这样的护栏要如何打造？

如何打造一个大模型“护栏”？

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说，一个护栏应当包括三方面的内容，即格式规范、消息和交互流。

首先是格式规范，即面对不同问题的问法时，规定大模型要输出的内容。

例如被问到“XX文章是什么”，大模型必须给出特定类型的“文章”，而非别的东西；被问到“谁发表了什么”，大模型必须给出“人名”，而非别的回答。

然后是消息定义，这里以“用户问候”话题为例，大模型可以输出这些内容：

最后是交互流的定义，例如告诉大模型，怎么才是问候用户的最好方式：

一旦问候用户的机制被触发，大模型就会进入这个护栏，规规矩矩地问候用户。

具体工作流程如下：首先，将用户输入转换成某种格式规范，据此生成对应的护栏；随后，生成行动步骤，以交互流指示大模型一步步完成对应的操作；最后，根据格式规范生成输出。

类似的，我们就能给大模型定义各种各样的护栏，例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”，大模型也能学会冷静应对：

目前，英伟达正在将护栏技术整合进他们的AI框架NeMo中，这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们，可以试一试了~

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

币安app官网下载NFT:深度解读NFT MEV：NFT交易中的新机遇

1900/1/1 0:00:00

原文来源：AlanaLevin,?VariantFund原文编译：Cecilia,?bfrenzDAO MEV,即最大可提取价值,指的是通过重新排序、插入和审查区块内的交易.

PolygonHAT:大模型监管观察：英美、欧盟如何规制ChatGPT训练数据？

1900/1/1 0:00:00

来源：金杜研究院,作者：?宋海燕? 图片来源：由无界AI工具生成ChatGPT,一款由美国科技公司OpenAI于2022年11月30日发布的AI聊天机器人,一经面世便引发全球热议.

狗狗币价格IGC:“首届温州鞋服产业AIGC设计大赛”开始了，如何参赛看这里！

1900/1/1 0:00:00

2023年4月,温州多家科研机构、科技公司和社会组织共同发起了温州AIGC产业联盟,并与温州市服装商会共同发起“首届温州鞋服产业AIGC设计大赛”活动.

MATICETH:Bankless：为什么 EigenLayer 让我们兴奋？

1900/1/1 0:00:00

地平线上似乎出现了一个新的“纪元”。在加密之旅中,每隔一段时间,开拓者就会发现一种新的原语,从而改变整个行业的格局.

地球链

RHO:看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

地球链