看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”_BTC:GBTC价格

来源:量子位

作者:萧箫

大模型们胡说八道太严重,英伟达看不下去了。

他们正式推出了一个新工具,帮助大模型说该说的话,并回避不应该触碰的话题。

这个新工具名叫“护栏技术”,相当于给大模型加上一堵安全围墙,既能控制它的输出、又能过滤输入它的内容。

一方面,用户诱导大模型生成攻击性代码、输出不道德内容的时候,它就会被护栏技术“束缚”,不再输出不安全的内容。

另一方面,护栏技术还能保护大模型不受用户的攻击,帮它挡住来自外界的“恶意输入”。

津巴布韦央行探索使用黄金支持的数字代币提供贷款:金色财经报道,津巴布韦央行正在考虑以新推出的黄金支持的数字代币作为抵押品提供贷款的可能性。中央银行设想将其作为未来日常交易的媒介,以扩大所提供的金融服务范围。

津巴布韦银行家协会解释说,数字货币的实施将要求银行将第三种货币纳入其系统以促进支付。这一发展为银行提供以前只能用津巴布韦元和美元提供的全系列产品提供了可能性,因为以黄金为支撑的数字代币的采用和使用获得了吸引力。

此前报道,中央银行最近拍卖的由黄金支持的数字代币获得了巨大的兴趣,收到了135份申请,价值140亿津巴布韦元(1100万美元)。这些代币由140公斤的黄金储备支持。第二次拍卖定于今日举行,进一步表明对这些数字资产作为保值手段的需求不断增加。[2023/5/19 15:12:40]

现在,这个大模型护栏工具已经开源,一起来看看它的效果和生成方法。

1亿枚USDC从孙宇晨钱包地址转账至币安:金色财经报道,据Whale Alert数据显示,1亿枚USDC从孙宇晨(Justin Sun)钱包地址转账至币安。[2023/3/4 12:42:28]

防止大模型胡言乱语的三类“护栏”

根据英伟达介绍,目前NeMoGuardrails一共提供三种形式的护栏技术:

话题限定护栏、对话安全护栏和攻击防御护栏。

话题限定护栏,简单来说就是“防止大模型跑题”。

大模型具备更丰富的想象力,相比其他AI更容易完成创造性的代码和文字编写工作。

OXT研究人员通过链上分析验证了灰度的比特币信托持有的BTC数量:金色财经报道,尽管Grayscale未公开,但OXT研究人员Ergo解释称,已经采取措施,根据公共信息和区块链取证来识别可能的GBTC地址和余额。其中发现,持有317,705?BTC的432个地址可能是GBTC托管地址。

此外,在此分析中,使用额外的onchain取证来确认GBTC在Coinbase托管处持有的大约633K?BTC余额。Ergo总结指出,在发现前50%的比特币与Grayscale的BTC相关联后,该团队扫描区块链以寻找符合第1部分中发现的地址的其他地址。[2022/11/25 8:06:40]

但对于特定场景应用如写代码、当客服而言,至少用户不希望它在解决问题时“脱离目标范围”,生成一些与需求无关的内容。

这种情况下就需要用到话题限定护栏,当大模型生成超出话题范围的文字或代码时,护栏就会将它引导回限定的功能和话题上。

报告:中非银行监管机构表示加密禁令仍然有效:金色财经报道,非洲监管机构中非银行委员会 (COBAC) 已提醒包括中非共和国 (CAR) 在内的区域经济集团的成员,其对加密货币的禁令仍然有效。监管机构的最新警告是在 CAR 最近决定采用比特币作为该国的“参考货币”之后。据路透社报道,CEMAC 银行业监管机构 COBAC 认为,该禁令将确保金融稳定。据报道,监管机构在 5 月 6 日举行特别会议后发表的一份声明中表示,它还将采取措施识别和报告与加密相关的交易。与此同时,该报告引用了中非共和国政府发言人 Serge Ghislain Djorie 的话,他坚称 COBAC 尚未正式通知他的国家监管机构再次抵制加密货币。(news.bitcoin)[2022/5/16 3:17:28]

对话安全护栏,指避免大模型输出时“胡言乱语”。

胡言乱语包括两方面的情况。

一方面是大模型生成的答案中包括事实性错误,即“听起来很有道理,但其实完全不对”的东西;

另一方面是大模型生成带偏见、恶意的输出,如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏,即防止AI平台受到来自外界的恶意攻击。

这里不仅包括诱导大模型调用外部病APP从而攻击它,也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击,避免大模型瘫痪。

所以,这样的护栏要如何打造?

如何打造一个大模型“护栏”?

这里我们先看看一个标准的“护栏”包含哪些要素。

具体来说,一个护栏应当包括三方面的内容,即格式规范、消息和交互流。

首先是格式规范,即面对不同问题的问法时,规定大模型要输出的内容。

例如被问到“XX文章是什么”,大模型必须给出特定类型的“文章”,而非别的东西;被问到“谁发表了什么”,大模型必须给出“人名”,而非别的回答。

然后是消息定义,这里以“用户问候”话题为例,大模型可以输出这些内容:

最后是交互流的定义,例如告诉大模型,怎么才是问候用户的最好方式:

一旦问候用户的机制被触发,大模型就会进入这个护栏,规规矩矩地问候用户。

具体工作流程如下:首先,将用户输入转换成某种格式规范,据此生成对应的护栏;随后,生成行动步骤,以交互流指示大模型一步步完成对应的操作;最后,根据格式规范生成输出。

类似的,我们就能给大模型定义各种各样的护栏,例如“应对用户辱骂”的护栏。

这样即使用户说出“你是个傻瓜”,大模型也能学会冷静应对:

目前,英伟达正在将护栏技术整合进他们的AI框架NeMo中,这是个方便用户创建各种AI模型、并在英伟达GPU上加速的框架。

对“护栏”技术感兴趣的小伙伴们,可以试一试了~

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

水星链

[0:0ms0-1:3ms