撰文:Tanya Malhotra
来源:Marktechpost
编译:DeFi 之道
图片来源:由无界版图AI工具生成
随着生成性人工智能在过去几个月的巨大成功,大型语言模型(LLM)正在不断改进。这些模型正在为一些值得注意的经济和社会转型做出贡献。OpenAI 开发的 ChatGPT 是一个自然语言处理模型,允许用户生成有意义的文本。不仅如此,它还可以回答问题,总结长段落,编写代码和电子邮件等。其他语言模型,如 Pathways 语言模型(PaLM)、Chinchilla 等,在模仿人类方面也有很好的表现。
BSV协议开发商nChain完成对Asset Layer 240万美元投资并持有20%股权:5月5日消息,BSV 协议开发商 nChain 宣布对数字资产平台 Asset Layer 进行 240 万美元投资,并持有 Asset Layer 20% 的股权。nChain 提供 Asset Layer 解决方案背后的核心区块链基础设施,为客户提供互操作性、安全性和可扩展性。
Asset Layer 是一种数字资产即服务解决方案,与 nChain 的合作提供了服务大型企业客户的机会。[2023/5/6 14:45:52]
大型语言模型使用强化学习(reinforcement learning,RL)来进行微调。强化学习是一种基于奖励系统的反馈驱动的机器学习方法。代理(agent)通过完成某些任务并观察这些行动的结果来学习在一个环境中的表现。代理在很好地完成一个任务后会得到积极的反馈,而完成地不好则会有相应的惩罚。像 ChatGPT 这样的 LLM 表现出的卓越性能都要归功于强化学习。
现场 | ChainUP创始人钟庚发:技术安全是交易所的巨大挑战,流动性是交易所的核心体验:金色财经现场报道,9月21日,以《分布式金融科技的未来之路》为主题的第六届纷智全球峰会于中国澳门举办。ChainUP创始人兼CEO钟庚发发表《区块链时代的技术与金融》主题演讲,他指出交易所具备天然的金融投资属性,是区块链技术在金融领域里第一个落地的产品形态。技术安全、流动性、资产、流量、社群是交易所发展的重要因素。交易所在经历了从2017年开始的野蛮生长,到如今在安全性上依然存在法律风险低,可追溯性差,可直接变现的问题。ChainUP从钱包、业务系统、内控三方面保障交易所的安全,可以0基础10分钟开启新交易所。在流动性上,ChainUP推出了BitWind平台,聚合了200多家交易所流动性,为客户打造最优深度,提升交易量和交易体验。[2019/9/21]
ChatGPT 使用来自人类反馈的强化学习(RLHF),通过最小化偏差对模型进行微调。但为什么不是监督学习(Supervised learning,SL)呢?一个基本的强化学习范式由用于训练模型的标签组成。但是为什么这些标签不能直接用于监督学习方法呢?人工智能和机器学习研究员 Sebastian Raschka 在他的推特上分享了一些原因,即为什么强化学习被用于微调而不是监督学习。
VNT Chain官方首发上线KKEX和BitRabbit:VNT Chain官方首发上线KKEX和BitRabbit,KKEX将于北京时间5月28日12点开放VNT/BTC交易,5月30日12点开放VNT/ETH交易;BitRabbit将于北京时间5月28日15点开放VNT/BTC及VNT/ETH交易。据了解,VNT Chain由区块链技术服务商“云象”提供技术支撑,采用“联盟链+跨链+公有链”架构,打造全球分布式智能价值网络,构建数据交换和资产交换的连接器。VNT Chain已经获得币信资本、了得资本、泛城资本、时戳资本、比升资本、THE CABIN CAPITAL等机构的投资。[2018/5/28]
金色财经现场报道 Blockgame联合创始人及Topchain核心成员Emily Lee:太平洋地区是游戏的重要市场:金色财经独家现场报道,在火币Pro举办的Blockchain Festival千人大会上,Blockgame联合创始人及Topchain核心成员Emily Lee提供的2018年报告显示,在游戏上,全球23亿玩家花费1.04亿美元。这比上一年增长了16%,数字游戏收入将占全球市场的91%。所以这可能是第一次,超过一半的收入来自移动领域,自从iPhone手机在2007年推出以来,我们发现用户比以前花费了更多时间在游戏上,这对新一代人是很正常的。在区域上,北美、欧洲、日本及太平洋地区有一些重要的全球游戏市场,我们认为太平洋地区是非常重要的一部分,这是因为一些新兴市场诸如印度、南亚等地区关注游戏的用户会大量增长。[2018/5/25]
不使用监督学习的第一个原因是,它只预测等级,不会产生连贯的反应;该模型只是学习给与训练集相似的反应打上高分,即使它们是不连贯的。另一方面,RLHF 则被训练来估计产生反应的质量,而不仅仅是排名分数。
Sebastian Raschka 分享了使用监督学习将任务重新表述为一个受限的优化问题的想法。损失函数结合了输出文本损失和奖励分数项。这将使生成的响应和排名的质量更高。但这种方法只有在目标正确产生问题-答案对时才能成功。但是累积奖励对于实现用户和 ChatGPT 之间的连贯对话也是必要的,而监督学习无法提供这种奖励。
不选择 SL 的第三个原因是,它使用交叉熵来优化标记级的损失。虽然在文本段落的标记水平上,改变反应中的个别单词可能对整体损失只有很小的影响,但如果一个单词被否定,产生连贯性对话的复杂任务可能会完全改变上下文。因此,仅仅依靠 SL 是不够的,RLHF 对于考虑整个对话的背景和连贯性是必要的。
监督学习可以用来训练一个模型,但根据经验发现 RLHF 往往表现得更好。2022 年的一篇论文《从人类反馈中学习总结》显示,RLHF 比 SL 表现得更好。原因是 RLHF 考虑了连贯性对话的累积奖励,而 SL 由于其文本段落级的损失函数而未能很好做到这一点。
像 InstructGPT 和 ChatGPT 这样的 LLMs 同时使用监督学习和强化学习。这两者的结合对于实现最佳性能至关重要。在这些模型中,首先使用 SL 对模型进行微调,然后使用 RL 进一步更新。SL 阶段允许模型学习任务的基本结构和内容,而 RLHF 阶段则完善模型的反应以提高准确性。
DeFi之道
个人专栏
阅读更多
金色财经 善欧巴
金色早8点
Odaily星球日报
欧科云链
Arcane Labs
MarsBit
深潮TechFlow
BTCStudy
澎湃新闻
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。