2022-12-06 10:08:01 来源:IT之家 阅读量:18381
做AI数学题成绩又被刷新了!
众所周知,借助谷歌思维链的概念,AI已经能够像人类一样在做题时生成解题步骤。
这次来自DeepMind的科学家提出了一个实际问题:如何保证解题步骤和答案的双重准确性。
因此,他们在GSM8K数据集上综合比较了基于过程和基于结果的监测方法,并结合其优势训练出一个最优模型。
结果表明,新模型的错误率从16.8%降低到12.7%,求解步骤的错误率也从14.0%降低到3.4%。
步骤+回答双重保障
在介绍新的研究之前,不得不提Google在今年1月提出的思维链概念。
简单来说,思维链提示是一种特殊的情境学习与标准提示只给出输入输出对的例子不同,思维链提示会增加一个额外的推理过程
该方法已在LaMDA—137B,GPT—3 175B和PaLM—540B三个大型语言模型中得到验证与标准提示相比,新方法在一系列算术推理任务中的准确率有了明显提高
可是,这种方法的一个问题是,在某些情况下,AI可以生成正确的答案,但推理过程是错误的。
现在,来自DeepMind的研究人员对这一点进行了改进:他们不仅关注最终结果,还关注推理过程的准确性。
为此,他们首次对自然语言处理任务中基于过程和结果的方法进行了综合比较。
具体包括以下不同场景:小样本提示,有监督的微调,通过专家迭代的强化学习,重排序和强化学习的奖励模型。
之所以选择GSM8K数据集,是因为它由小学数学应用题组成,答案都是整数解,便于精确统计,
第二,GSM8K数据集有离线监督推理步骤和在线人工标注。
从结果来看,第一,基于过程的方法和基于结果的方法,最终答案的错误率几乎相同这也意味着,单靠结果监督,就足以做到答案的低错误率
其次,推理步骤准确性的提高需要过程监督或模仿其奖励模型虽然最终答案错误率差不多,但从下图可以看出,结果监督的推理错误率明显高于过程监督
此外,研究人员还结合了两者的优点,训练出了一个最优模型,即将监督学习和基于奖励模型的强化学习相结合。
新模型的错误回答率从之前最好的水平16.8%降低到12.7%,回答正确但推理过程错误的情况也从14.0%降低到3.4%。
当模型被允许回避30%的问题时,最终答案的错误率甚至可以达到2.7%。
研究团队
这篇论文的研究团队来自DeepMind,共有三位合著者:Jonathan Uesato,Nate Kushman和Ramana Kumar。
纸质链接:
。声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
大北农发布公告,公司控股及参股公司生猪销售数量当月合计为49.81万头,1-9月累计为416.05万头;销售收入当月合计为8.86亿元,1-9月累计为67.71...
格隆汇10月8日丨立华股份公布,2023年9月销售肉鸡4206.19万只,销售收入13.20亿元,毛鸡销售均价15.38元/公斤,环比变动分别为2.36%、5....
格隆汇10月8日丨汇宇制药公布,公司全资子公司SeacrossPharmaceuticalsLtd.于近日收到巴基斯坦药品管理局(简称“巴基斯坦药监局”)核准签...
今天是10月8日,各大金店黄金价格涨势暂歇,均价格不变,与昨日一致,还是很高。目前,金价最高的金店为周六福,不涨不跌,报价588元/克。而金价最低的金店为菜百,...
10月7日,安徽省省直住房公积金管理分中心发布《关于进一步优化住房公积金使用政策的通知》。《通知》包括住房公积金贷款、住房公积金提取等两大方面,政策自2023年...
目前,小米已经成为全球前三的智能手机厂商。该公司生产入门级、中端和旗舰智能手机,迎合广泛的用户群。但是对于小米而言,他们还需要更多的用户。近日,手机中国注意到,...
转自:经济日报 e公司讯,沪深交易所近日分别发布《关于进一步规范股份减持行为有关事项的通知》,对此前证监会发布的“减持新规”监管要求进行了细化,确定了更加...
近日,随着一声机车汽笛长鸣,装载165辆汽车的X8489次中欧班列从西安国际港站缓缓驶出,一路向西开往俄罗斯首都莫斯科。这标志着中欧班列(西安)自2013年开行...
近日,由权威财经新闻媒体《财经》杂志联合科创数据研究中心共同推出国家情怀mdash;2023科创板四周年系列评选,皖仪科技(688600)获得评委的一致认可,荣...
券商行业自2015年牛市后就一直有着牛市旗手的称号,然而回头来看,券商板块的每次异动已经逐渐不能预期指数的上涨行情。 随着指数波动下降,以及投资需求的日益增加...
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 中秋国庆假期国内出行旅游市场恢复,9月PMI重返扩张区间 主要内容 国内市场...
据中国工业经济联合会消息,由国家制造强国建设战略咨询委员会指导,中国工业经济联合会联合十大全国性行业联合会(协会)、国际组织、研究机构、主流媒体等共同主办的20...
美国劳工部6日发布数据称,美国9月份非农业部门新增就业33.6万人,失业率环比持平,仍维持在3.8%。 这一数据创造了自今年2月以来的最高值。在美联储明确...
记者10月7日自辽宁省贸促会获悉,2023中国·沈阳国际汽车展览会(以下简称“沈阳十一国际车展”)6日落下帷幕。在为期六天的车展期间,现场人潮不断,展会共产生订...
时值仲春、阳和初起,正是春游踏青的好时光。为丰富员工业余生活,营造和谐融洽、团结向上的工作氛围,3月23日,阳...
找到黑匣子之后,下一步做什么?邱超奕对于空难调查而言,黑匣子在找到后,才意味着具体工作的开始。那么,它被送往了...
#8203;“上级对我提的要求,就是让寒门子弟接受更好的教育,让普通孩子上好学。”一所城乡接合部的新学校,为招...
新京报讯据中国民用航空局消息,3月21日,东航一架波音737客机在执行昆明--广州航班任务时,于梧州上空失联。...
专业人力资源机构中智公司21日发布的最新调研结果显示,2022年中国就业形势基本稳定,实体产业对人才吸引力增加...