首页 > 生活分享 > 免费教学 > 比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

比人类便宜20倍!谷歌DeepMind推出“超人”AI系统

发布时间:2024-03-30 21:52:16

大模型的幻觉问题怎么解?谷歌DeepMind:用AI来做同行评审!事实核验正确率超过人类,而且便宜20倍。

 

AI的同行评审来了!

一直以来,大语言模型胡说八道(幻觉)的问题最让人头疼,而近日,来自谷歌DeepMind的一项研究引发网友热议:

大模型的幻觉问题,好像被终结了?

 

论文地址:https://arxiv.org/pdf/2403.18802.pdf

项目地址:https://github.com/google-deepmind/long-form-factuality

在这篇工作中,研究人员介绍了一种名为 "搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,SAFE)的方法。

对于LLM的长篇回答,SAFE使用其他的LLM,将答案文本分解为单个叙述,然后使用诸如RAG等方法,来确定每个叙述的准确性。

 

——简单来说就是:AI答题,AI判卷,AI告诉AI你这里说的不对。

真正的「同行」评审。

另外,研究还发现,相比于人工标注和判断事实准确性,使用AI不但便宜20倍,而且还更靠谱!

 

目前这个项目已在GitHub上开源。

长文本事实性检验

大语言模型经常胡说八道,尤其是有关开放式的提问、以及生成较长的回答时。

比如小编随手测试一下当前最流行的几个大模型。

ChatGPT:虽然我的知识储备只到2021年9月,但我敢于毫不犹豫地回答任何问题。

 

Claude 3:我可以谦卑且胡说八道。

 

为了对大模型的长篇回答进行事实性评估和基准测试,研究人员首先使用GPT-4生成LongFact,这是一个包含数千个问题的提示集,涵盖38个主题。

LongFact包含两个任务:LongFact-Concepts和LongFact-Objects,前者针对概念、后者针对实体。每个包括30个提示,每个任务各有1140个提示。

 

然后,使用搜索增强事实性评估器(SAFE),利用LLM将长篇回复分解为一组单独的事实,并使用多步骤推理过程来评估每个事实的准确性,包括使用网络搜索来检验。

此外,作者建议将F1分数进行扩展,提出了一种兼顾精度和召回率的聚合指标。

 

SAFE工作流程

免费教学更多>>

机械革命星耀14锐龙版笔记本天猫促销 REDMI K Pad对标iPad mini!做4K以内体验最豪华的小平板 三星 One UI 8 新特性曝光,支持个性化定制即时简报 Now Brief 卡片 华硕天选6 Pro游戏本限时特惠6359元 全国985、211、双一流高校总览! 精泰达取得车载主机测试夹具专利,保证每一块主机的性能达标 43%毕业生是公务员!最强“双非”大学来了 2025年巴彦淖尔市政务服务与数据管理局所属事业单位高层次急需紧缺人才引进进入体检、考察范围人员进行递补的公告 电商美工要凉?零基础小白,也能轻松出图 京东真的找了惠英红!网友:好朴实的商战 公积金能买二手房了,跨城买房却卡壳,年轻人能住上房吗? 广州成为首提全面取消楼市“三限”的一线城市,传递了什么信号? 买了iPhone16Pro才发现降价还没到底,这种纠结你也有过吧? 购买手机的基础参考方案,记住性能手机和拍照手机 真我GT7 Pro体验:刀法精准的性价比战神 贵工商再次斩获华为ICT大赛全球总决赛三等奖 华为公开最新专利!将在Pura80系列上首发应用 从行业先驱到转型先锋 华为云助力华新水泥持续开拓海外市场 国产厂商最新旗舰机激活量排名 华为小米旗鼓相当 机情问答:华为Pura 80会涨价吗 REDMI电竞平板咋样? 时隔两年 OPPO或再推小折叠屏手机 朵薇卫生巾销量位居抖音前三,已引入新产线突破产能瓶颈 “钢铁门神”陆天宇:守好球门,捍卫城市荣耀 荣耀五载,启航新程:太吉之源大健康产业联盟五周年庆典盛大启幕 时尚中国 荣耀东方——2025中国时尚产业盛典即将开幕 手机点点也能办 昆山车驾管服务交出便民利企“暖心答卷” 索尼Alpha 7R V全画幅相机优惠价20003元 最强手感小直屏来了!魅族22系列入网:首次安排潜望长焦 小米MIX Flip 2折叠屏手机即将发布 小米Xiaomi15 5G手机12GB+512GB白 骁龙8至尊版到手价1713元