维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%

更新时间:2024-01-03 18:06:06作者:橙橘网

维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%


新智元报道

编辑:alan 桃子

【新智元导读】大模型固有的幻觉问题严重影响了LLM的表现。斯坦福最新研究利用维基百科数据训练大模型,得到的WikiChat成为首个几乎不产生幻觉的聊天机器人。

大语言模型的幻觉问题被解决了!

近日,来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的聊天机器人!

论文发表在EMNLP 2023,并且在Github上开源了代码:


论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf

项目代码:https://github.com/stanford-oval/WikiChat

作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性,而相比之下,GPT-4的得分仅为66.1%。

在「recent」和「tail」两个知识子集中,这个差距甚至更大。

另外,作者还发现了检索增强生成(RAG)的几个缺点,并添加了几个重要步骤,以进一步减轻幻觉,并改进「对话性」指标。


通过这些优化,WikiChat在事实性方面比微调后的SOTA RAG模型Atlas高出8.5%,

在相关性、信息性、自然性、非重复性和时间正确性方面也大大领先。

最后,作者将基于GPT-4的WikiChat提炼成7B参数的LLaMA,这个模型在事实准确性方面仍然能拿到91.1%的高分,

并且运行速度提高了6.5倍,能效更好,可以本地部署。

大模型+维基百科,一起击败幻觉

众所周知,LLM的幻觉问题由来已久、根深蒂固,

而且曾给各家的大语言模型都造成过不同程度的影响。

基于LLM使用概率来推断输出的原理,幻觉这个问题很难彻底解决,

研究人员们为此投入大量的心血,小编也是很期待这个WikiChat的表现!

WikiChat,顾名思义,就是基于维基百科的知识进行训练,听起来还挺靠谱的。

除了论文和代码,研究团队还部署了可以直接对话的demo供大家测试,好文明!


Demo地址:https://wikichat.genie.stanford.edu/

于是小编迫不及待地要试一试WikiChat的实力。


WikiChat首先进行了自我介绍,表示自己会记录对话用于研究,

另外,WikiChat有以下三种模式:


默认状态是平衡输出速度和准确性,我们可以在右边的设置中调节。

WikiChat还额外添加了TTS功能,输出是个温柔的女声。

好了,让我们赶紧「Ask her about anything on Wikipedia」!


——开个玩笑,既然你不会中文,那小编这点英文水平,只能献丑了......

(注意上面的这句中文不要点击语音输出,有可能导致整个聊天卡住无法恢复)

下面,我们首先问一个常识性问题:Sam Altman是OpenAI的CEO吗?


其实小编想测试她知不知道Altman被开除,然后又王者归来这件事,

不过这一句「在2020年离开YC,全职加入OpenAI」,貌似就有事实性的错误。

小编接下来使用游戏信息进行测试:介绍一下「原神」中的「宵宫」。


这个回答确实没什么问题,卡池时间和配音演员也正确,

既然提到了配音演员,那顺便问一下中文CV是谁:


这......不知道她为什么产生了这样的幻觉?实际上维基百科中是有相关信息的:


那我们提醒她反思一下:


好家伙,给出了另一个错误答案,小编想了一下,应该说的是游戏中另一位角色的CV(负责《神女劈观》中的戏腔部分,知名度较高)。

那么测试一下,知名度比较高的角色。

小编选择了在维基百科上有单独条目的雷电将军:


这下连卡池时间都有事实性错误,——而维基百科中的相关描述是没有问题的。


WikiChat对于自己一直心心念念的配音演员,倒是没有回答错误。

小编于是不死心地又测试了一遍之前的问题:


WikiChat也是不死心地给出了和之前同样的回答,并且在要求反思之后,变成了「道歉机器人」。

把模式调整到事实性优先:


WikiChat给出回答的速度要慢了很多,但还是只能道歉。

小编于是换了另一位有单独百科条目的角色:


除了第一句,后面就开始满嘴跑火车了。

最后,来问一下配音演员的问题(维基百科的单独条目中包含此信息):


......你这个聊天机器人是什么情况,认准了Juhuahua了是吗?

测试到此结束,小编不知如何总结,有可能是我的问题有问题吧。

比如我问题的相关信息,在英语维基百科的语料中重要性很小。

不论如何,WikiChat在一些问题上的表现确实还不错,比如宵宫那个问题,换成ChatGPT,就几乎没有任何沾边的事实。

这说明研究人员确实采取了一些有效的优化方法,来解决LLM的幻觉问题。

WikiChat架构

这项工作的事实性基础是信息检索(IR),它基于聊天机器人的响应、以及从可信语料库中检索到的信息,然后生成方法利用检索到的数据生成响应。


上图展示了WikiChat的组件,以及一段示例对话(关于即将上映的电影)。

生成响应所采取的步骤包括:

1. 生成从维基百科检索的查询, 2. 总结和过滤检索到的段落, 3. 从LLM生成响应, 4. 从LLM响应中提取声明, 5. 使用检索到的证据对LLM响应中的声明进行事实核查, 6. 起草响应, 7. 完善响应。

研究人员使用用户话语来检索LLM可能不知道的信息,要求LLM做出回应,并对其进行事实检查。

阻止LLM产生幻觉并不容易。一般情况下,当IR没有检索到任何相关信息,或知识语料库中没有相关信息时,LLM会产生幻觉来弥补不足。

因此,WikiChat会汇总和过滤检索到的信息,而不是直接生成响应。

这里分别对LLM生成的每个声明进行事实核查,并在必要时教系统说「我不知道」。

教LLM理解时间背景:例如,文章中的将来时态可能是指对话时的过去事件。

最重要的是,不能通过放弃这些必要的步骤来过早地优化速度,而是依靠模型蒸馏来减少延迟,直到达到高质量。

上图中管道的每个阶段都是使用上下文学习实现的。

生成的管道不特定于任何语料库。虽然本文将管道应用于维基百科以创建WikiChat,但它适用于任何自由文本语料库,包括个人和公司机密信息。

该管道也不特定于任何LLM,作者在本文中将其应用于三个不同的LLM。

策划正确且与对话上下文相关的信息

LLM能够解释用户话语,制定检索范围之外的响应,或者需要聚合来自多个来源的信息或得出结论,比如:

用户:你认为苹果会继续成为科技行业的重要参与者吗? GPT-4:是的,......苹果拥有良好的创新记录、忠实的客户群和稳健的财务状况。全球市值最高的公司,市值超过2万亿美元。继续探索增强现实、人工智能、自动驾驶汽车等新技术。这将帮助他们在竞争中保持领先地位。

但我们不能完全相信LLM,而是需要对它们的输出进行事实检查。此外,LLM不知道最近发生的事件。

在与用户的对话中,WikiChat会识别何时需要访问外部信息。这可能是因为最后一个用户话语包含直接问题(例如「斯蒂芬·库里是谁?」),或者需要其他信息才能做出全面的回答(例如「我真的很喜欢斯蒂芬·库里」)。

第1阶段,WikiChat生成一个搜索查询,该查询通过提示捕获用户的兴趣(如下图所示)。作者发现,现有的系统尤其难以适应时间环境。

WikiChat在查询旁边生成用户需求的推断时间。查询时间可以是最近、year=yyyy或none之一,分别表示检索到的信息应尽可能近、特定年份或时间不重要。


将查询发送到信息检索系统,从语料库中获取相关段落,并根据时态信息对排名靠前的结果进行重新排序,得到Npassages。

第2阶段,由于这些段落可能包含相关和不相关部分的混合,WikiChat会提取检索到的段落的相关部分,并将它们总结为要点,同时过滤掉不相关的部分(如下图所示)。


第3阶段,提示LLM生成对对话历史记录的响应。这种回应通常包含有趣且相关的知识,但本质上是不可靠的。


第4阶段,LLM响应被分解为多种声明(如下图),此阶段解析共同引用以减少歧义,并解析相对时间信息(如「当前」和「去年」),以使所有声明自包含。


然后使用IR从知识语料库中检索Nevidence段落,以便每个声明作为证据,并使用基于时间的重新排名来更好地处理时间敏感的主题。

第5阶段,验证提示(如下图)使用思维链提示,将每个声明分配给以下三类之一:检索到的证据是否支持该声明、反驳该声明,或者证据中是否没有足够的信息来做出此决定。只有有证据支持的主张才会被保留。


使用收集到的信息来形成响应

实验表明,在满足所有会话标准的情况下一次性编写最终响应,对于上下文学习具有挑战性,尤其是有限的上下文长度,使得很难提供足够的多轮对话,作为少量示例来涵盖所有必要的方面。因此,这里采用两步法:

第6阶段,WikiChat根据给定的要点列表和对话历史记录生成响应草稿。


第7阶段,生成反馈并进行优化——基于相关性、自然性、非重复性和时间正确性的响应。


反馈包含模型对每个标准的推理,以及每个标准的分数介于0到100之间,细化以此反馈为条件。

改进是以这种反馈和分数为条件的,作为一个思维链。

最后,我们来看一下WikiChat的效果:


上表展示了WikiChat的评估结果和模拟对话的基线。事实和时间准确性是百分比,其他指标是介于1和5之间的整数的平均值。

事实准确性来自人类评估,其他指标来自小样本GPT-4。所有指标都是越高越好。

参考资料:

https://twitter.com/WikiResearch/status/1742151646627377382