用暂停token重新训练大模型，AI学会三思而后行

更新时间：2023-10-15 12:09:02作者：橙橘网

梦晨发自凹非寺
量子位 | 公众号 QbitAI

让ChatGPT给出答案之前多想想步骤，就能提高准确率。

那么能不能省去提示词，直接把这种能力内化在大模型里呢？

CMU与谷歌团队的新研究，在训练大模型时加入暂停token来实现这一点。

实验中，8项评测成绩提升，其中SQuAD的EM得分提高18%，CommonSenseQA提高8%，GSM8k中的推理任务也提高1%。

研究者Jack Hack表示，自己不久前就提出类似假设，很高兴看到它被验证。

英伟达工程师Aaron Erickson表示，是不是和人类说话时加入“嗯嗯啊啊”是一个道理？

预训练微调都加入暂停token

整个研究基于一个简单的想法：

在输入序列后面追加一系列（暂停token），从而延迟模型输出下一个token。

这可以给模型额外的计算时间来处理更复杂的输入。

作者不仅在下游任务微调时引入，还在预训练时就随机在序列中插入，让模型在两阶段都学习如何利用这种计算延迟。

预训练阶段，在语料库中随机插入一定比例的暂停token到输入序列，进行标准的自回归预训练。但计算损失时会跳过暂停token的预测。

下游任务微调时，输入中也追加一定数量的暂停 token，然后对目标序列进行自回归预测，同时微调模型参数。

推理阶段也追加相同数量的暂停token，但忽略模型输出直到最后一个暂停token，然后开始提取答案。

实验使用了标准的Transformer纯Decoder模型，分为130M参数和1B参数两个版本。

其中暂停token只增加了1024个参数，也就是它本身的embedding大小。

在9个不同任务上的实验表明，仅在微调阶段引入暂停token的效果并不明显，有些任务不会提升。

但如果在预训练和finetune阶段都使用暂停token，大多数任务上都获得显著提升。

论文还探究了暂停token的数量、位置等关键超参数。发现对于不同的模型通常存在一个最优的数量。

最后作者也提出，这项工作也有不少局限性。

搜索引擎You.com的CEO表示，接下来是不是应该把所有提高人类认知表现的技巧都对大模型试一试？

现在已经有了“一步一步地想”和“深呼吸”。

也许下一个爆款论文就是教大模型带着问题睡一觉或者更离谱的健康饮食、注意锻炼。

论文地址：
https://arxiv.org/abs/2310.02226

参考链接：
[1]https://twitter.com/arankomatsuzaki/status/1709372124891070915

— 完 —

本文标签：序列实验微调大模型预训练 token

上一篇：游戏第二梯队玩家，离《原神》《王者荣耀》还有多远？

下一篇：向国会提交预算案时，他突然大谈孟子思想

为您推荐

合肥南二环西延部分路段封闭施工通知（11月4日起）

南二环西延（西二环-永和路）工程1、2标段定于2023年11月3日24:00对施工范围内道路进行一阶段封闭施工

2023-10-30 11:18

2023合肥限行规定最新消（持续更新）

从即日起对巢湖市部分路段实行限制大型货车（黄牌货车）通行，对违反通告规定，影响交通安全的违法行为，将依法予以处罚。

2023-10-30 11:18

江西省高校诵读红色家书讲述英烈故事直播在哪看（附回放入口）

江西省高校诵读红色家书讲述英烈故事直播在江西省教育厅视频号观看，视频回放用手机进入江西省教育厅视频号，点击“直播回放”即可收看。

2023-10-30 11:17

江西诵读红色家书讲述英烈故事作文（400/600/800字）

烽火连三月，家书抵万金，生离死别关头的革命家书，字里行间，有离人的惦念、牵挂，更多的是对胜利的期待。本文为你介绍作文三篇范文。

2023-10-30 11:17

2023江西诵读红色家书讲述英烈故事视频回放+内容+时间

2023江西诵读红色家书讲述英烈故事视频回放可用手机进入江西省教育厅视频号，点击“直播回放”即可收看。直播内容及时间详见正文。

2023-10-30 11:17

2023江西诵读红色家书讲述英烈故事巡演直播入口+回放入口

江西高校“诵读红色家书讲述英烈故事”巡演来啦！第41场直播时间为10月29日(周日)14:30，直播平台为江西省教育厅。

2023-10-30 11:17