谷歌的大模型Gemini 1.5 首要玩了一个百万token的,我国的月之暗面一个月后推出Kimi智能帮手,支撑200万字超长无损上下文,在我国的大模型使用中异军突起。
行业界的大厂们坐不住了,阿里巴巴的通义千问项目开放了 1000 万字的长文本处理才能;360 公司的智脑开端内测 500 万字的长文本处理功用,并方案将其整合至 360AI 浏览器中。百度也宣告推出 200 万至 500 万字的长文本处理才能。但它们都没有阐明在技能上是怎样来完成的。
它们对Transformer的惯例注意力机制进行“魔改”,发明晰一种新的注意力技能,称为无限注意力 (Infini-attention )。
回忆是智能的根底,在一段特定的上下文中,回忆让核算更有功率。谷歌的研究人员,引入了紧缩回忆,保存了了完好的上下文记载。
惯例的注意力机制,是把注意力核算中一切的键值(KV)和查询状况丢掉;而通过改善的注意力机制,将注意力的旧KV状况存储在紧缩内存中,用于长时间回忆中的稳固和检索。
在处理后续序列时,注意力查询可以从紧缩内存中检索值,在终究的上下文输出中,Infini attention会聚合从长时间回忆检索的值和部分注意力上下文。
Infini-Transformer(上)具有完好上下文历史记载;而 Transformer-XL(下)则丢掉旧上下文,仅缓存终究一个段的 KV 状况。
Infini attention 让根据Transformer的模型可以在有限的内存占用和核算量下高效处理无限长的输入序列,它把紧缩内存集成到规范的注意力机制中,并在单个Transformer块内构建了掩码部分注意力和长时间线性注意力机制。
修正之后,对现有的模型能进行继续的预练习和微调,上下文可以天然扩展到无限长!
成果证明,在内存不变的前提下,具有Infini-attention的10亿参数大模型天然扩展到100万上下文。继续预练习和使命微调后,具有Infini-attention的80亿参数模型,在50万长度书本摘要使命上达到了SOTA。
模型具有了无限上下文,就可以创立定制使用程序。现在,为特定使用程序定制模型需求选用微调或检索增强生成(RAG)等技能。尽管这些技能很有用,但需求杂乱的工程。
理论上,一个具有无限上下文的大模型可以将一切文档刺进到提示中,让模型为每个查询选择最相关的部分。它还可以终究靠供给一长串示例来定制模型,以进步其在特定使命上的体现,而无需进行微调。
但是,这并不代表无限上下文将替代其他技能,如RAG。它将下降进入使用程序的门槛,使开发者和安排能快速创立作业原型,而无需巨大的工程尽力。终究,无限上下文让企业和组织将优化其模型管道,以削减相关本钱并进步速度和准确性。