语言大模型是基于人工神经网络的,简单的说,基础版的ChatGPT 就是拿输入(一串数)和一堆“固定”的数计算出相应的结果。
后面出现了https://www.perplexity.ai/、https://poe.com/、GPTs、Gemini 1.5、https://kimi.ai/这几个产品,还有相关的概念RAG(检索增强生成)、长上下文。
训练
除此之外,还有一个常被误用的概念“训练”,技术上最粗略的严谨分类,包含预训练和微调。最根本的特点,这些都是要改变权重参数的,也就是上面的那一堆固定的数。
有人把对话称为训练GPT、有人把在GPTs上传文档称为训练GPT,但这些统统不是技术上真正的训练,因为这些根本不会改变模型本身的参数。
RAG
然后就是上传文档和对话的区别,这两种与其说是类型上的区别,不如说是长度上的区别。因为现在的大模型能处理的文本长度有限,刚开始才有几千字。那如果想尽量覆盖更多内容,那只有取舍了。这其实就是RAG,检索增强生成,也可以称为有选择的上下文。明明上面说是妥协的产物,为什么叫增强呢?这要提到RAG的另一个优点,可以做到减少大模型输出的幻觉,严重可以叫错误。当然增强也是因为放在上下文让大模型参考了。但增强的前提是参考了合适的内容,如果内容并不合适,可能反而是模型的基础回应更好。模型是整体训练出来的,往往对知识内容有更深入和全面的理解。
长上下文
大模型的上下文有限,姑且不说纯技术上的问题,也是因为随着模型上下文变长,对算力的要求会指数上升,也就是很少人用的起,时间也会变长,也等不起。模型对上下文的计算有点像在实时训练,所以本来就是需要很久的事情。可预见的未来,上下文的长度不会无限增长,RAG也就仍然有用武之地。
提示词
上面说的输入,其实就是常说的提示词Prompt,有的提示词用来表达需求,有的用来指导模型的处理方式。
相关产品
perplexity 是一种RAG,从搜索引擎的结果中挑选有用的内容进行参考,有页面维度的,也有小于页面维度的。参考的不好,也会导致结果变差。
Poe 不生产模型,只是模型的搬运工,当然例如GPTs 这种增强功能和大模型公司的产品也不会一样。Poe 有自己的类似GPTs 的bot。
GPTs 有RAG的功能,而且实现的不怎么样。所谓的action 不是什么额外的能力,既然大模型可以写代码,自然有能力调API。
Gemini 1.5 和Kimi类似,都提供了超大上下文,有些厂商浑水摸鱼,拿着RAG冒充长上下文,一个最简单的分辨办法,超大上下文一定会比较慢,而RAG可以很快。
这里就不说识图、画图、语音之类的多模态能力了,还有与其说是能力,不如说是差距的Agent。
说了那么多,想根本的提升大模型的能力,不是普通人玩的。平台有时候会提供一定的微调能力,往往也只是偏好、风格、格式上的调整。
(第一节)
在这个数字世界里,模型们在成长,
神经网络是它们的大脑,数据是食粮。
输入一串数字,输出答案希望,
ChatGPT的基础,就是这样。
(副歌)
哦,RAG和长上下文,技术的新浪潮,
在信息的海洋里,寻找知识的宝藏。
模型们在训练,权重在调整,
但真正的进步,不是简单的一场梦。
(第二节)
预训练和微调,是它们的必经之路,
改变权重参数,才能让智慧更进一步。
有人误解训练,以为对话就能成长,
不,那只是交互,不是模型的真正营养。
(副歌)
哦,RAG和长上下文,技术的新浪潮,
在信息的海洋里,寻找知识的宝藏。
模型们在训练,权重在调整,
但真正的进步,不是简单的一场梦。
(桥段)
Poe和Gemini,Kimi也在这里,
提供超大上下文,让对话更流畅。
RAG快速响应,长上下文却慢如蜗牛,
在这个快速的时代,谁才是真英雄?
(副歌)
哦,RAG和长上下文,技术的新浪潮,
在信息的海洋里,寻找知识的宝藏。
模型们在训练,权重在调整,
但真正的进步,不是简单的一场梦。
(尾声)
在这个数字世界里,模型们在成长,
神经网络是它们的大脑,数据是食粮。
输入一串数字,输出答案希望,
ChatGPT的基础,就是这样。