跳转到内容
~/tosaki
返回

从零到LLM:一份完整的大语言模型科技树指南

编辑页面

本文内容均由LLM生成,为了方便给家人和朋友分享而整理成文档。

第一部分:主干——教机器思考

在深入探讨构成当今人工智能(AI)革命核心的复杂技术之前,我们必须首先建立一个坚实的概念框架。这部分将为您描绘出人工智能领域的宏观版图,厘清那些经常被混淆的关键术语。我们将从最广阔的森林开始,逐步聚焦到特定的树木,最终抵达我们此行的目的地——大语言模型(LLM)。

1.1 人工智能的森林——不只是机器人

当我们听到“人工智能”这个词时,脑海中浮现的往往是科幻电影中拥有自我意识的机器人。然而,现实中的人工智能是一个远比这更广阔、更多样化的领域。一个更为精准且实用的定义来自AI研究者弗朗索瓦·肖莱(François Chollet),他将AI描述为“致力于将通常需要人类智能才能完成的智力任务自动化的努力” ¹。这个定义涵盖了从简单的任务自动化到复杂的认知模拟等一切活动,例如视觉感知、语音识别、决策制定和语言翻译 ²。

为了更好地理解这个庞大的领域,我们可以借助两个生动的比喻。

第一个比喻是俄罗斯套娃 ¹。

想象一套俄罗斯套娃,最大的那个娃娃代表着“人工智能”(AI),它是一个包罗万象的总称。打开它,里面是一个稍小一点的娃娃,代表“机器学习”(Machine Learning, ML)。再打开机器学习这个娃娃,里面还有一个更小的娃娃,那就是“深度学习”(Deep Learning, DL)。这个层层嵌套的结构直观地展示了它们之间的关系:深度学习是机器学习的一个子集,而机器学习又是人工智能的一个子集 ¹。

第二个比喻是交通工具 ²。

把“人工智能”想象成“交通”这个宏大的概念,它包含了所有运送人和物的方式。在这个框架下,“机器学习”就好比是“汽车”,它是实现交通的一种非常重要且流行的方式。而“深度学习”则可以看作是“电动汽车”,是汽车领域中一种更先进、更特定的技术。这个比喻的精妙之处在于,它清晰地表明,并非所有的人工智能都属于机器学习,就像并非所有的交通方式都是汽车一样——我们还有火车、自行车和飞机。

这种区分至关重要,因为它揭示了AI内部一个根本性的分野:学习型AI非学习型AI

理解“智能”是一个光谱而非一个开关,是踏入AI世界的第一步。一个系统之所以被称为“人工智能”,并非因为它拥有了与人类无异的意识,而是因为它能够自动化一项原本需要人类智力才能完成的任务。这个任务的复杂程度决定了它在智能光谱上的位置。基于规则的系统位于光谱的一端,它们像是技艺精湛但毫无创造力的工匠,完美地执行着被赋予的指令。而学习型系统则位于光谱的另一端,它们更像是学徒,通过观察和实践来掌握技能。正是这种从“编码指令”到“提供经验”的范式转变,催生了机器学习的崛起,并为我们今天所知的LLM铺平了道路。

1.2 第一个主分支——机器学习

现在,我们打开人工智能这个最大的套娃,看到了里面的第一个核心分支:机器学习(Machine Learning, ML)。机器学习的先驱亚瑟·萨缪尔(Arthur Samuel)在几十年前就给出了一个至今仍然非常精辟的定义:它是一个“让计算机有能力在没有被明确编程的情况下进行学习的研究领域” ¹。这句话的重点在于“没有被明确编程”。

这意味着,程序员的角色发生了根本性的转变。在传统的编程模式下,程序员必须预见所有可能性,并为每一种情况编写精确的指令。而在机器学习中,程序员不再是规则的制定者,而更像是一位老师。他们的核心任务是为机器提供一本精心编纂的“教科书”——也就是一个庞大的、被标记好的数据集(labeled data)²。机器通过“阅读”这本教科书,自主地学习和归纳出隐藏在数据背后的模式和规律。

为了具体理解这个过程,让我们回到一个更简单的场景:水果分拣 ¹。

  1. 人类智能:想象一个工人在传送带旁,凭着自己的经验和知识,熟练地将苹果、香蕉和橙子分拣到不同的箱子里。

  2. 非学习型AI(规则系统):现在,我们用一台机器取代工人。这台机器配备了一个扫描仪,每当一个水果经过,它就扫描水果上预先贴好的标签。机器的程序非常简单:IF 标签 == “苹果”, THEN 放入苹果箱。这个系统能工作,但非常僵化。如果一个水果没有标签,或者标签模糊不清,机器就束手无策了。它完全依赖人类预先设定的规则。

  3. 机器学习:这是真正的变革。我们给机器装上一个摄像头,然后向它展示成千上万张已经标记好的水果图片——“这是苹果”,“这是香蕉”,“这不是苹果”。我们不告诉它苹果是红色的、圆形的,或者香蕉是黄色的、弯曲的。我们只是提供大量的“例子”。机器通过分析这些海量图片,自己去发现“苹果性”或“香蕉性”的内在模式。最终,它学会了识别。当一个全新的、从未见过的、没有标签的苹果出现在传送带上时,它能够凭借自己学到的模式,准确地将其识别并分拣出来 ²。

这个从“硬编码规则”到“从数据中学习”的转变,是机器学习的核心思想。这种思想的应用无处不在:

这一 paradigm shift(范式转移)的意义深远。它意味着,对于许多复杂问题,人类不再需要去理解其背后的所有规则。例如,我们很难用代码精确定义什么是“垃圾邮件的语气”,但我们可以轻易地提供成千上万个例子。机器学习的出现,使得解决这类问题的重心从“设计精巧的算法”转向了“收集、清理和标记高质量的数据”。整个围绕数据展开的产业——数据采集、数据标注、数据存储——也因此蓬勃发展。程序员的角色从一个逻辑缜密的建筑师,转变为一个知识渊博的图书管理员和一位循循善善诱的老师。

1.3 更深层的生长——深度学习

在机器学习的版图内,存在一个特别强大且富有活力的分支,它正是近年来几乎所有AI重大突破的引擎——深度学习(Deep Learning, DL)。深度学习是机器学习的一个子领域,它的核心是使用一种受人脑结构启发的模型,即“人工神经网络”(Artificial Neural Networks)⁴。当这些网络包含许多层时,我们称之为“深度神经网络”,这也是“深度”一词的由来 ²。

深度学习与传统机器学习最根本的区别在于**“特征提取”(feature extraction)**的方式。这是一个理解DL威力的关键概念。

这个从简单到复杂、从具体到抽象的逐层学习过程,与人类大脑的视觉皮层处理信息的方式有相似之处。正是这种自动构建特征层次的能力,使得深度学习在处理像图像、声音和文本这类复杂的“非结构化数据”时,表现得异常出色 ³。

为了解释深度学习为何在近年来才爆发出如此巨大的能量,我们可以借用著名AI科学家吴恩达(Andrew Ng)的**“火箭飞船”比喻 ⁶**:

这个比喻的洞见在于:要想成功发射火箭并进入轨道,你必须同时拥有一个巨大的引擎和巨量的燃料。如果你只有一个强大的引擎但燃料不足,你飞不了多远就会坠落。如果你有海量的燃料但引擎太小,你甚至无法起飞。

几十年来,神经网络的理论(引擎的设计图纸)其实一直都存在。但我们长期以来缺少两样东西:一是足以驱动这些庞大引擎的计算能力(强大的GPU,即图形处理器,可以看作是火箭的发射台),二是用以填充它们的海量数据(燃料)。随着互联网的普及和计算成本的下降,我们终于在21世纪初同时集齐了这两大要素。这就像我们终于为强大的火箭引擎加满了燃料,并建好了坚固的发射台,一场人工智能的“发射升空”便不可避免了。

所有那些令人惊叹的现代AI应用,几乎都由深度学习驱动:

深度学习的真正魔力,并不仅仅在于它“模仿大脑”,而在于其规模化的抽象能力。这种分层结构赋予了它一种从原始感知数据中构建起一个复杂、丰富的世界模型的能力。当这种能力与前所未有的计算能力和数据规模相结合时,它便解锁了解决那些曾被认为机器无法企及的问题的潜力。这正是我们通往大语言模型之路的最后一块基石。

第二部分:语言的挑战——教机器阅读

我们已经了解了机器如何通过学习来获得“智能”。现在,我们将焦点转向一个对人类而言与生俱来,但对机器来说却异常艰涩的挑战:理解语言。这一部分将带领我们进入自然语言处理(NLP)的世界,探索机器在“阅读”方面遇到的早期困难,以及最初的解决方案是如何为后来的革命埋下伏笔的。

2.1 对意义的探索——自然语言处理

自然语言处理(Natural Language Processing, NLP)是人工智能和机器学习的一个重要分支,其核心目标是让计算机能够解读、处理并理解人类的语言 ⁷。这听起来似乎很简单,但实际上,人类语言是计算机科学中最棘手的难题之一。原因在于,我们的语言充满了各种“不规范”的特性:

人类大脑可以毫不费力地处理这些复杂情况,但对于只懂得逻辑和数学的计算机来说,这简直是一场噩梦。因此,NLP的首要任务,也是其面临的第一个巨大障碍,就是如何将模糊、充满象征意义的词语,转化为计算机能够理解的、精确的数字 ⁹。这个过程被称为“词嵌入”(Word Embedding)。

我们可以用一个**“词汇地图”**的比喻来理解词嵌入。想象一下,我们不再把每个词看作一个孤立的符号,而是把它放在一张巨大的、多维度的地图上。在这张地图上,每个词都有自己独特的“坐标”(一个由许多数字组成的向量)。这张地图的神奇之处在于,词与词之间的空间关系反映了它们在语义上的关系 ¹¹。

通过这种方式,词语的意义不再是一个孤立的点,而是由它在整个“词汇宇宙”中的相对位置所定义。这种将词语关系数学化的方法,是现代NLP的基石。

在将词语数字化之后,计算机就可以执行一系列基础的NLP任务,从而逐步“理解”文本 ⁷:

整个NLP的发展史,可以看作是一场将人类语言中模糊、依赖情境的符号,转化为计算机能够处理的、具体、结构化的数学表示的漫长征途。早期的NLP方法试图建立僵硬的规则和字典,但收效甚微。词嵌入的出现是一个转折点,它不再试图为词语定义一个绝对的意义,而是通过它们在海量文本中的共现关系,来捕捉其相对的、动态的意义。这种从“绝对主义”到“关系主义”的转变,为深度学习在NLP领域的应用打开了大门。

2.2 旧路径——逐字阅读(循环神经网络 - RNN)

当深度学习遇上自然语言处理,一个直观且优雅的解决方案应运而生:循环神经网络(Recurrent Neural Network, RNN)。RNN的设计初衷就是为了处理序列数据,比如时间序列、音频,以及我们最关心的——文本 ¹²。它的工作方式非常符合人类阅读的直觉:从左到右,一个词一个词地处理句子。

RNN的核心机制是它拥有一个“记忆单元”或称为“隐藏状态”(hidden state)。当RNN读取第一个词时,它会生成一个对这个词的理解,并存入这个记忆单元。当它读取第二个词时,它会结合第二个词的输入和记忆单元中关于第一个词的信息,来更新自己的记忆。以此类推,每一步的理解都建立在之前所有词的基础上。这就像我们阅读时,大脑会不断累积前面句子的信息来理解当前的内容。

然而,这种看似完美的设计,却隐藏着一个致命的缺陷:它的记忆是短暂的

让我们来看一个经典的例子,这个例子清晰地暴露了RNN的“健忘症” ¹²:

句子一:“汤姆是一只猫。”

句子二:“汤姆最喜欢的食物是____。”

对于人类来说,填空题的答案显而易见是“鱼”。因为我们清楚地记得第一句话提供的关键信息。但是,一个标准的RNN在处理到第二句话的末尾时,很可能已经忘记了第一句话的内容。它知道需要预测一种食物,但由于丢失了“汤姆是猫”这个核心上下文,它可能会猜“披萨”、“苹果”或者任何其他食物,就是猜不到最合理的“鱼” ¹²。

这种“长期依赖问题”(long-term dependency problem)的背后,是一个被称为**“梯度消失/爆炸”**的技术难题 ¹²。我们可以用一个比喻来理解它:想象一下,你在一排很长的人队伍的队首说一句悄悄话,并让大家依次传下去。当信息传到队尾时,很可能会发生两种情况:要么信息在传递过程中越来越弱,最终变得模糊不清,甚至完全消失(梯度消失);要么信息在传递中被不断曲解和放大,变得面目全非(梯度爆炸)。

在RNN中,“记忆”就像这句悄y悄话,每经过一个时间步(一个词),它就会衰减或变形。当句子很长时,开头词语的信息就很难有效地传递到结尾。

为了解决这个问题,研究人员设计出了一种更复杂的RNN变体,叫做长短期记忆网络(Long Short-Term Memory, LSTM) ¹²。LSTM在RNN的基础上增加了一些精巧的“门控”结构(输入门、遗忘门、输出门),就像在信息传递的管道上安装了一些阀门。这些阀门可以智能地决定哪些信息是重要的,需要长期保留;哪些信息是次要的,可以被遗忘。LSTM在一定程度上缓解了RNN的健忘问题,并在很长一段时间里成为NLP任务的主力模型。

然而,无论是RNN还是LSTM,它们都未能摆脱一个根本性的束起。这个束缚源于它们最核心的设计理念——顺序处理。这种一次处理一个词的方式,就像一个天生的瓶颈,限制了它们的潜能。

首先是记忆瓶颈。信息必须线性地、一步步地穿过整个序列,无论LSTM的门控设计得多么巧妙,信息的损耗和扭曲在长距离下依然不可避免。

其次是计算瓶颈。这也是更致命的一点。由于必须按顺序处理,你无法同时计算第10个词和第1个词的表示,因为计算第10个词依赖于第9个词的结果,而第9个词又依赖于第8个词,以此类推。这意味着整个计算过程无法大规模并行化。在今天这个数据量和模型尺寸都呈爆炸式增长的时代,这种计算效率的低下是无法接受的。

因此,整个领域都在期待一场革命。我们需要一种全新的架构,它能够彻底摆脱时间的线性束缚,用一种更全局、更高效的方式来阅读和理解语言。这个革命性的答案,就是Transformer。

第三部分:革命——一种新的阅读方式

在RNN和LSTM因其固有的顺序处理瓶颈而步履维艰之时,人工智能领域正酝酿着一场颠覆性的变革。2017年,一篇由Google研究人员发表的、标题极具宣言色彩的论文——《Attention Is All You Need》(注意力就是你所需要的一切)——横空出世,宣告了一个新时代的来临。这篇论文介绍的Transformer架构,彻底改变了机器处理语言的方式,并成为了此后几乎所有大型语言模型的基石 ¹⁵。

3.1 突破——Transformer架构

Transformer最核心的、也是最具革命性的创新,是它完全摒弃了RNN的循环结构 ¹⁵。它不再需要像人一样逐字逐句地、按顺序阅读文本。取而代之的是,它能够

同时处理输入序列中的所有词语 ¹⁷。

想象一下,RNN像一个只能通过一根细长的吸管来喝汤的人,一次只能吸一小口,效率低下且视野局限。而Transformer则像一个拥有一个巨大漏斗的人,可以一次性将整碗汤倒入,并同时观察和分析汤里的所有成分。

这种并行处理的能力,一举打破了RNN的计算瓶颈。计算机的GPU(图形处理器)拥有数千个核心,天生就擅长并行计算。Transformer的设计完美地利用了这一点,使得训练速度得到了前所未有的提升。模型可以在更短的时间内处理更大规模的数据集,这为构建更大、更强的语言模型打开了大门。

这场变革的影响是如此深远,以至于有人将其比作一场**“新的工业革命”** ¹⁸。在过去的工业革命中,人类发明了发电机,将水的势能转化为电能,创造出前所未有的生产力。而Transformer,则像语言处理领域的“发电机”,它解锁了一种全新的、能够大规模生成和理解语言的“软件能源”,并以此为基础创造出能够再创造软件的软件。

那么,Transformer是如何在没有循环结构的情况下,理解句子中词语的顺序和相互关系的呢?答案就在那篇论文的标题里——注意力机制(Attention Mechanism)

3.2 秘密武器——自注意力机制

如果说Transformer是革命性的架构,那么**自注意力机制(Self-Attention)**就是这场革命的秘密武器。这是一个相对复杂的概念,但我们可以通过一系列比喻来层层剥开它的神秘面纱。其核心思想是:在处理句子中的任何一个词时,自注意力机制都允许这个词去“审视”句子中的所有其他词,并根据相关性动态地赋予它们不同的“关注权重” ¹⁹。

比喻一:鸡尾酒会

想象你置身于一个嘈杂的鸡尾酒会。为了听清某一个人的讲话,你并不会孤立地只听他发出的声音。你的大脑会自动进行一系列复杂的处理:你会更多地关注他正在对话的人,观察他的口型和肢体语言,同时也会留意周围谈话的整体氛围和话题,所有这些信息综合起来,才能帮助你准确地理解他的意图。

自注意力机制就让句子中的每个词都拥有了这种能力。当模型处理“它”这个词时,“它”会“环顾四周”,去“倾听”句子中所有其他的词,从而判断自己到底指代的是什么。

比喻二:搜索引擎与在线配对(Q, K, V的魔法)

为了实现上述的“环顾四周”,模型为句子中的每个词都生成了三个特殊的向量,它们是自注意力的核心构件:查询(Query)、键(Key)和值(Value) 19。我们可以用一个搜索引擎或在线配对平台的例子来理解它们的作用 22。

让我们以句子“那个机器人拿起了一本书,因为它很重”为例,重点分析“它”这个词。

  1. 查询(Query, Q):这是当前词发出的“搜索请求”或“配对需求”。它表达了“我需要什么信息来更好地理解我自己”。

    • 例子:当模型处理到“它”这个词时,会生成一个Query向量,这个向量的含义可以被理解为:“我是一个代词,我正在寻找一个可以被我指代的名词,这个名词很可能是一个物体。”
  2. 键(Key, K):这是句子中每个词用来“被搜索”的“关键词”或“个人标签”。它广播了“我是什么,我有什么样的属性”。

    • 例子:“机器人”这个词会生成一个Key向量,其含义是:“我是一个单数名词,是一个具体的物体,可以被代词指代。”“书”这个词也会生成一个类似的Key向量。
  3. 匹配与打分:接下来,模型会用“它”的Query向量,去和句子中所有词(包括它自己)的Key向量进行匹配计算(通常是点积运算),得出一个“注意力分数” ¹⁹。这个分数代表了相关性或匹配度。

    • 例子:“它”的Query(寻找一个物体名词)与“机器人”的Key(我是一个物体名词)匹配度会很高,得到一个高分。与“书”的Key匹配度也会比较高。而与“拿起”或“因为”这些词的Key匹配度就会很低。
  4. 加权与聚合(Value, V):每个词除了有Key之外,还有一个Value向量。Value向量代表了这个词的“真实含义”或“所携带的信息内容”。注意力分数经过一个Softmax函数的归一化处理后,会变成一组权重。当前词(“它”)的最终、带有上下文的新表示,就是通过将句子中所有词的Value向量按照这些权重进行加权求和得到的 ¹⁹。

    • 例子:因为“机器人”和“书”获得了最高的注意力分数,所以它们的Value向量(即它们的语义信息)将在构建“它”的新表示时占据主导地位。通过分析句子结构(“因为它很重”),模型最终可能会让“书”的权重高于“机器人”,从而正确地理解“它”指代的是“书”。

这个**Query-Key-Value(QKV)**的过程,本质上是一个高度灵活和动态的信息筛选与聚合过程。它使得句子中的每个词都能从全局视角汲取与自己最相关的信息,从而构建出对自身含义的深刻理解。

多头注意力(Multi-Head Attention)

为了让理解更加丰富和立体,Transformer并不会只进行一次QKV计算。它会并行地、独立地进行多次,这个过程被称为“多头注意力” 15。

这就像一个专家会诊。我们不是只请一位全科医生,而是同时请来了一位语法专家、一位语义关系专家、一位逻辑推理专家等。每一个“注意力头”(Attention Head)都像一位专家,它有自己独立的一套Q、K、V权重矩阵,专注于从不同角度分析词与词之间的关系。

最后,所有这些“专家头”的分析结果会被整合起来,形成一个对句子全面、多维度、深层次的理解。

自注意力机制的真正威力在于,它不仅仅是一个巧妙的工程设计,更是一个根本性的计算范式。它本质上是一个可学习、可微分、关系型的数据库查询系统 ²⁴。

正是这个集查询、学习和优化于一体的强大机制,让Transformer摆脱了时间的枷锁,能够以一种全局的、动态的、可扩展的方式,深刻地捕捉语言的复杂内涵,从而开启了大型语言模型的辉煌时代。

第四部分:树冠——大语言模型时代

随着Transformer架构这一革命性主干的确立,人工智能的科技树开始以前所未有的速度向上生长,枝繁叶茂,最终形成了我们今天所见的壮观“树冠”——大型语言模型(Large Language Models, LLM)。这一部分,我们将深入这片繁茂的树冠,探究究竟是什么让这些模型配得上“大”这个字,它们是如何被“教育”成才的,以及在这个庞大的家族中,有哪些知名的成员和派别。

4.1 LLM的“大”体现在哪里?

当我们谈论一个模型是“大型”语言模型时,“大”主要体现在两个维度上:参数(Parameters)的数量训练数据(Training Data)的规模。这两者相辅相成,共同构成了LLM强大的能力基础。

要素一:参数——模型的“脑容量”

要素二:训练数据——模型的“图书馆”

可以说,LLM是在一个人类历史上前所未有的、巨大的“数字图书馆”里进行学习的。

然而,“大”的意义远不止于“知道得更多”。当模型的参数数量和数据规模跨越某个临界点后,会发生一种奇妙的质变——**“涌现能力”(Emergent Abilities)**的出现。

LLM最基础的训练任务其实非常单纯:预测下一个词 ³⁵。给定一段文本,比如“今天天气真不错,我们去公园”,模型要做的就是预测下一个最可能出现的词,比如“散步”。一个小型模型也能完成这个任务,但可能做得比较机械。

但是,当一个模型需要在一个囊括了人类几乎所有知识领域的、数万亿词汇的数据集上持续优化“预测下一个词”这个任务时,它被迫不能只靠简单的统计和记忆。为了更准确地预测,它必须去学习和内化更深层次的规则,比如语法结构、逻辑关系、因果推理,甚至是物理世界的基本常识和社会文化的微妙之处。

于是,那些我们并未明确教给它的高级能力,比如进行零样本学习(zero-shot learning,即在没有任何范例的情况下完成一项新任务)²⁷、编写代码、进行数学推理、写诗等,就作为这种极致规模化学习的“副产品”而“涌现”了出来 ¹⁶。这就像一个为了成为终极模仿大师的学生,在模仿了全世界所有伟人的言行举止后,不知不觉中自己也掌握了深刻的智慧和多样的技能。

因此,LLM的“大”,不仅仅是量的积累,更是实现能力质变的必要条件。它将一个单纯的“词语预测器”转变为一个具备初步“推理能力”的引擎。这也解释了为什么各大科技公司在军备竞赛般地追求更大规模的模型——他们不仅仅是为了增加模型的知识储备,更是为了解锁更多、更强大的未知涌现能力。

4.2 LLM的教育体系——预训练与微调

一个大型语言模型从诞生到应用于特定场景,通常要经历一个两阶段的“教育”过程:预训练(Pre-training)和微调(Fine-tuning)。我们可以用一个非常贴切的比喻来理解这个过程:一个人的成长与教育经历 ³⁶

第一阶段:预训练——通识教育(General Education)

这个阶段好比一个人从幼儿园到大学本科的通识教育过程 ³⁶。

第二阶段:微调——专业深造与在职培训(Specialized Education & Job Training)

当基础模型“大学毕业”后,就可以根据具体的工作需求,进入“研究生院”或“公司”进行专业深造了 ³⁶。

这个两阶段的教育体系是LLM能够被广泛应用的关键。预训练构建了强大的通用能力基础,使得我们不必为每个任务都从零开始训练一个模型,这极大地节约了成本。而微调则提供了定制化和专业化的途径,让同一个基础模型能够适配成千上万种不同的应用场景。

4.3 LLM动物园漫游——GPT、BERT、Llama及其伙伴

“LLM”是一个类别,而非单一的产品,就像“哺乳动物”一样。在这个庞大的家族中,生活着各种各样的“物种”,它们由不同的公司或研究机构创造,拥有不同的设计哲学、优势和应用场景。要理解当前的LLM生态,我们需要从两个关键维度来区分它们:核心目标开放模式

关键区别一:目标——“创作者” vs. “理解者”

尽管都基于Transformer架构,但不同的模型家族在设计上有所侧重,这主要体现在它们使用的是Transformer的哪个部分。

关键区别二:访问模式——“封闭” vs. “开放”

除了技术路线,商业和研究模式也导致了LLM世界的分化。

为了更清晰地梳理这些差异,下表总结了主流LLM“物种”的特点:

模型家族核心目标核心架构典型用例访问模式
BERT理解与分析双向编码器搜索引擎优化、情感分析、文本分类开源
GPT生成与创作单向解码器聊天机器人、内容写作、代码生成专有API
Llama生成与创作单向解码器学术研究、企业定制化微调、设备端AI开放权重

这个“动物园”中的多样性,反映了AI领域健康而充满活力的生态。不存在一个“最好”的模型,只有“最适合”的模型。选择哪一个,取决于你的具体目标(是需要一个分析师还是一个创作者?)、你的资源(能承担昂贵的API费用,还是希望在自己的硬件上部署?),以及你对定制化和数据隐私的需求。理解这些根本性的差异,是在这个由AI驱动的新时代做出明智决策的第一步。

第五部分:与巨人共存——希望、风险与前路

我们已经攀登了LLM的科技树,从其根基深入到了繁茂的树冠。现在,是时候从树上下来,回到地面,审视这些技术巨人在现实世界中投下的光明与阴影了。理解LLM的潜力固然令人兴奋,但同样重要的是,要清醒地认识到它们固有的风险,并展望它们未来的发展方向。这对于我们负责任地使用这项变革性技术至关重要。

5.1 森林中的阴影——幻觉与偏见

在与LLM的互动中,用户很快会发现两个如影随形的“幽灵”:幻觉(Hallucination)和偏见(Bias)。它们并非可以轻易修复的“程序bug”,而是源于LLM核心设计和训练方式的根本性问题。

风险一:幻觉——自信地胡说八道

风险二:偏见——一面有瑕疵的镜子

深刻地认识到幻觉和偏见并非偶然的“失误”,而是当前技术范式下的内生性风险,是走向成熟AI观的关键一步。只要LLM的核心任务仍然是基于统计的模式匹配,只要它的主要食粮仍然是反映着人类社会不完美一面的互联网数据,这两个问题就将持续存在。

这意味着,解决方案并非一劳永逸地“修复模型”,而是需要建立一整套风险缓释系统。例如,为了对抗幻觉,研究人员开发了**“检索增强生成”(Retrieval-Augmented Generation, RAG)**技术,即在生成答案前,先让模型从一个可信的、最新的知识库(如公司的内部文档)中检索相关信息,并基于这些事实来组织回答,从而大大减少胡编乱造的可能性 ¹⁶。而为了对抗偏见,则需要持续不断地进行数据清洗、模型对齐(通过人类反馈来校正模型的价值观)以及严格的偏见检测 ⁵¹。我们必须像对待一个能力超群但心智尚不成熟的“巨人”一样,为它设定清晰的边界和护栏。

5.2 最新的萌芽——多模态与AI智能体

尽管存在风险,LLM科技树的生长并未停滞。相反,它正朝着两个激动人心的方向伸出新的枝芽,预示着一个远超纯文本交互的未来。这两个方向分别是:多模态(Multimodality)和AI智能体(AI Agents)

未来方向一:多模态——超越文本的感知

未来方向二:AI智能体——超越聊天的行动

如果说我们迄今为止所描述的科技树,其主干是关于如何精通语言,那么未来的发展方向,则是关于如何将这种强大的语言智能与两样东西连接起来:对多感官世界的感知能力在真实世界中采取行动的能力

多模态技术为LLM装上了“眼睛”和“耳朵”,让它能够“看”和“听”,从而理解这个由图像和声音构成的物理世界。AI智能体技术则为LLM装上了“手”和“脚”,让它能够将思考转化为行动,去操作软件、调用服务、完成任务。

这两个趋势的融合,预示着LLM正在经历一场深刻的进化:从一个大型语言模型(Large Language Model),逐渐演变为一个大型行动模型(Large Action Model),乃至一个更通用的大型智能模型。这不仅是科技树上长出的新枝,更可能代表着一个全新的、智能与世界深度融合的时代的开端。

结论:在新世界中航行

我们从人工智能这片广袤的森林出发,沿着机器学习和深度学习的路径,深入探索了支撑起现代AI的Transformer架构及其核心的自注意力机制。我们见证了参数和数据如何共同催生出“大型”语言模型这一技术奇观,并了解了它们如同人类般的“教育”历程。我们还漫步于LLM的“动物园”,认识了不同设计哲学下的模型家族,并直面了它们带来的幻觉与偏见等深刻挑战。最后,我们眺望了远方,看到了通往多模态感知和智能体行动的未来之路。

这段旅程的核心目的,是剥去环绕在AI周围的神秘光环。希望通过这次从零开始的系统性梳理,您能够认识到,LLM并非无法理解的“魔法黑箱”,而是一棵根植于数学、逻辑和数据之上的、有着清晰生长脉络的科技树。

掌握了这棵树的结构,从它的根基到最新的枝芽,您便拥有了一张导航地图。当未来再有新的技术名词或产品出现时——无论是更强大的模型、更巧妙的风险控制方法,还是更惊人的应用——您将能够把它放到这棵树的相应位置上,理解它的来龙去脉,判断它的意义所在。

我们正处在一个由AI深刻重塑的时代。理解这项技术,不再仅仅是技术专家的任务,而是每一个希望在新世界中把握航向的现代人的必修课。带着这份新获得的知识框架,您已准备好,去更加自信、审慎和富有洞察力地参与到这场关乎我们所有人的伟大变革之中。

Works cited

  1. Understanding The Difference Between AI, ML, And DL: Using An …, accessed July 2, 2025, https://www.advancinganalytics.co.uk/blog/2021/12/15/understanding-the-difference-between-ai-ml-and-dl-using-an-incredibly-simple-example

  2. AI, Machine Learning, and Deep Learning: Key Differences Explained - Skiplevel, accessed July 2, 2025, https://www.skiplevel.co/blog/ai-machine-deep-learning

  3. The Difference Between AI, ML and DL - CENGN, accessed July 2, 2025, https://www.cengn.ca/information-centre/innovation/difference-between-ai-ml-and-dl/

  4. What’s the relationship of AI, ML, DL and Generative AI? | by Jerel Velarde - Medium, accessed July 2, 2025, https://medium.com/@jereljohnvelarde/whats-the-relationship-of-ai-ml-dl-and-generative-ai-1f4c8295432a

  5. Relationship between AI, Machine Learning, Deep Learning & Data Science? - Corpnce, accessed July 2, 2025, https://www.corpnce.com/relationship-ai-ml-dl-ds/

  6. What Is Deep Learning and How Does It Work? - Built In, accessed July 2, 2025, https://builtin.com/machine-learning/deep-learning

  7. 什么是自然语言处理?- NLP 简介- AWS, accessed July 2, 2025, https://aws.amazon.com/cn/what-is/nlp/

  8. 语言智能的新发展与新挑战 - 科技频道, accessed July 2, 2025, https://tech.gmw.cn/2023-02/20/content_36377739.htm

  9. 自然语言处理的第一步:算法如何理解文本 - NVIDIA Developer, accessed July 2, 2025, https://developer.nvidia.com/zh-cn/blog/natural-language-processing-first-steps-how-algorithms-understand-text/

  10. 语言认知与语言计算– 人与机器的语言理解 - 模式识别国家重点实验室, accessed July 2, 2025, https://nlpr.ia.ac.cn/cip/ZongPublications/2022/2022%E7%8E%8B%E5%B0%91%E6%A5%A0-%E4%B8%AD%E5%9B%BD%E7%A7%91%E5%AD%A6.pdf

  11. How Do Large Language Models Work? Conceptual But Non Technical Explanation, accessed July 2, 2025, https://medium.com/@Gbgrow/how-do-large-language-models-work-conceptual-but-non-technical-explanation-ea369334d32e

  12. 什么是RNN?– 循环神经网络简介– AWS, accessed July 2, 2025, https://aws.amazon.com/cn/what-is/recurrent-neural-network/

  13. 什麼是RNN?– 遞歸神經網路介紹 - AWS, accessed July 2, 2025, https://aws.amazon.com/tw/what-is/recurrent-neural-network/

  14. 什么是循环神经网络(RNN)? - IBM, accessed July 2, 2025, https://www.ibm.com/cn-zh/think/topics/recurrent-neural-networks

  15. The Transformer Attention Mechanism - MachineLearningMastery.com, accessed July 2, 2025, https://machinelearningmastery.com/the-transformer-attention-mechanism/

  16. What Can Large Language Models (LLMs) Be Used For? | deepset Blog, accessed July 2, 2025, https://www.deepset.ai/blog/large-language-models-enterprise-use

  17. Transformer架構- 維基百科,自由的百科全書, accessed July 2, 2025, https://zh.wikipedia.org/zh-tw/Transformer%E6%9E%B6%E6%9E%84

  18. 黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满 - 华尔街见闻, accessed July 2, 2025, https://wallstreetcn.com/articles/3710964

  19. A Beginner’s Guide to Self-Attention in Transformers | by Nacho Zobian | Medium, accessed July 2, 2025, https://medium.com/@nachozobian/a-beginners-guide-to-self-attention-in-transformers-baf71a971efd

  20. Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch - Sebastian Raschka, accessed July 2, 2025, https://sebastianraschka.com/blog/2023/self-attention-from-scratch.html

  21. Understanding Transformer Attention Mechanisms : Attention Is All You Need | by Tahir | Medium, accessed July 2, 2025, https://medium.com/@tahirbalarabe2/understanding-transformer-attention-mechanisms-attention-is-all-you-need-2a5dd89196ab

  22. LLM Transformer Model Visually Explained - Polo Club of Data Science, accessed July 2, 2025, https://poloclub.github.io/transformer-explainer/

  23. [D] How to truly understand attention mechanism in transformers? : r/MachineLearning - Reddit, accessed July 2, 2025, https://www.reddit.com/r/MachineLearning/comments/qidpqx/d_how_to_truly_understand_attention_mechanism_in/

  24. Understanding The Attention Mechanism In Transformers: A 5-minute visual guide. - Reddit, accessed July 2, 2025, https://www.reddit.com/r/compsci/comments/1cjc318/understanding_the_attention_mechanism_in/

  25. [D] How does ‘self-attention’ work in transformer models? : r/MachineLearning - Reddit, accessed July 2, 2025, https://www.reddit.com/r/MachineLearning/comments/16q8pwa/d_how_does_selfattention_work_in_transformer/

  26. [draft] Note 10: Self-Attention & Transformers 1, accessed July 2, 2025, https://web.stanford.edu/class/cs224n/readings/cs224n-self-attention-transformers-2023_draft.pdf

  27. What is LLM? - Large Language Models Explained - AWS, accessed July 2, 2025, https://aws.amazon.com/what-is/large-language-model/

  28. Understanding LLMs: Model size, training data, and tokenization - Outshift - Cisco, accessed July 2, 2025, https://outshift.cisco.com/blog/understanding-llms-model-size-training-data-tokenization

  29. What are LLM Parameters? Explained Simply - Deepchecks, accessed July 2, 2025, https://www.deepchecks.com/glossary/llm-parameters/

  30. LLM Parameters Explained - The Cloud Girl, accessed July 2, 2025, https://www.thecloudgirl.dev/blog/llm-parameters-explained

  31. What exactly are parameters? : r/learnmachinelearning - Reddit, accessed July 2, 2025, https://www.reddit.com/r/learnmachinelearning/comments/1dz7w1y/what_exactly_are_parameters/

  32. A Brief Guide To LLM Numbers: Parameter Count vs. Training Size | by Greg Broadhead, accessed July 2, 2025, https://gregbroadhead.medium.com/a-brief-guide-to-llm-numbers-parameter-count-vs-training-size-894a81c9258

  33. LLMs vs. SLMs: The Differences in Large & Small Language Models | Splunk, accessed July 2, 2025, https://www.splunk.com/en_us/blog/learn/language-models-slm-vs-llm.html

  34. An explanation of large language models - TechTarget, accessed July 2, 2025, https://www.techtarget.com/whatis/video/An-explanation-of-large-language-models

  35. Large language models: their history, capabilities and limitations - Snorkel AI, accessed July 2, 2025, https://snorkel.ai/large-language-models/

  36. Pre-training, Fine-tuning, and Transfer learning. To make these ideas more relatable, let’s use a real-world analogy - DEV Community, accessed July 2, 2025, https://dev.to/sreeni5018/pre-training-fine-tuning-and-transfer-learning-to-make-these-ideas-more-relatable-lets-use-a-real-world-analogy-3d0o

  37. Bert vs gpt vs llama: understanding the best AI model for your needs - BytePlus, accessed July 2, 2025, https://www.byteplus.com/en/topic/560409

  38. 7 Popular LLMs Explained in 7 Minutes: GPT, BERT, LLaMA & More | by Rohan Mistry | Jun, 2025 | Medium, accessed July 2, 2025, https://medium.com/@rohanmistry231/7-popular-llms-explained-in-7-minutes-gpt-bert-llama-more-239807219f6f

  39. BERT vs. GPT: What’s the Difference? - Coursera, accessed July 2, 2025, https://www.coursera.org/articles/bert-vs-gpt

  40. Your AI terminology cheat sheet: GPT, ChatGPT, LLaMa, Alpaca, Bard, LLMs - Karbon, accessed July 2, 2025, https://karbonhq.com/resources/generative-ai-terminology-cheat-sheet/

  41. Llama vs GPT: Comparing Open-Source Versus Closed-Source AI Development - Netguru, accessed July 2, 2025, https://www.netguru.com/blog/gpt-4-vs-llama-2

  42. No, Llama 2 is NOT an open source LLM : r/LocalLLaMA - Reddit, accessed July 2, 2025, https://www.reddit.com/r/LocalLLaMA/comments/153i6vi/no_llama_2_is_not_an_open_source_llm/

  43. Open Source LLMs: Llama and Its Competitors | Michigan Online, accessed July 2, 2025, https://online.umich.edu/collections/artificial-intelligence/short/open-source-llms-llama-and-its-competitors/

  44. www.lakera.ai, accessed July 2, 2025, https://www.lakera.ai/blog/guide-to-hallucinations-in-large-language-models#:~:text=Hallucinations%20in%20LLMs%20refer%20to,trust%20placed%20in%20these%20models.

  45. What are LLM Hallucinations? - Iguazio, accessed July 2, 2025, https://www.iguazio.com/glossary/llm-hallucination/

  46. LLM Hallucinations Explained. LLMs like the GPT family, Claude… | by Nirdiamant - Medium, accessed July 2, 2025, https://medium.com/@nirdiamant21/llm-hallucinations-explained-8c76cdd82532

  47. When LLMs day dream: Hallucinations and how to prevent them - Red Hat, accessed July 2, 2025, https://www.redhat.com/en/blog/when-llms-day-dream-hallucinations-how-prevent-them

  48. Bias and Fairness in Large Language Models: A Survey - MIT Press Direct, accessed July 2, 2025, https://direct.mit.edu/coli/article/50/3/1097/121961/Bias-and-Fairness-in-Large-Language-Models-A

  49. Bias in Large Language Models: Origin, Evaluation, and Mitigation - arXiv, accessed July 2, 2025, https://arxiv.org/html/2411.10915v1

  50. Data bias in LLM and generative AI applications - Mostly AI, accessed July 2, 2025, https://mostly.ai/blog/data-bias-types

  51. Explicitly unbiased large language models still form biased associations - PNAS, accessed July 2, 2025, https://www.pnas.org/doi/10.1073/pnas.2416228122

  52. Exploring Multimodal LLMs? Applications, Challenges, and How They Work - Shaip, accessed July 2, 2025, https://www.shaip.com/blog/multimodal-large-language-models-mllms/

  53. A Comprehensive Guide to Multimodal LLMs and How they Work - Ionio, accessed July 2, 2025, https://www.ionio.ai/blog/a-comprehensive-guide-to-multimodal-llms-and-how-they-work

  54. What is multimodal AI: Complete overview 2025 | SuperAnnotate, accessed July 2, 2025, https://www.superannotate.com/blog/multimodal-ai

  55. How Multimodal LLMs Work - The Vision Story - Analytics Vidhya, accessed July 2, 2025, https://www.analyticsvidhya.com/blog/2025/06/multimodal-llm/

  56. What is Multimodal AI? - DataCamp, accessed July 2, 2025, https://www.datacamp.com/blog/what-is-multimodal-ai

  57. What are AI agents? Definition, examples, and types | Google Cloud, accessed July 2, 2025, [https://cloud.google.com/discover/what-are-ai-agents#:~:text=Model%3A%20Large%20language%20models%20(LLMs,components%20facilitate%20reason%20and%20action.](https://cloud.google.com/discover/what-are-ai-agents#:~:text=Model%3A%20Large%20language%20models%20(LLMs,components%20facilitate%20reason%20and%20action.)


编辑页面
分享到:

上一篇
从兆字节到兆瓦:基于CUDA与Triton的高性能LLM与扩散内核全指南
下一篇
Cudy TR3000 + ImmortalWrt 折腾记录