什么是大语言模型?(LLM大语言模型)

知识教程1年前 (2023)更新 YepAI
9.1K 0

基本概念

自然语言处理(Natural Language Processing, NLP)是利用计算机技术来分析、理解和处理自然语言的一门学科, 涉及到语言学、计算机科学、人工智能等交叉领域,关注计算机和人类(自然)语言之间的交互。

NLP的终极目标就是让人和机器能够通过自然语言进行交互。这里的自然语言特指的是符号语言,也就是文字,不包括语音。NLP其实还可以被细分为很多不同的任务,例如词法分析、句法分析、语义分析、文本生成、文本摘要、文本分类、信息抽取、机器翻译、问答系统、对话系统、知识图谱等。但是无论是哪种任务,都需要先对建立一个语言模型(Language Model , LM),再以这个模型为基础来完成具体的任务。这也是NLP最重要的发展。

大型语言模型(Large Language Models,LLMs)是一种人工智能模型,旨在理解和生成人类语言。它们能够获取上下文并生成连贯且类似真人的回复。这些语言模型通过分析大量的文本数据并学习语言使用的模式来工作,利用这些模式生成的文本几乎无法与人类所说或写的内容区分开来。

真正引起人们关注的第一个模型是OpenAI于2018年开发的GPT(Generative Pre-trained Transformer)模型。大众熟知的ChatGPT基本上就是GPT-3.5。GPT模型之所以如此特殊,是因为它是首批用Transformer架构的语言模型之一。这是一种能够很好地理解文本数据中的长距离依赖关系的神经网络类型,使得该模型能够生成高度连贯和上下文相关的语言输出。拥有1.17亿个参数的GPT模型对自然语言处理领域产生了重大影响,真正改变了游戏规则。

当前常见的大语言模型

  • GPT-4(OpenAI): 全称为生成式预训练Transformer 4,这个突破性的大型语言模型比其前身GPT-3的1750亿个参数更高,达到了惊人的1万亿个参数。它的优势与GPT-3类似,在大量文本数据上进行了广泛的预训练,使其能够学习极其多样的语言特征和关系。因此,可以使用相对较少的示例对GPT-4进行特定自然语言处理任务的微调,使其成为一种非常高效和多功能的工具,适用于各种应用。
  • BERT(谷歌):Bidirectional Encoder Representations from Transformers(BERT)是谷歌开发的一种预训练深度学习模型,全称为Transformer编码器表示的双向。它旨在理解和生成自然语言,对NLP研究产生了重大影响。该模型使用双向方法从一个词的左右两边捕捉上下文,使得各种任务的性能提高,如情感分析和命名实体识别。
  • T5(谷歌): 文本到文本转换器(T5)是一个LLM,该模型将所有的NLP任务限定为文本到文本问题,简化了模型适应不同任务的过程。T5在总结、翻译和问题回答等任务中表现出强大的性能。
  • ERNIE 3.0 文心大模型 (百度):百度推出的大语言模型ERNIE 3.0首次在百亿级和千亿级预训练模型中引入大规模知识图谱,提出了海量无监督文本与大规模知识图谱的平行预训练方法。

大语言模型的类型

  • 基于自编码器的模型(Autoencoder-Based Model)

一种类型的大型语言模型是基于自编码器的模型,它通过将输入文本编码为较低维度的表示,然后根据该表示生成新的文本。这种类型的模型在文本摘要或内容生成等任务中表现出色。

  • 序列到序列模型(Sequence-to-Sequence Model)

另一种类型的大型语言模型是序列到序列模型,它接收一个输入序列(比如一个句子)并生成一个输出序列(比如翻译成另一种语言)。这些模型通常用于机器翻译和文本摘要。

  • 基于Transformer的模型(Transformer-Based Models)

这是另一种常见的大型语言模型类型。这些模型使用一种神经网络架构,非常擅长理解文本数据中的长距离依赖关系,使其在生成文本、翻译语言和回答问题等各种语言任务中非常有用。

  • 递归神经网络模型(Recursive Neural Network Models)

递归神经网络模型被设计用于处理结构化数据,如句子的句法结构表示。这些模型对情感分析和自然语言推理等任务非常有用。

  • 分层模型(Hierarchical Models)

分层模型被设计用于处理不同粒度级别的文本,例如句子、段落和文档。这些模型用于文档分类和主题建模等任务。

LLM模型能通过微调转移到许多下游任务,因为它们已经在大量无监督和非结构化数据的情况下进行了训练。像 GPT-3 或 BERT 这样的大型语言模型 (LLM) 是深度神经网络,其核心是 Transformer 的体系结构

大语言模型的训练

训练语言模型需要向其提供大量的文本数据,模型利用这些数据来学习人类语言的结构、语法和语义。这个过程通常是通过无监督学习完成的,使用一种叫做自我监督学习的技术。在自我监督学习中,模型通过预测序列中的下一个词或标记,为输入的数据生成自己的标签,并给出之前的词。

训练过程包括两个主要步骤: 预训练(pre-training) 和微调(fine-tuning):
在预训练阶段,模型从一个巨大的、多样化的数据集中学习,通常包含来自不同来源的数十亿词汇,如网站、书籍和文章。这个阶段允许模型学习一般的语言模式和表征。
在微调阶段,模型在与目标任务或领域相关的更具体、更小的数据集上进一步训练。这有助于模型微调其理解,并适应任务的特殊要求。

大型语言模型是如何工作的?

典型的Transformer模型在处理输入数据时有以下几个主要步骤:

首先,模型进行词嵌入,将单词转换为高维向量表示。然后,数据通过多个Transformer层进行传递。在这些层中,自注意机制在理解序列中单词之间的关系方面起着关键作用。最后,在经过Transformer层的处理后,模型通过根据学到的上下文预测序列中最可能的下一个单词或标记来生成文本。

  • 词嵌入(Word Embedding)构建大型语言模型时,词嵌入是至关重要的第一步。它将单词表示为高维空间中的向量,使得相似的单词被归为一组。这有助于模型理解单词的含义,并基于此进行预测。
  • 位置编码(Positional Encoding)位置编码是帮助模型确定单词在序列中的位置的技术。它与单词的含义以及它们之间的关系无关,例如”猫”和”狗”之间的相似性。相反,位置编码主要用于跟踪单词的顺序。例如,当将句子”我喜欢猫”输入到模型时,位置编码可以帮助模型区分”我”是在句子的开头,而”猫”是在句子的结尾。这对于模型理解上下文和生成连贯的输出非常重要。位置编码使用一系列特定模式的向量来表示单词的位置。这些向量与词嵌入的向量相加,以获得包含位置信息的表示。通过这种方式,模型能够将单词的位置作为输入的一部分,并在生成输出时保持一致。
  • 自注意力机制(Self-Attention Mechanism)自注意力机制是Transformer模型的核心组成部分。它允许模型在生成输出时,有效地在输入序列的不同位置进行交互和关注。自注意力机制的关键思想是计算输入序列中每个单词之间的相关性,并将这些相关性用于权衡模型在每个位置的关注程度。
  • 前馈神经网络(Feed-forward Neural Network)前馈神经网络对每个位置的表示进行进一步的处理。前馈神经网络是由多个全连接层组成的,其中每个层都有一组参数,用于将输入进行非线性变换。这个过程可以帮助模型在生成输出时引入更多的复杂性和灵活性。
  • 文本生成 这通常是由LLM模型执行的最后一步;在LLM经过训练和微调之后,该模型可以用于根据提示或问题生成高度复杂的文本。模型通常通过种子输入进行”预热”,种子输入可以是几个单词、一个句子,甚至是一个完整的段落。然后,LLM利用其学到的模式生成一个连贯且与上下文相关的回答。文本生成依赖于一种称为自回归的技术,即模型根据它已生成的先前单词逐个生成输出序列的每个单词或标记。模型利用在训练期间学到的参数来计算下一个单词或标记的概率分布,然后选择最有可能的选择作为下一个输出。
© 版权声明