1. 大语言模型Large Language Model,LLM):是一种计算模型,以其能够实现通用语言生成和其他自然语言处理任务(如分类)的能力而著称。基于语言模型,LLM 通过在计算密集型的自监督和半监督训练过程中从大量文本中学习统计关系来获得这些能力。LLM 可用于文本生成,这是一种生成式 AI,通过获取输入文本并反复预测下一个标记或单词
2. 自然语言生成(NLG):指将非自然语言形式的信息转化为自然语言形式的信息,例如文本生成、摘要生成等。
3. 自然语言理解(NLU):指将自然语言形式的信息转化为非自然语言形式的信息,例如文本分类、情感分析等。
4. Tokens: Token 是 LLM AI 处理文本或代码的基本单位。Tokens 可以是字符(characters)、单词(words)、子单词(subwords)或其他文本段落(segments of text)或代码段落(segments of code),tokens 的具体内容取决于所选的 token 化(tokenization)算法和方法。Tokenization 算法和 tokenizer 是 LLM 的基础组件
5. 向量(Embedding): 在机器学习和自然语言处理中,embedding 是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程。embedding 向量通常是一个由实数构成的向量,它将输入的数据表示成一个连续的数值空间中的点。简单来说,embedding 就是一个N维的实值向量,它几乎可以用来表示任何事情,如文本、音乐、视频等...最终实现将数据的抽象和复杂度降低,以便于计算机处理和理解
6. 词向量:将单词表示为高维向量,以便让计算机能够理解和处理自然语言。
7. 向量数据库(Vector Database):向量数据库是一种专门用来存储多维向量表示特定特征或质量信息的数据库,每个向量的维度数量可以在一定范围内有很大的变化,从几个到几千个不等,具体取决于数据的复杂性和细节。这些数据可以包括文本、图像、音频和视频等多种类型,通过使用机器学习模型、词嵌入或特征提取技术等各种过程将其转换为向量。
向量数据库的主要优势在于它能够快速和精确地按照向量的距离或相似性定位和检索数据。这意味着可以基于语义或上下文相关性进行搜索,而不仅仅依赖于传统数据库中的精确匹配或预设标准
8. 微调(Supervised Fine Tuning): 由于openai这种公司进行chatgpt进行预训练要消耗巨额资金,因此从成本考虑普通人更可行的调整AI的办法是微调--微调(SFT:Supervised Fine Tuning)是一种机器学习技术,涉及对预训练模型进行小的调整,以提高其在特定任务中的性能和表现
9. 提示词工程(Prompt Engineering):在和 LLM 的交互中,提示词 发挥着至关重要的作用,提示词 是我们和 LLM 沟通的桥梁。在 NLP 领域,提示 是一种用于引导预训练语言模型解决特定任务的方法。”提示"通常是一段文本,用于构建问题或任务的描述,以便预训练语言模型可以根据其内在知识生成合适的输出。
10. 幻觉:LLM如其他技术一样,即便当前 LLM 在各个领域中有着惊人的表现,但是 LLM 也存在着缺陷和局限。而 “幻觉(Hallucination)”就是一种非常常见的缺陷--幻觉会严重影响依赖 LLM 的下游业务的表现,导致这些业务在真实场景中无法满足用户需求。大语言模型生成内容的真实性是生成式模型接下来面临的重要科学问题之一
11. RAG(Retrieval Augmented Generation):在运行时(而非预训练时),使用外部数据的大语言模型称之为基于检索增强的生成式。RAG 是深度学习和传统检索技术(Retrieval Technology)的有机结合,在生成式大模型时代,有着以下优势--知识库和模型分离,知识不以参数的形式存储在模型中,而是明文存储在数据库中,灵活性更高。
另外文本生成转变为文本总结,生成结果的可信度更高,同时还降低了文本生成的难度。
12.Agent: Agent 就是能够使用各种外部工具的 LLM。 Agent本质上是LLM,但是其包含的Thought和Tools Set将Agent和LLM区别开来,并且这种逐步思考的方式也使得 LLM 可以通过多次推理或多次使用工具来获取更好的结果
13.Multi Agent:Multi-Agent 是分布式 AI 领域的一个分支,强调在不同的 Agent 之间进行协作以完成用户的任务,这个时候的 Multi-Agent 主要存在于强化学习和博弈论(game theory) 的相关研究中
14.Assistant:助手可以根据说明并使用工具来响应用户的请求
15. 涌现(Emergence):或称创发、突现、呈展、演生,是一种现象。许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。研究发现,模型规模达到一定阈值以上后,会在多步算术、大学考试、单词释义等场景的准确性显著提升,称为涌现。
16. 泛化(Generalization):模型泛化是指一些模型可以应用(泛化)到其他场景,通常为采用迁移学习、微调等手段实现泛化。
17. 微调(FineTuning):针对大量数据训练出来的预训练模型,后期采用业务相关数据进一步训练原先模型的相关部分,得到准确度更高的模型,或者更好的泛化。
18. 指令微调(Instruction FineTuning):针对已经存在的预训练模型,给出额外的指令或者标注数据集来提升模型的性能。
19. 思维链(Chain-of-Thought,CoT):通过让大语言模型(LLM)将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。需指出,针对复杂问题,LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。
20. 预训练语言模型:指在大量无监督语料库上进行预训练的模型,旨在提高模型对自然语言的理解能力。常见的预训练语言模型有BERT、GPT和ERNIE等。
21. 175B、60B、540B等:这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。
22.Transformer:一种重要的深度学习架构,通过自注意力机制和位置编码等技术,提高了模型对输入序列的理解能力。
23. 强化学习(Reinforcement Learning):一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一种自适应的学习能力。
24. 深度学习:一种机器学习方法,通过建立多层神经网络来模拟人脑神经的工作方式,从而实现复杂的语言处理任务。
25. 基于人工反馈的强化学习(RLHF):(Reinforcement Learning from Human Feedback)构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。
26. 迁移学习:将在一个任务或领域中学到的知识迁移到其他任务或领域中,从而加速模型的训练速度和提高性能。
27. 多任务学习:通过同时训练多个任务,使模型能够更好地利用数据,提高模型的泛化能力。
28. 注意力机制:一种神经网络机制,使模型能够在处理输入序列时,对输入的每个部分赋予不同的关注度。
29. LangChain:随着大型语言模型(LLM)的引入,自然语言处理已经成为互联网上的热门话题。LangChain 是一个开源 Python 框架,利用 LangChain,开发人员能够非常方便的开发基于大型语言模型的应用程序(AI 原生应用),例如:聊天机器人,摘要,生成式问答。
30. Semantic Kernel:是一种便于使用 LLM 开发应用的框架,如果特殊说明,当提到 SK 的时候,我们一般说的就是 Semantic Kernel 框架。使用 SK,我们可以更加轻松的将传统的编程语言和 LLM 技术结合在一起,并使用 SK 中提供的开箱即用的各种组件,更加便利的开发我们的 AI 原生应用。