人工智能词汇表

综合性词汇
词汇 概念解释
AI /Artificial Intelligience /人工智能 让机器实现像人一样的技术的统称
ML/Machine Learning /机器学习 让机器从已有的数据中去寻找规律并对新来的数据做预测的方法
DL/Deep Learning 深度学习 机器学习的方法,最重要的一个分支,模拟人脑多层神经元结构的一种方法,约等于神经网络。深度学习大致就是用人类的数学知识与计算机算法构建起来的整体架构,再结合尽可能多的训练数据以及计算机的大规模运算能力去调节内部参数,尽可能逼近问题目标的半理论、半经验的建模方式。中间隐藏层数较多的才叫深度学习,层数较少的只能叫神经网络,不能叫“深度”
神经网络 模仿生物神经网络的结构和功能的计算系统,输入信号经过多层神经网络处理(加权求和、偏置),并通过激活函数来决定是不是继续传给下一层,最终得到输出
监督学习-Supervised learning 机器学习的类别,监督学习就是训练的数据有题目也有答案,机器从问题和答案中找规律,下次新的问题来了,根据规律或者从中学习到的经验/公式,通过“套公式”得出对应的结果
非监督学习-Unsupervised learning | UL 有题目没答案,让他自己学规律,比如给一堆猫狗的照片,让他按共同特征归类,哪些是猫哪些是狗(机器只知道他们像,并不知道他们叫阿猫还是阿狗),非监督学习没有明确目的,不需要给数据打标签,也无法量化效果
强化学习 通过正反馈/回报来告诉机器应该采取什么行为(典型的就是打游戏,一次次尝试,机器总会朝着分高或者胜利的方向往下走,比如AlphaGo下围棋)
GAN生成对抗网络 通过同时训练“警察”与“小偷”,实现“道高一尺魔高一丈”的效果,最终用于生成以假乱真的内容
NLP自然语言处理
词汇 解释
NLP Nature Language Processing自然语言处理 NLP的目标是使计算机能够理解、解释和生成人类语言,以便更好地与人类沟通和执行各种语言相关的任务
NLU Nature Language Processing自然语言理解 机器像人一样,具备正常人的语言理解能力
NLG Nature Language Processing自然语言生成 让机器能按照人的语言习惯输出所需的内容
分词 – Tokenization 将句子,段落分解为字词单位,方便后续的处理的分析。将复杂问题转化为数学问题
词干提取 – Stemming (英文分词) 词干提取是去除单词的前后缀得到词根的过程。如「名词的复数」、「进行式」、「过去分词」还原
词形还原 – Lemmatisation(英文分词) 词形还原是基于词典,将单词的复杂形态转变成最基础的形态。如「drove」会转换为「drive」
词性标注 – Part of speech 以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果
命名实体识别 – Named-entity recognition | NER 是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
成分句法分析 对输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构
依存句法分析-Constituency-based parse trees 输入的文本句子进行分析以得到句子的句法结构的处理过程
文本挖掘 – Text mining 大致相当于文本分析,是从文本中获取高质量信息的过程
文本表示(Representation) 将文本等非结构化的信息转化为结构化的信息(如向量),主流的方法有Word2vec和Glove
词嵌入 | Word embedding 文本表示的一种方法,将词转化为向量的过程
Word2vec Word embedding的方法,不过现在已经不用了
CBOW(Continuous Bag-of-Words Model) Word2vec的一种形式,通过上下文来预测当前值。相当于一句话中扣掉一个词,让你猜这个词是什么。
Skip-gram Word2vec的一种形式,用当前词来预测上下文。相当于给你一个词,让你猜前面和后面可能出现什么词。
Encoder-Decoder 架构是一种常用于处理序列数据的神经网络结构,目标经Encoder转化为固定长度的向量,解码器将编码后的向量解码,并生成输出内容,训练过程可能复杂,比较消耗资源。在深度学习的发展过程中,Encoder-Decoder架构已经演变成了更复杂的变体,如序列到序列(Seq2Seq)模型,这些模型在处理复杂任务时展现出了更高的性能。此外,Transformer模型的出现进一步推动了Encoder-Decoder架构的发展,它通过自注意力机制替代了传统的RNN结构,提高了处理长序列的效率。
Seq2Seq Encoder-Decoder不论输入和输出的长度是什么,中间的「向量 c」 长度都是固定的,这也是它的缺陷。许多重要的问题,例如机器翻译、语音识别、自动对话等,表示成序列后,其长度事先并不知道。因此如何突破先前深度神经网络的局限,使其可以适应这些场景,成为了13年以来的研究热点,Seq2Seq框架应运而生。Seq2Seq(强调目的)不特指具体方法,满足「输入序列、输出序列」的目的,都可以统称为 Seq2Seq 模型。
Attention Encoder-Decoder 就是类似的问题:当输入信息太长时,会丢失掉一些信息。Attention 机制就是为了解决「信息过长,信息丢失」的问题。Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量 C」 ,而是编码成一个向量的序列。心逻辑就是「从关注全部到关注重点」。模型复杂度相比于CNN、RNN,参数更少,速度更快,效果更好
Bert BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder.因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation

大模型

词汇 解释
LLM -Large Language Model 大语言模型,市面上的ChatGPT、文心一言、讯飞星火等都是大语言模型
多模态 相较于大语言模型,多模态指的是可以处理文字以外的多种形态的信息,比如图片、音频、视频
Token Token是模型拆分语言的最小单位,可以是一个词也可以是词的组合,比如“我吃葡萄”可以拆为:“我”、“吃”、“葡萄”3个token