到底什么是“生成式 AI”？

原文标题：《原来这才是【生成式 AI】！！》

随着 ChatGPT、文心一言等 AI 产品的火爆，生成式 AI 已经成为了大家茶余饭后热议的话题。

可是，为什么要在 AI 前面加上“生成式”这三个字呢？

难道还有别的 AI 吗？

且听文档君慢慢道来~

1、生成式 AI 究竟是个啥？

如果将人工智能按照用途进行简单分类的话，AI 其实要被划分为两类：决策式 AI 和生成式 AI。

决策式 AI：专注于分析情况并做出决策。它通过评估多种选项和可能的结果，帮助用户或系统选择最佳的行动方案。

例如，在自动驾驶车辆中，就是通过决策式 AI 系统决定何时加速、减速或变换车道。

生成式 AI：专注于创造全新内容。它可以根据学习到的数据自动生成文本、图像、音乐等内容。

例如，你可以将几篇论文发给生成式 AI，他可以生成一篇文献综述，囊括了这几篇论文的关键思想、重要结论。

看到这里，你就知道为什么 ChatGPT、文心一言属于生成式 AI 了吧？

接下来，让我们正式走入生成式 AI 的世界。

2、生成式 AI 的前世今生

其实，生成式 AI 的并不是这几年刚刚诞生，它实际已经经历了三个阶段：

早期萌芽阶段

1950 年，Alan Turing 提出了著名的“图灵测试”，这是生成式 AI 领域的一个里程碑，预示了 AI 内容生成的可能性。
1957 年，Lejaren Hiller 和 Leonard Isaacson 完成了历史上第一首完全由计算机“作曲”的音乐作品《Illiac Suite》。
1964 年至 1966 年间，Joseph Weizenbaum 开发了世界上第一款可人机对话的机器人“Eliza”，它通过关键字扫描和重组完成交互任务。
1980 年代，IBM 公司基于隐形马尔科夫链模型，创造了语音控制打字机“Tangora”。

沉淀积累阶段

随着互联网的发展，数据规模快速膨胀，为人工智能算法提供了海量训练数据。但是由于硬件基础有限，此时的发展并不迅猛。

2007 年，纽约大学人工智能研究员 Ross Goodwin 的人工智能系统撰写了小说《1 The Road》，这是世界第一部完全由人工智能创作的小说。

2012 年，微软公司公开展示了一个全自动同声传译系统，可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

快速发展阶段

2014 年起，大量深度学习方法的提出和迭代更新，标志着生成式 AI 的新时代。

2017 年，微软人工智能少女“小冰”推出了世界首部 100% 由人工智能创作的诗集《阳光失了玻璃窗》。
2019 年，谷歌 DeepMind 团队发布了 DVD-GAN 架构用以生成连续视频。
2020 年，OpenAI 发布 ChatGPT3，标志着自然语言处理（NLP）和 AIGC 领域的一个重要里程碑。
2021 年，OpenAI 推出了 DALL-E，主要应用于文本与图像的交互生成内容。
自 2022 年开始到现在，OpenAI 多次发布 ChatGPT 新型号，掀起了 AIGC 又一轮的高潮，它能够理解和生成自然语言，与人类进行复杂的对话。

自此，生成式 AI 已经到了一个井喷式状态。那么，生成式 AI 究竟是基于什么样的原理呢？

3、轻松搞懂“生成式 AI”原理

在刚刚的介绍中，大家应该都对生成式 AI 有了一个表象的认知：学习知识 + 生成新知识。

但它是如何学习的呢？又是如何生成的呢？

这时候，我们就得来看看生成式 AI 更深层次的定义了：

定义

以 ChatGPT 为代表的生成式 AI，是对已有的数据和知识进行向量化的归纳，总结出数据的联合概率。从而在生成内容时，根据用户需求，结合关联字词的概率，生成新的内容。

是不是一下子懵了？

不急，这就触及到生成式 AI 的原理了。待文档君给你慢慢解析。

其实制作一个生成式 AI，就像把一个泥人变成天才，一共需要四步：捏泥人 → 装大脑 → 喂知识 → 有产出。

Step1：捏泥人 —— 硬件架构的搭建

要打造一个生成式 AI 的“泥人”，首先要考虑的就是底层硬件。底层硬件构成了生成式 AI 的算力和存力。

算力 —— 泥人的骨架

生成式 AI 需要进行大量的计算，尤其是在处理如图像和视频时。大规模计算任务离不开下面这些关键硬件：

GPU（图形处理单元）：提供强大的并行计算能力。通过成千上万个小处理单元并行工作，大幅提高了计算效率。

TPU（张量处理单元）：专门为加速人工智能学习而设计的硬件，能够显著加快计算速度，进一步增强了骨架的强度。

存力 —— 泥人的血液

生成式 AI 需要处理和存储大量的数据。

以 GPT-3 为例，光是训练参数就达到了 1750 亿个，训练数据达到 45TB，每天会产生 45 亿字内容。

这些数据的存放离不开下面这些硬件设施：

大容量 RAM：在训练生成式 AI 模型时，大量的中间计算结果和模型参数需要存储在内存中，大容量的 RAM 能够显著提高数据处理速度。

SSD（固态硬盘）：大容量的 SSD 具有高速读取和写入能力，可以快速加载和保存数据，使泥人能够高效地存储信息。

泥人捏好了，但是现在只能是一个提线木偶，没有任何能力，所以我们就要给他装上大脑。

Step2：装大脑 —— 软件架构构建

软件架构是泥人的大脑，它决定了这个泥人将以什么样的方式对数据进行思考推理。

从仿生学的角度，人类希望 AI 能够模仿人脑的运行机制，对知识进行思考推理 —— 这就是通常所说的深度学习。

为了实现深度学习，学者们提出了大量的神经网络架构：

深度神经网络（DNN）是最普遍的神经网络架构，但是随着数据对于网路架构的要求越来越复杂，这种方法逐渐有些吃力。
卷积神经网络（CNN）是一种专门为处理图像数据而设计的神经网络架构，能够有效地处理图像数据，但是需要对输入数据进行复杂的预处理。
随着任务复杂度的增加，循环神经网络（RNN）架构成为处理序列数据的常用方法。
由于 RNN 在处理长序列时容易遇到梯度消失和模型退化问题，著名的 Transformer 算法被提出。

随着算力的发展，生成式 AI 的网络架构发展越来越成熟，也开始各有侧重：

Transformer 架构：是目前文本生成领域的主流架构，GPT、llama2 等 LLM（大语言模型）都是基于 Transformer 实现了卓越的性能。
GANs 架构：在图像生成、视频生成等领域有广泛应用，能够生成高质量的图像和视频内容。
Diffusion 架构：在图像生成、音频生成等领域取得了很好的效果，能够生成高质量、多样化的内容。