第七章 幕后的技术路径

当然,AIGC能力的提升,并不是一蹴而就的,而是经历了漫长且复杂的“模型突破—大幅提升—规模化生产—遇到障碍—再模型突破—大幅提升”的循环发展过程。而AIGC要实现商业化落地应用,走进人类生活,就必须在资源消耗、学习门槛等方面做到平民化。

AIGC的成功主要得益于基础的生成算法模型不断突破创新。比如为人熟知的GAN、Transformer、Diffusion、CLIP、LLM等(见图7-1),这些模型的性能、稳定性、生成的内容质量等不断提升。得益于生成算法的进步,AIGC现在已经能够生成文字、代码、图像、语音、视频、3D物体幕等后各的种技类术型路的径内容了。

第七章 幕后的技术路径 - 图1 图7-1 AIGC的技术支撑

LLM

AIGC开创了LLM主导内容生成的时代。人类将跑步进入传统人类内容创作和人工智能内容生成并行的时代,进而进入后者逐渐走向主导位置的时代。这意味着传统人类内容创作互动模式将转变为AIGC模型互动模式。预训练模型,即基础模型、大模型,引发了AIGC技术能力的质变。虽然过去各类生成模型层出不穷,但是它们使用门槛高、训练成本高、生成的内容简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。而预训练模型能够满足多任务、多场景、多功能需求,能够解决以上诸多痛点。预训练模型显著提升了AIGC模型的通用化能力和工业化水平,同一个AIGC模型可以高质量地完成多种多样的内容输出任务,AIGC模型成为自动化内容生产的“工厂”和“流水线”。目前业界主流的AIGC模型大多达到了千亿级、万亿级参数量的水平。通过学习各行各业的数据,它除了能给出相较于小模型更准确的预测结果,也展现出了惊人的泛化能力、迁移能力,产出了质量更高、更智能的内容,这也是当前AIGC让人眼前一亮的原因。

Transformer

在自然语言处理系统中,“Transformer”是一种融入注意力机制和神经网络模型领域的主流模型和关键技术。Transformer具有将所处理的任何文字和句子“向量”化或“矢量”化,最大限度反映精准意义的能力。ChatGPT使用的核心技术之一也是Transformer,这从其全称Chat Generative Pre-trained Transformer上也能看得出来。Transformer技术是近几年人工智能技术最大的亮点之一,它是Google于2017年提出的一种采用注意力机制的深度学习模型,可以按输入数据各部分的重要程度,分配不同的权重。Transformer的精度和性能都要优于之前流行的CNN(卷积神经网络)、RNN(循环神经网络)等模型,大幅提升了模型训练的效果,让人工智能得以在更大模型、更多数据、更强算力的基础上进一步增强能力。此外,它还具有很强的跨模态能力,不仅在自然语言处理领域表现优异,在语音、图像方面也显示出了优异的性能(见图7-2)。

第七章 幕后的技术路径 - 图2 图7-2 GAN与GPT的比较

GAN

在深度学习模型的迭代上,AIGC领域最早出现的一个深度学习模型为生成对抗网络(GAN),尽管它曾被称为“21世纪最强大的算法模型之一”,但也存在着生成图像分辨率较低、新图像创意不足等问题。

2014年,GAN诞生,真正教会AI自己画画。GAN包含两个模型,一个是生成网络G(G模型),一个是判别网络D(D模型)。G模型负责用接收到的随机噪声生成图片,D模型则要判断这张图片是G模型画的还是现实世界本就存在的。G模型、D模型互相博弈,能力不断提升,而当D模型不再能判断出G模型生成的图片时,训练就达到了平衡(见图7-3)。

第七章 幕后的技术路径 - 图3 图7-3 GAN的特征

GAN的开创性在于,它精巧地设计了一种“自监督学习”方式,摆脱了以往监督学习需要大量标签数据的应用困境,可以广泛应用于图像生成、风格迁移、AI艺术和黑白老照片上色修复等方面。

2018年,佳士得拍卖行在纽约以43.25万美元(约合人民币301万元)的天价拍卖了一幅由AI程序绘制的肖像画。这个名为《爱德蒙·贝拉米肖像》的作品,以朦胧手法描绘了一名身穿黑色西服外套,搭配白色衬衫的无脸男士(见图7-4)。

第七章 幕后的技术路径 - 图4 图7-4 GAN创作的AI画作

但GAN的缺陷也正源于其开创性:由于需要同步训练两个模型,GAN的稳定性较差,容易出现模式崩溃。还需要提及另一个有趣的现象——“海奥维提卡现象”(Helvetica Scenario):如果G模型发现了一个能够骗过D模型的bug,它就会开始偷懒,一直用这张图片来欺骗D模型,导致整个平衡无效。

CLIP

诞生于2021年的CLIP模型由于能够同时进行自然语言理解和计算机视觉分析,实现了图像和文本匹配,也为后续AIGC应用的落地打下了基础。

多模态技术使AIGC的内容更多样,进一步增强了AIGC模型的通用化能力。多模态技术也使文字、图像、音视频等多种类型的数据可以互相转化和生成。比如CLIP模型,它能够将文字和图像进行关联,如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。这为后续以文字生成图片、以文字生成视频类的AIGC应用的爆发奠定了基础。AIGC的大爆发不仅有赖于AI技术的突破创新,还离不开产业生态快速发展的支撑。在技术创新方面,生成算法、预训练模型、多模态技术等AI技术汇聚发展,为AIGC的爆发提供了肥沃的技术土壤。相信AIGC将颠覆现有内容生产模式,这种颠覆将从文本生成辐射到其他的媒体形式。

Diffusion

到了2022年,Stable Diffusion扩散化模型的出现与正式开源,直接推动了AIGC技术的突破性发展。扩散(Diffusion)模型的概念最早在2015年的论文《利用非均衡热力学的深度非监督学习》(Deep Unsupervised Learning Using Nonequilibrium Thermodynamics)中被提出。2020年,论文《去噪扩散概率模型》(Denoising Diffusion Probabilistic Models)提出,将DDPM模型用于图像生成的观点。从技术的角度来看,扩散模型是一个潜在变量(Latent Variable)模型,通过马尔可夫链(Markov Chain)映射到潜在空间。

简单来说,Diffusion模型其实实现了两方面的突破,一是更成熟的深度学习模型能让AI可以快速、灵活地生成不同模态的数据内容。二是这一训练好的模型大大降低了AIGC创业的门槛,更多的生产者与创作者可以借助这一可商用的开源工具,立足不同的应用场景做更多的事。基于需求端对AIGC的追捧,AIGC恰好能缝合供给与需求之间的这条“效率鸿沟”。

扩散模型的原理是“先增噪后降噪”。首先给现有的图像逐步施加高斯噪声,直到图像被完全破坏,然后根据给定的高斯噪声,逆向逐步还原出原图。当模型训练完成后,输入一个随机的高斯噪声,一张图像便能无中生有了。这样的设计大大降低了模型训练难度,突破了GAN模型的局限,在逼真的基础上兼具多样性,也就能够更快、更稳定地生成图片。

随着AIGC模型的通用化水平和工业化能力的持续提升,AIGC的重要影响在于,将极大降低内容生产和交互的门槛与成本,有望带来一场自动化内容生产与交互变革,引起社会的成本结构的重大改变,进而在各行各业引发巨震。未来,“AIGC+”将持续大放异彩,深度赋能各行各业高质量发展。