摘要:ChatGPT带来了新的“工业革命”,我国也提出构建一批数字中国研究基地。然而,如何看待AIGC对科学研究所带来的新研究模式,目前还众说纷纭。本文在分析了ChatGPT和AIGC的发展历程和技术体系之后,提出AIGC将有助于丰富科研资源、助力团队协作效率与团队创新、主动打破学科界限。同时也认为AIGC成为未来科研的第一生产力还为时尚早,在严谨性能否被证实、技术成瘾和隐私道德都将面临挑战。
2022年11月30日Open AI发布了ChatGPT聊天机器人模型。与以往的聊天机器人不同,它“上知天文,下知地理”,还能够完成撰写邮件、文案编辑、生成代码等任务。ChatGPT的流行也改变我们的生活和工作方式,特别是在知识工作者中掀起了一场“工业革命”。我国也在2023年2月27日提出推进高等院校和研究机构与企业建立数字中国研究基地[1]。
ChatGPT的流行让人们敏锐地意识到人工智能生成内容(Artificial Intelligence Generated Content,AIGC)将引领教育和科研的最新模式。但是AIGC在科研中的应用同样存在挑战。以ChatGPT为例,在用户大量的体验中发现ChatGPT生成的文本并不完全可靠,也无法直接代替搜索引擎。同时ChatGPT在2021年结束了训练,因此模型不具备与时俱进的能力。目前ChatGPT仍是离线的,所有内容的输出只能依靠自己内部知识和逻辑生成,不具备联网自查的能力。虽然ChatGPT并不完美,但它与科学研究的发展相辅相成。
虽然已有研究开始关注AIGC在科研中的应用,但仍是支离破碎。本文首先梳理了ChatGPT的发展历史,并介绍AI内容生成的技术体系。其次,分析AIGC在科学研究中应用的潜在机会。最后提出了AIGC在科学研究中面临的问题和挑战。
1、 ChatGPT与AIGC技术
1.1 ChatGPT的发展阶段
不同于卷积神经网络(Convolution Neural Network, CNN)在计算机视觉(Computer Vision, CV)领域重视图像的局部特征,自然语言处理(Natural Language Processing, NLP)领域的任务更需要关注上下文的序列信息。循环神经网络(Recurrent Neural Network, RNN)利用上一时刻输出构建神经网络隐藏层之间的时间关联。一句话正是由前后联系的单词序列组成,RNN在机器翻译、语音识别和情感分析得到了广泛的应用。虽然RNN存在诸如不具备短期记忆能力的缺点,后续NLP领域基于RNN的展开了数十年的研究,例如长短期记忆网络(Long Short-Term Memory, LSTM)[2]等,但是每一个词的处理都需要等待上一个词的计算结果,如此循环需要投入大量的计算成本。
注意力机制(Attention)概念的首次提出是在CV领域,通过计算权重调节图像特征的重要程度[3],注意力即权重。而在NLP领域,自注意力机制(Self-Attention)打破了RNN的循环结构,通过直接计算不同单词间的相关度(权重)嵌入上下文信息,使语句的单词有了重点区分。Self-Attention的提出摆脱了RNN模型对上文信息的依赖,确保每一个单词都能利用全局信息的同时可以并行运算。注意力机制因其先进的解释性和高效的计算性能,引领了NLP领域发展的新方向。Transformer[4]基于Self-Attention通过编码器-解码器(Encoder-Decoder)模型在机器翻译任务上表现优异,其中编码器(Encoder)负责自然语言理解(Natural Language Understanding, NLU)任务和解码器(Decoder)负责自然语言生成(Natural Language Generation, NLG)任务。基于Transformer的Encoder结构,Google提出Bert模型[5],而基于Decoder结构OpenAI提出GPT模型[6],分别在NLU和NLG任务上表现出强悍的性能。
Bert与GPT在2018年的爆火,一方面得益于它们先进的算法结构设计,另一方面基于海量数据的预训练方法功不可没。无论是在CV领域还是NLP领域,有监督学习一直是解决特定任务主要方法。但是有标签数据集仍是有限的,一味地增加标签数据更像“愚公移山”,也离通用人工智能目标甚远。自然语言中存在着大量未标记的语料库,通过在海量数据上无监督训练得到具有强泛化能力的预训练模型,再利用该模型所生成单词和句子的通用特征作为特定任务的输入,从而节省大量计算资源,并得到泛化能力更好的模型的,这也是GPT-1模型基本原理。
在GPT-2模型[7]中,则是在预训练阶段增加了模型参数和扩大了语料库规模。特别是训练数据来自多源任务,因此GPT-2可以直接理解输入的任务本质并生成答案。GPT-3[8]沿用了单向transformer模型,表明了其在NLG任务上深入的决心,45TB的训练数据和1750亿的模型参数堪称暴力美学。GPT-3在高质量文本生成上取得成功的同时也带来使用安全的风险,容易产生种族歧视等偏激的回答。开源的InstructGPT[9]与商业化的ChatGPT都采用了从人类反馈中进行强化学习的策略(Reinforcement Learning from Human Feedback, RLHF)[10, 11],结合人类智慧指导模型训练,优化得到GPT最优模型。
NLP领域的发展经历了从RNN向Self-Attention的结构变革,基于大规模语料库的预训练模型决定了NLP的发展方向,GPT系列在生成式上的坚持,使得它在2023年打开了AI应用的新纪元。与此同时,在CV领域图像生成上的研究同样如火如荼[12-15]。NLP和CV领域最新的研究进展表明了人工智能生成内容(Artificial Intelligence Generated Content,AIGC)蕴含的巨大价值。
1.2 AIGC的概念、定义和技术体系
AIGC既是从内容生成者视角分类的内容,也是利用人工智能技术自动生成的新型生产方式的技术集合[16]。根据内容的形式 ,AIGC的技术体系可以分为AI生成自然语言内容、AI生成视觉内容和AI生成多模态内容。
(1)AI生成自然语言内容
自然语言是基础的内容形式,任何模态的数据都可以抽象为文本本质。自然语言是对客观世界的描述和主观世界的表达,因而应用范围也最为广泛。利用海量数据对共性知识挖掘的NLU是AI生成自然语言内容的关键一环。基于大规模无标注语料库的预训练模型在情感分析、语音识别、阅读理解和文本生成等任务上表现出色,例如:OpenAI的GPT和Google的Bert等。与此同时,数据的指数增长与庞大参数优化的模型对算力要求让普通研究机构望而却步。设计更高效的模型架构、训练框架和自监督学习模式成为未来的重要研究方向。
(2)AI生成视觉内容
较于自然语言内容,视觉内容在互联网时代对物理世界的记录更为客观,对人意识的感知更为真实。因此,人工智能模型如何认知和感知海量视觉数据决定了AI生成视觉内容的真实度与其内涵。视觉Transformer(Vision Transformer, VIT)[17]凭借优异的性能、高效的并行计算和易扩展性取代了CNN成为主流网络架构。其次生成式对抗网络(Generative Adversarial Net, GAN)[18 ]和变分自编码器(Variational AutoEncoder, VAE)[19]等生成式模型地提出助力了AI生成视觉内容的发展。AI生成图像内容主要分为图像生成图像(Image-to-Image)和文本生成图像(Text-to-Image),其中Image-to-Image指的是从已知样本生成近似样本或从低信息样本生成富信息样本的过程,VQGAN[13]实现了图像补全和图像超分辨率等任务。相比于Image-to-Image执行专业的图像处理工作,Text-to-Image的应用面更广。DALL-E模型则结合了多模态神经语言模型CLIP[20]和VQVAE[21]实现了文本Text-to-Image的任务。然而一张图片比一句话所含的信息量更大,大规模数据集的预训练模型对计算资源提出了更高要求。扩散模型[22]为文本生成图像提供了高性能模型架构,可以在较低计算资源情况下,快速生成高质量图像,是AI生成视觉内容的重要里程碑。
(3)AI生成多模态内容
语言和视觉是最常见的两种模态,在元宇宙中图像数据和文本数据相互交织,且呈现协调。但是长期以来依赖单一信息源的单模态数据进行建模研究,导致AI对人类认知学习过程评估的不完全。同时,如果AIGC技术只能生成单一模态内容,那么AIGC的应用场景将极为有限,不足以推动内容生成方式的革新。多模态大模型致力于处理不同模态、不同来源、不同任务的数据和信息,寻找不同模态数据之间的对应关系实现不同模态数据之间的相互转化,进而生成视听结合多模态内容。OpenAI的DALL-E2[17]通过训练图片和文本来学习物体的视觉和文字表示之间的联系,仅输入一些关键词描述即可自动生成逼真的图片。未来基于多模态大数据AIGC是迈向通用人工智能的关键,而AI生成连续多模态内容是加速元宇宙建设重要推手。
2、AIGC在科学研究中应用的设想
不同于传统的内容生成模型,AIGC可以克服资源在时间和空间上的限制,每个研究人员都可以直接体验、构建和生成科研要素,有效解决科研资源分配不均的问题。同时,AIGC为团队创新提供了良好的研究环境,将研究者从“科研民工”中解放,高效产出高质量科研成果。另外,AIGC对科研资源的补充和对团队协作的指导进一步有助于打破学科界限,跨学科合作研究成为主流发展方向。
2.1 补充科研资源
科研成果产出与科研资源高度相关。然而科研资源受限于平台、团队、项目经费等各种因素,难以获得理想的科研资源。AIGC的出现在一定程度上打破了科研资源分配不均衡的现状。AIGC可以创造出高度真实的样本数据和极具现实感的虚拟模型,这对生物学、医学、计算机科学、神经科学等众多学科的研究大有裨益。虽然OpenAI的ChatGPT并非完全开源,但是科研工作者可以以较低成本获得SOTA(state-of-the-art)模型最全面和富的数据。
经过海量数据训练的AIGC模型在强化学习和迁移学习上有巨大的潜力,其强大的总结能力可以帮助人类知识发现。科研工作者利用AIGC从海量数据中挖掘完备的数据样本,不再依赖于搜索和人为判断的过滤方式,从而避免了因为知识不在现有库或者主观判断所导致的知识欠缺和遗漏的问题。
同时可以对AIGC生成内容做出具体限定,生成规范化的数据样本。这种方式继承了二手数据快速便捷获取的优点,摒弃了其不规则、不准确的缺点。对于难以获取有限样本的问题,AIGC模型能够学习现有少量样例之间的共性或通过迁移学习方法,生成大量近似真实的样本。从过去的技术寻找数据,到现在的技术创造数据,AIGC将推动WEB3.0建设,补充科研资源和降低科研门槛。
2.2 助力团队协作效率和团队创新
众所周知,在Nature、Science和Cell等知名期刊上发表的科研成果是众多科研工作者团结协作数年的结晶。真正优秀的科研团队中,成员的研究目标一致,互相之间配合默契,才能在一个科研方向上长期坚持。我国高校的大部分科研团队的建设还局限在同一所大学的同一学科内部的同一课题组上。AIGC强大的包容性可以促进跨学科优势互补和整合资源。
其次,研究生的培养是导师制,导师全权负责其学生的科研工作,导师依靠经验将一整个大课题分解互相联系的小课题交给不同的人负责,这种直接领导的方式无法保证团队内部的充分沟通,一定程度上限制了团队创新,团队合作建设的成果较少。AIGC有望打破这种限制,AI以全新身份加入科研团队,科研工作者一方面可以将耗时的重复性劳动交于AI处理,空闲创新性思考和团队充分交流的时间,提高团队协作的效率。
另一方面AIGC将颠覆传统科研管理模型,指导科研管理工作,研究不仅是围绕学术带头人展开,每一个成员都是团队的核心,充分发挥研究的积极性和创新性。例如,DeepMind开发的AlphaFold[23]在蛋白质结构预测上的强大能力,激发了结构生物学家对行业的重新思考[24],选择与AI合作成为必然。
2.3 打破学科界限
由于起步较晚,中国在专业软件开发上始终落后于国外,例如Matlab、SolidWorks等,欧美依靠其“霸权地位”向中国收取高昂的知识产权费,严重阻碍中国技术的发展与科技进步。AGIC正从表面数据向底层技术生成迈进,AIGC同样可以快速建模与仿真。近年来,各行各业都对计算机基础提出较高要求,当下AIGC的出现帮助人类了解技术,进一步模糊了行业之间的界限区分。而产业与学术呈现相互促进的关系,学科界限也将被进一步打破,跨学科合作研究成为必然的发展趋势。
另一方面,在科研经费远不如理工科的人文社科领域,AIGC的普及有望打破这种资源分配不均的局面,AI赋能的科学研究不再受到具体的方法工具的限制。文科生即使没有开设过编程、建模等课程,也能借助AI轻松实现以辅助其研究,进而提升研究的深度和广度。当人文学科和社会科学的研究者具备了与理工科的研究者同等的实践能力,其批判性的思辨能力会更具优势。
3、AIGC在科学研究中面临的挑战
虽然AIGC在科研工作中有丰富的应用可能,但AI生成内容的底层架构和逻辑是神经网络的“黑盒模型”,人类无法理解深度神经网络中的每一个参数,解释不清模型输入到输出之间的非线性映射关系。相反,计算机却可以从数据训练中抽象总结出所学规律,并严格按照此规律执行。与科学研究中采用的一手数据、二手数据特性不同,AI生成内容既不是完全现有的,也不是完全客观的,AIGC在科学研究中的应用将会带来诸多问题。当ChatGPT不再延续GPT系列开源的传统,其商业化的选择一方面保证了知识产权和收入来源,更重要的是对技术滥用进行监管。科研工作者如果只着眼于技术上的可能性,而忽视其价值的正当性,那么AIGC给人类带来的将是弊大于利。
3.1 严谨性能否被证实
AIGC在科学研究中应用的首要问题是其严谨性能否被证实。科学研究强调严谨和规范,既是为了避免细微误差影响结果的准确性,也是为了确保科研过程逻辑性和实验的可重复性。ChatGPT对于同一问题的结果并不完全一致,而在这种模糊相似中寻找共性的做法,也加大了AIGC 严谨性论证的难度。就像实验室最优模型到实践应用仍有较大差距一样,AIGC从便利生活到科学应用很长的一段路要走。
另一方面,众多期刊明确禁止将ChatGPT列为论文的合著者,同时也将其生成的文本进行查重。因此,目前AIGC不能作为科研的第一生产力。正如图灵机、神经网络在提出之初无人相信,AI生成数据经过实验得出的是否可靠仍需要经过大规模的验证。
3.2 技术成瘾
过度沉浸在网络世界会产生对互联网的依赖,长期的电子设备使用会产生电子设备依赖,导致心理问题和过度疲劳等综合症。同样AI生成内容的便利也会蚕食科研工作者独立思考的能力。随着AIGC交互作用的不断发展,知识获取的便利性和零成本会导致学习者陷入技术依赖和AI上瘾的陷阱。换言之,学习者不再需要发挥学习过程中的主观能动性,不需要经历认识问题、思考问题、验证答案、问题再认识的螺旋上升过程,而是简单地将问题打包交由AI处理,直接获取AI的标准答案。同时在元宇宙时代,虚拟与现实高度融合,真实与虚假信息交织难辨,AIGC创造的知识未经验证就转移传播,使得技术上瘾的问题更为严峻,科研工作者一旦离开AI就不会思考,或者被AI牵着鼻子走。
AIGC全面的能力和对现实的补偿效应带有强烈的成瘾风险。AIGC给予大脑的刺激容易激发人类无尽的欲望,例如利用AIGC完成作业、通过考试的行为。如果不加以禁止,就会被无限复制。政府、高校、社会和科技巨头公司有责任规范AI技术的使用,保护网络空间使用安全。
3.3 隐私与道德问题
在传统的社交网络中,数据由用户创造并决定由谁来分享他们的社交媒体内容,因此,隐私数据的泄露往往是小范围,且可以快速溯源并解决。然而,在元宇宙和Web3.0信息交互日益频繁的今天,用户创造数据在去中心化的区块链上快速传播,其中的数字痕迹很有可能包含了用户隐私的敏感信息。无论多大规模数据集的信息丰富度总是有限的,AI想要生成真实逼真的内容需要与时俱进,其训练数据来源终会迈向互联网。而这些隐私信息无差别被人工智能捕获并学习,生成的内容可能侵犯了用户隐私和知识产权等。
另一方面,AIGC生成的虚假信息,会被不经鉴别地传播和出版,进而也带来了信息欺诈的风险。这些虚假或者包含欺诈或者侵犯行为的信息,经过AI美化和包装都难以人为鉴别。这也是之后发展可信人工智能亟待解决的问题。
技术的创新发展必然领先于对其道德伦理的思考,AIGC道德准则的发展相对滞后。对于科研工作者而言,AIGC技术的应用更需慎之又慎,同时政府需要加强对AI技术的监管,制定或更新相关的法律法规。
4、结论
2023年是AIGC元年,同年我国也提出推进高校、研究机构和企业共同参与数字中国的建设。全世界的技术工作者、科研工作者在争相体验AI生成内容的魅力,也都在思考如何看待AIGC在科学研究中的应用前景。
对于科研工作者而言,与传统依托于平台资源的科研工作不同,得到AI赋能的科研工作更具有竞争优势,科研资源获取成本的降低可以进一步解放思想。对于科研团队而言,重要的是如何将AI生成内容与现有的科研管理方式模式相结合,促进团队协作效率和确保团队创新活力。对于学科发展而言,AIGC打破了不同学科之间的界限,扩展了管理学科的范围,对研究工作提出了更高要求,我们需要以跨时代、跨学科的视角开展管理科学研究。
现在直接预测AIGC将成为未来科研的第一生产力为时尚早,这项技术还需经过时间的检验,科研工作者将AIGC补充科研需要尊重科研工作的严谨性,警惕技术陷阱,规避道德和法律风险,正确地使用AI这把双刃剑,从而加快推进数字中国建设。