2021年人工智能领域有哪些关键性进展和突破？

2023/10/04

又到年末，大家可以聊一聊2021年人工智能发展有何关键性进展和突破：可以是学术界的热点论文、新兴课题，也可以是工业界新技术的成功应用、明星产品等。可以从行业整体发展的趋势聊，也可以讲讲计算机视觉、自然语言处理、机器学习等子领域有什么重点进展。

相关问题

2020 年过去了，人工智能领域都有哪些突破?

转眼间，2021年即将收官啦~在这一年中，微软亚洲研究院在科研领域取得了丰硕的成果，也有不少技术转化到了微软的产品和服务中。

想趁着2021年的最后一天，与大家一同分享微软亚洲研究院人工智能领域的一些关键性进展和突破。

年度总结既是过去一年的回顾，也是对新一年的期许。

在即将到来的2022年，微软亚洲研究院也将继续聚焦计算机领域以及跨领域的前沿技术发展，为学术界、产业界以及整个社会带来更多创新成果！

祝大家2022年一切顺利，如虎添翼！

最近放假比较闲，也来班门弄斧聊聊 AI 在 2021 年的发展与未来趋势。

虽然不太关注感知类智能方向，但今年被 Transformer 刷屏的新闻也实在太多了。恰好最近看了 @李沐大佬的带你读论文系列，其中就介绍了从 BERT 到 ViT 到后面一系列的 MAE，MoCo 等，深切感受到了学术界对这个“大一统模型”的高涨热情。我们所需要做的就是把任何问题的输入，转化成一个离散 token 序列，然后套上 transformer，对着海量数据训练，就能刷新 SOTA。稍微搜了下发现还有更多的领域都有相关工作，比如：

语音音频方向的 AST，HuBERT，Jukebox
Text-to-Image 方向的 CogView，NüWA
视频方向的 VideoGPT
表格类问题的 TabTransformer，NPT
推荐系统方向的 Transformer4Rec
将各种信息结合起来的多模态方向
甚至还有强化学习方向的 Decision Transformer
连 AlphaFold 2 也用了 transformer 结构

当然 21 年也有一些工作说把 transformer 里的注意力模块替换成更简单的组件，例如 pooling，MLP 也能取得很好的效果，所以我们对于 transformer 为何能在这么多任务上达到很好效果的原理还并不明朗，达到真正的大统一还为时尚早。

展望一下未来，我甚至有一些大胆的猜想，是不是能把知识表达，逻辑推理，因果推理等能力也融合进来，通过设计一些任务能让 transformer 做常识问题的推理，那样的话我们离通用人工智能的距离或许又近了一步 :)

随着 transformer 的流行，大模型的“军备竞赛”被不断的推向高峰，大家发现在大数据集上不断增加模型的参数量，可以不断提升模型的精度，并没有呈现性能饱和的趋势。这里面的工作就不多列举了，可以参考斯坦福的这篇 Foundation Model。对于后续工业界如何使用这些巨大的模型来更快的实现各类 AI 任务，感觉会是下一步的热门方向。

另外，大模型光依靠模型参数来“记忆”一些“长尾知识”可能效率并不高，近期也有一些研究将大模型与 information retrieval 领域结合起来，一方面减少模型参数量的需求，另一方面也能更好的提升模型效果，并可以灵活通过迭代数据库的方式来“升级模型”。

自监督学习的概念由来已久，像经典的 word2vec 就可以看作是一种自监督学习的方式，也备受 Lecun 等大佬的青睐。NLP 领域的自监督学习从 BERT 出现之后被推向了一个高峰，而 CV 领域这两年也开始借鉴这方面的思想，一种思路是通过学习数据之间的相似和不相似关系来进行自监督学习，也就是时下非常火热的“对比学习”领域。具体可以参考朱老师的这个视频讲解，对这个领域的各篇经典文章如 SimCLR，MoCo，BYOL，DINO，SimSiam 等都做了介绍。另一种思路是经典的 auto-encoder/decoder 方式，比如 BEiT，MAE 等就是典型代表。进一步来说，这类思想应该也可以应用到更广的领域，比如推荐，图模型等，让模型不需要标签就能从大量的数据中自动学习到一些“概念”。

Transformer，大模型，自监督，预训练加下游任务的 fine tune 整体成为了 21 年最具代表性的深度学习“设计模式”，这或许也会影响到后续工业界应用落地 AI 模型的方式。

以往 AI 主要被应用在各种偏“自动化”的任务中，例如搜索推荐，人脸识别，销量预测，文本情感判断等。很多关于 AI 的科普书中都会提到，很多创意类工作是很难由 AI 来完成的。但是进入到 21 年，出现了越来越多的“创意”类 AI 应用。例如使用 GPT 来生成特定需求的文本，通过 Github Copilot 帮助我们写代码，通过 DiffWave 来生成语音，通过 VQGAN + CLIP 或 DALL·E 来生成艺术！

从技术层面来说，这里提到的 CLIP 的出现让语言，图像，音频等不同的信息媒介之间的“打通”提供了很大的想象空间。另外 DiffWave 所用的 Diffusion Model 也是今年在生成模型领域风头力压 GAN 的热门方向。从应用角度来说，或许未来有更多内容生成的场景也会逐渐被 AI 侵占，比如一个看了全 Internet 文章视频的大模型默默就在知乎上写了个图文并茂的“2025 年人类智能有哪些关键性进展和突破？”的回答 :)

这两年业界在吴恩达大佬的强力宣导下，以数据为中心来开发 AI 也越来越成为一种主流认识，我之前也专门写了篇文章来记录最近的 Data Centric AI Workshop 的内容。而且从前面的深度学习新趋势来看，的确在数据和训练框架，算力优化方面这两年的进展更加多一些，模型方面则变化不多甚至出现不少“复古”风潮。随着 AI 在越来越多场景得到应用，会遇到越来越多现实中的数据问题，解决这些问题带来的期望提升要远超过直接从学术界搬一个 fancy 模型过来。从长远来看，我们人类智能在做任何决策时，不也是需要依赖高质量的“历史数据”作为参考和推演依据么？

当然 Data Centric AI 的本质思想还是希望我们能像排查软件问题那样排查模型问题，并进行有明确反馈的改进动作，所以个人觉得针对模型的 debug 工具也会非常有用，两者并不是完全对立的两面。

随着 AI 在业界的落地范围扩大，如何让“普通公司”也能把 AI 用起来，把模型维护起来也成了一个新兴的大市场。毕竟不是每家公司都有像 Google，Facebook 那样的技术基础架构和算法专家储备。在这个方向上涌现出了非常多的创业公司，各大云服务商也在各自的 AI 平台上不断增强算法运维方面的能力。我之前也调研总结了篇 MLOps 的科普文章。目前来看大家主要把 MLOps 相关的框架集中在三个方向上，分别是 Feature Store, Model Store 和 Evaluation Store，这里也不做太多详细的展开了。

结合前面所说的深度学习范式，或许未来两年还会出现快速做 AI 模型 fine tune 并集成上线的 composite AI 类工具产品，让我们拭目以待 :)

这个趋势也与 AI 在越来越多场景受到应用相关，尤其在企业决策，医疗，金融风控，政府等方向上，如何做可解释的人工智能，没有偏见和安全可靠的算法模型也越来越成为一个重要话题。Google 给出了他们对于实现 Responsible AI 的行动建议。我在去年也做了一个可解释机器学习方面的分享。

从未来看，可解释机器学习肯定不单单是面向开发人员的模型内部机理的解释，毕竟人脑如何工作也还是个黑盒，我们更需要的是类似于能够与模型“交流”的解释方式。而负责且安全可靠的模型方面，一方面需要在数据工程，隐私计算等技术方向上继续探索与开拓，另一方面也与 AI 的教育普及，相关政策法规的商讨制订息息相关。

前面说到 AI 落地范围的扩大，不得不提一下在感知类智能之外的认知智能应用。事实上在很多非互联网公司的场景中，如何通过数据和 AI 来帮助企业提高决策质量是一个潜力非常巨大的市场。相信很多同学在日常生活中也开始潜移默化的使用一些这方面的模型来辅助你做决策，例如买基金会看一些数据或者模型推荐的结果，出门时用高德地图之类的预估一下交通路线和耗时，日常生活中通过各种可穿戴设备的提醒来保持良好的健康习惯，买东西时参考一下 App 给出的推荐等。在企业决策中，这类应用场景也为数众多，且每一个都能为公司的运营带来可见的效益提升。

我们观远就持续在 Business Intelligence 和 Decision Intelligence 方向深耕，利用各种 AI 技术，深入业务场景来辅助决策者作出更高质量的判断和行动。这方面有很多有意思的技术和商业问题的挑战，非常欢迎有兴趣的同学加入我们，打造业界最好的 AI + BI 决策智能平台 :)

12 月 23 日，机器学习大牛吴恩达（Andrew Ng）在其主编的人工智能周讯《The Batch》上发表了最新文章。文章中，吴恩达回顾了 2021 年全球人工智能在多模态、大模型、智能语音生成、Transformer 架构、各国 AI 法律举措等方面的主要进展。

2021 年即将过去。

日前，吴恩达发表了以“赠人玫瑰、手有余香”为主题的圣诞寄语。

随着 2021 年底的临近，你可能正在减少工作为寒假做准备。我很期待能暂时放下工作休息一下，希望你也一样。

十二月有时被称为给予的季节。如果你有空闲时间，想知道如何利用它，我认为我们每个人能做的最好的事情之一，就是思考如何能够帮助别人。

历史学家、哲学家威尔·杜兰特曾说过:“重复的行为造就了我们。”如果你不断地寻求提升他人，这不仅会帮助他们，或许同样重要的是，它也会让你成为一个更好的人。正是你的重复行为定义了你的为人。还有一个经典的研究表明，把钱花在别人身上可能比花在自己身上更让你快乐。

所以，在这个假期，我希望你能休息一段时间。休息、放松、充电！与那些你爱的、但在过去的一年里没有足够的时间联系的人联系。如果时间允许，做一些有意义的事情来帮助别人。可以是在博客文章中留下鼓励的评论、与朋友分享建议或鼓励、在线上论坛上回答一个人工智能问题、或为一个有价值的事业捐款。在与教育和（或）科技相关的慈善机构中，我最喜欢的有维基媒体基金会、可汗学院、电子前沿基金会和 Mozilla 基金会。

吴恩达还谈到了 AI 社区的发展。他表示：AI 社区在规模很小的时候就有很强的合作精神。这感觉就像一群无畏的先锋们在向全世界进军。人们渴望帮助别人，提供建议，彼此鼓励，相互介绍。那些从中获益的人往往无以为报，所以我们通过帮助后继者作为回报。随着人工智能社区的发展，我希望保持这种精神。我承诺将继续努力建设人工智能社区。希望你也可以!

我也希望你们能考虑各种方式，无论大小，向人工智能社区以外的人伸出援手。世界上还有很多地方没有先进的技术。我们的决定影响着数十亿美元和数十亿人的生命。这给了我们一个在世界上行善的特殊机会。

吴恩达回顾了 2021 年全球人工智能的进展并展望了 2022 年以及之后 AI 技术的发展前景。

回顾 2021 年

过去一年以来，整个世界都在跟极端天气、经济通胀、供应链中断以及 COVID-19 病毒作斗争。

在科技领域，远程办公与线上会议贯穿了这整整一年。AI 社区则继续努力弥合整个世界，推进机器学习发展，同时加强其造福各行各业的能力。

这一次，我们希望重点展望 2022 年及之后 AI 技术的发展前景。

多模态 AI 的起飞

虽然 GPT-3 和 EfficientNet 等单独针对文本及图像等任务的深度学习模型备受瞩目，但这一年中最令人印象深刻的还是，AI 模型在发现许可证与图像间关系中取得了进步。

背景信息

OpenAI 通过 CLIP（实现图像与文本匹配）与 Dall·E（根据输入文本生成对应图像）开启了多模式学习的开端；DeepMind 的 Perceiver IO 则着手对文本、图像、视频及点云进行分类；斯坦福大学的 ConVIRT 尝试为医学 X 射线影像添加文本标签。

重要标杆

虽然这些新的多模式系统大多处于实验阶段，但也已经在实际应用中取得突破。

开源社区将 CLIP 与生成对抗网络（GAN）相结合，开发出引人注目的数字艺术作品。艺术家 Martin O’Leary 使用 Samuel Coleridge 的史诗作品《忽必烈大汗》为输入，生成了充满迷幻色彩的“Sinuous Rills”。

Facebook 表示其多模式仇恨言论检测器能够标记并删除掉社交网络上 97% 的辱骂及有害内容。该系统能够根据文本、图像及视频等 10 种数据类型将模因与其他图像 - 文本对准确划分为“良性”或“有害”。

谷歌表示已经在搜索引擎中添加了多模式（及多语言）功能。其多任务统一模型能够返回文本、音频、图像及视频链接，用以响应由 75 种语言提交的各类查询。

新闻背后

今年的多模态发展态势源自几十年来坚实的研究基础。

早在 1989 年，约翰霍普金斯大学和加州大学圣迭戈分校的研究人员就开发出一种基于元音的分类系统，用以识别人类语音中的音频与视觉数据。

接下来的二十年间，更多研究小组先后尝试过数字视频库索引及基于证据 / 视觉数据的人类情绪分类等多模式应用方案。

发展现状

图像与文本如此复杂，因此研究人员在很长一段时间内只能专注于其中一种。在此期间，他们开发出多种不同技术成果。

但过去十年中，计算机视觉与自然语言处理已经在神经网络中得到有效融合，也让二者的最终合璧成为可能 —— 甚至音频集成也获得了参与的空间。

万亿级参数

过去一年，模型经历了从大到更大的发展历程。

背景信息：

谷歌用 Switch Transformer 拉开了 2021 年的序幕，这是人类历史上首个拥有万亿级参数的模型，总量达 1.6 万亿。

北京人工智能研究院则回敬以包含 1.75 万亿参数的悟道 2.0。

重要标杆

单纯拉高模型参数并没什么特别。但随着处理能力和数据源的增长，深度学习开始真正确立起“越大越好”的发展原则。

财力雄厚的 AI 厂商正以狂热的速度堆积参数，既要提高性能、又要展示“肌肉”。特别是在语言模型方面，互联网厂商为无监督和半监督预训练提供了大量未经标记的数据。

2018 年以来，这场参数层面的军备竞赛已经从 BERT（1.1 亿）、GPT-2（15 亿）、MegatronLM（83 亿）、Turing-NLG（170 亿）、GPT-3（1750 亿）一路走来，如今终于迈过了万亿级大关。

挺好，但是……

模型的膨胀路线也带来了新的挑战。愈发庞大的模型令开发者们面临四大严酷障碍。

数据：大型模型需要吸纳大量数据，但网络和数字图书馆等传统数据源往往提供不了这么多高质量素材。例如，研究人员常用的 BookCorpus 是一套包含 11000 本电子书的数据集，之前已被用于训练 30 多种大型语言模型；但其中包含某些宗教偏见，因为内容主要讨论基督教和伊斯兰教义，对其他宗教几无涉及。

AI 社区意识到数据质量将直接决定模型质量，但却一直未能就大规模、高质量数据集的有效编译方法达成共识。

速度：如今的硬件仍难以处理大体量模型，当数据反复出入内存时，模型的训练和推理速度都会受到严重影响。

为了降低延迟，Switch Transformer 背后的谷歌团队开发出一种方法，能够让各个 token 只处理模型各层中的一个子集。他们的最佳模型预测速度甚至比参数量只有其三十分之一的传统模型还快 66%。

另外，微软开发的 DeepSpeed 库则选择了并行处理数据、各层及层组的路线，并通过在 CPU 和 GPU 间划分任务以减少处理冗余。

能耗：训练如此庞大的网络会消耗大量电能。2019 年的一项研究发现，在 8 个英伟达 P100 GPU 上训练一个包含 2 亿参数的 transformer 模型所造成的碳排放（以化石燃料发电计算），相当于一辆普通汽车五年的行驶总排放量。

当然，Cerebras 的 WSE-2 及谷歌最新 TPU 等新一代 AI 加速型芯片有望降低排放，而风能、太阳能及其他清洁能源的供应也在同步增加。相信 AI 研究对环境的破坏将愈发轻微。

模型交付：这些庞大的模型很难在消费级或边缘设备上运行，所以真正的规模部署只能通过互联网访问或精简版本实现——不过二者目前各有问题。

发展现状

自然语言建模排行榜中的主力仍然是千亿级模型，毕竟万亿级参数的处理难度实在太高。

但可以肯定，未来几年会有更多万亿级俱乐部成员加入进来，而且这种趋势仍将持续。有传闻称，OpenAI 规划中的 GPT-3 继任者将包含更加恐怖的百万亿级参数。

AI 生成音频内容渐成“主流化”

音乐家和电影制作人们，已经习惯于使用 AI 支持型音频制作工具。

背景信息

专业媒体制作人们会使用神经网络生成新的声音并修改旧有声音。配音演员们自然对此大为不满。

重要标杆

生成模型能够从现有录音中学习特征，进而创造出令人信服的复制品。也有些制作人直接使用这项技术原创声音或模仿现有声音。

美国初创公司 Modulate 使用生成对抗网络为用户实时合成新的语音，使得游戏玩家和语聊用户能够建立起自己的虚拟角色；也有跨性别者用它调整自己的声音，借此获得与性别身份相一致的音色。

Sonantic 是一家专门从事声音合成的初创公司。演员 Val Kilmer 于 2015 年因咽喉手术而丧失了大部分发声能力，该公司则利用原有素材为他专门创造了一种音色。

电影制作人 Morgan Neville 聘用一家软件公司，在自己的纪录片《流浪者: 一部关于安东尼·波登的电影》中重现了已故旅游节目主持人波登的声音。但此举引起了波登遗孀的愤怒，她表示自己并未许可这种行为。

挺好，但是……

争议不止这一例。

配音演员们也担心这项技术会威胁到自己的生计。2015 年年度游戏《巫师 3：狂猎》的粉丝们甚至在同人 Mod 版本中用这项技术重现了原配音演员们的声音。

新闻背后

最近出现的音频生成主流化倾向，完全是早期研究成果的自然延续。

OpenAI 的 Jukebox 就使用 120 万首歌曲进行训练，可利用自动编码器、转换器及解码器管道进行全实时录音生成，风格涵盖从猫王到艾米纳姆等多位歌手。

2019 年，某匿名 AI 开发者设计出一种技术，允许用户在短短 15 秒内利用文本行重现动画及视频游戏角色的声音。

发展现状

生成音频及生成视频不仅让媒体制作人多了一种修复并增强归档素材的能力，同时也让他们能够从零开始创造新的、真假难辨的素材。

但由此引发的道德与法律问题也在增加。如果配音演员被 AI 彻底取代，他们的损失该由谁承担？将已故者的声音在商业化作品中重现涉及哪些所有权纠纷？能不能利用 AI 为已故歌手推出新专辑？这么做对吗？

一种架构，驾驭一切

Transformer 架构正在快速拓展自己的影响范围。

背景信息

Transformers 架构最初专为自然语言处理所开发，但目前已经成为深度学习领域的“万金油”。2021 年，人们已经在用它发现药物、识别语音和图像等。

重要标杆

Transformers 已经用实际行动证明自己在视觉任务、地震预测、蛋白质分类与合成等领域的优异表现。

过去一年以来，研究人员开始将其推向更广阔的新领域。

TransGAN 是一套生成对抗网络，结合 transformers 以确保所生成的各个像素都与之前已生成的像素一致。这项成果能够有效衡量所生成图像与原始训练数据之间的相似度。

Facebook 的 TImeSformer 使用该架构识别视频片段中的动作元素。它的任务不再是从文本中识别单词序列，而是尝试解释视频帧中的序列关系。其性能优于卷积神经网络，能够在更短时间内分析更长的视频片段，因此能耗也控制在更低水平。

Facebook、谷歌及加州大学伯克利分校的研究人员在文本上训练出 GPT-2，之后冻结了其 self-attention 与 feed-forward 层。在此基础上，他们可以针对不同用例进行模型微调，包括数学、逻辑问题及计算机视觉等。

DeepMind 发布了 AlphaFold 2 的开源版本，其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构。该模型在医学界内掀起轩然大波，人们普遍认为其具备推动药物发现和揭示生物学原理的巨大潜力。

新闻背后

Transformer 于 2017 年首次亮相，之后迅速改变了语言处理模型的设计思路。其 self-attention 机制能够跟踪序列中各元素与其他元素间的关系，不仅可用于分析单词序列，还适合分析像素、视频帧、氨基酸、地震波等序列。

基于 transformer 的大型语言模型已经建立起新的客观标准，包括在大型未标记语料库上进行模型预训练，利用有限数量的标记示例针对特定任务进行微调等。

Transformer 架构良好的普适性，可能预示着未来我们将创造出能解决多领域多问题的 AI 模型。

发展现状

在深度学习的发展过程中，有几个概念曾经迅速普及：ReLU 激活函数、Adam 优化器、attention 注意力机制，再加上现在的 transformer。

过去一年的发展证明，这种架构确实具有旺盛的生命力。

各国政府出台人工智能相关法律

各国政府纷纷制定新的法律和提案，希望控制 AI 自动化对现代社会的影响。

背景信息

随着 AI 对隐私、公平性、安全性及国际竞争关系带来的潜在影响，各国政府也开始加大对 AI 的监管力度。

重要标杆

AI 相关法律往往反映出各国在政治秩序中的价值判断，包括如何在社会公平与个人自由之间求取平衡。

欧盟起草了基于风险类别的机器学习应用禁止或限制条例。实时人脸识别与社会信用系统被明令禁止；对于重要基础设施的控制、执法协助及生物识别技术等应用方向则需要提交详细的说明文件，证明 AI 方案安全可靠并持续接受人工监督。

这项规则草案于今年 4 月发布，目前仍在立法流程之内，预计未来 12 个月内仍无法落地。

从明年开始，中国互联网监管机构将强制对可能破坏社会公序良俗的 AI 系统与推荐算法执行监督。打击的目标包括传播虚假信息、引导成瘾行为及危害国家安全的各类系统。企业在部署任何可能左右公众情绪的算法之前必须获得批准，违规算法一律不得上线。

美国政府提出一项 AI 权利法案，用以保护公民免受可能侵犯隐私及公民权利的系统的影响。政府将在明年 1 月 15 日前持续为提案收集公众意见。在联邦以下，多个州及市一级政府开始限制人脸识别系统。纽约市通过一项法律，要求对招聘算法进行偏见审计。

联合国民权高级专员呼吁各成员国暂停 AI 的某些用途，包括可能侵犯人权、限制民众获取基本服务、以及滥用私人数据的情形。

新闻背后

AI 社区正在逐步走向监管层面的共识。

最近对 534 位机器学习研究人员进行的一项调查发现，68% 的受访者认为模型部署确实应该重视可信度与可靠性。受访者们对于欧盟及联合国等国际机构的信任度，也普遍高于对各国政府的信任度。

发展现状

在中国以外，大部分 AI 相关法规仍处于审查阶段。但从目前的提案来看，AI 从业者必须为政府全面介入的必然前景做好准备。

文章来源：晒科网

晒科网?www.shareteches.com/newweb/web/view.

今年的CES在美国拉斯维加斯以现场活动和数字型的混合活动方式举行。将于2022年1月7日结束。在CES活动中，展示了2021年的发展和说明了今后的展望。

CTA的CEO，Gary Shapiro说，在2022年的CES上，我们能够体验到突破性的创新，这些创新将来未来的几十年里，解决人类将要面临的挑战，并且可以重建我们的社会。我们相信，人工智能，数字健康，交通，无人机，智慧城市，数字资产和空间技术方面的创新将扩大人类的潜力。

其中2021年已经突破的科技成果是：

【Advanced Symbolics Inc.】预测消费者的今后购买意向的企业的人工智能营销工具“Ask Polly”。

【Bodyfriend】用医疗氧气技术来减轻人体疲劳的按摩椅“Pharaoh O2”。

【Bosch】获得CES2022 Innovations Awards奖，自行车智能列表的解决方案Smart connected biking solution

【佳能】通过VR，能够实时、以各种视点参与在线交流的VR平台“Kokomo”。

【Doosan Bobcat】第一次不需要油压机器和零件的EV式小型卡车装载机“Bobcat T7X”。

【海信】2022年型的ULED电视，实现了四维色彩还原+数字光感。

【现代汽车】为物体提供移动性的机器人技术基础“Plag-and Drive”模块。

【因特尔】面向笔记本电脑的移动处理器“12th Gen Intel”重新定义多核心架构? Core?」发表。

【John Deere】配备12个立体声摄像机和NVIDIA的GPU的全自动农业用拖拉机“8R410 tracter”将通过智能手机进行操作。

【LG电子】世界上首次发布42英寸和97英寸有机EL电视。

【Ottonomy】实现非接触型输送的自动配送机器人。

【高通】面向汽车的数字平台“Snapdragon Digital Chasis”。

【索尼】搭载有机EL面板“QD-OLED”的4K电视“BRAVIA XR A95K”。机器人方面有新型EV的SUV模型。

不少媒体之前已经发了AI年度盘点内容，由于技术进展比较多，我们主要挑选出了十大开创性成果。

回顾2021年，无论是人工智能技术还是产业有很多值得称道的研究和落地成果。AI基础理论研究逐步深入，超大规模模型买入万亿参数级别，多模态、无监督学习、强化学习等领域屡有重磅论文发布。此外，在机器学习、自然语言处理、计算机视觉、AI for Science、芯片等领域也有不错的研究引发热烈讨论。

所以我们以下所挑选的基本都是当月也许是最受关注的AI成果，有不少都上了Science或者Nature。不过，从这么多研究中找出十个成果也是件见仁见智的事，你或许也有不同的判断。

1月6日，OpenAI发布了推出了两个结合计算机视觉和NLP结合的多模态模型DALL-E和CLIP，它们可以通过文本，直接生成对应图像，对日常生活中的图像和语言有更好的理解。

其中，DALL-E使用了GPT-3的120亿参数版本，相比现实世界的图像，生成的图像还原度非常高，同时测试表明，DALL-E也有能力对生成的图像中的物体进行操作和重新排列，也能创造出一些根本不存在的东西。

当然，尽管DALL·E的表现令人惊喜，但也有瑕疵，比如其能够根据描述以各种不同的样式渲染同一场景，并且可以根据一天中的季节或季节来适应光照、阴影和环境，但描述的文本越长，成功率越低，而重复强调关键文本会使成功率提高。

CLIP(Contrastive Language–Image Pre-training)是一个从互联网上收集的4亿对图像和文本来进行训练的多模态模型。与CLIP不同的是，DALL·E被训练于从一段描述中生成图像，以表示自然语言所表达的概念。

CLIP可以从自然语言监督中有效学习视觉概念，可应用于任何视觉分类基准，只需提供要识别的视觉类别的名称，类似于GPT-2和GPT-3的”zero-shot learning”能力。

它使用了丰富的互联网上的与图像配对的文本，这些数据被用来为CLIP创建一个训练任务，然后使用结果将CLIP转换为zero-shot分类器。最后，它将一个数据集的所有类别转换成文字，并预测文本的类别与给定图像的最佳对应关系。

CLIP：https://openai.com/blog/clip/

DALL·E：https://openai.com/blog/dall-e/

2月17日，距GPT-3问世不到一年的时间，谷歌大脑团队就推出了业界首个1.6万亿个参数的超级语言模型Switch Transformer，在计算资源相同情况下，它比之前由谷歌开发最大的语言模型T5-XXL足足快了4倍，比基本的T5模型快了7倍。研究人员指出，大规模训练是通向强大模型的有效途径。

论文：https://arxiv.org/pdf/2101.03961.pdf

值得一提的是，Transformer 作为一种具有优势的神经网络算法架构，在GPT-3问世后，掀起了采用Transformer架构进行自然语言处理研究的热潮。但如今，在计算机视觉、强化学习、图神经网络等领域逐渐渗透，展现出人工智能多学科领域通用架构的可能性。尤其在计算机视觉领域，Transformer已成为重要网络架构。

今年，大量基于Transformer架构的网络涌现，比如微软亚研的Swin Transformer获ICCV 2021最佳论文，并开源了代码和预训练模型，涵盖图像分类、目标检测以及语义分割任务。此外，华为诺亚实验室研究者提出了基于Transformer的TNT视觉架构。

论文：https://arxiv.org/pdf/2103.14030.pdf

项目：https://github.com/microsoft/Swin-Transformer

2018年以来，预训练模型的体量不断增大，如T5、GPT-3、悟道等，大模型成为NLP领域一项非常重要的技术突破。但是，预训练模型精调过程中所需的硬件和数据需求也在不断增长，丰富的下游任务也使微调阶段的设计更为复杂。

为了解决这些问题，新型的“预训练-精调”正在快速发展，其中Prompt Tuning等方法已经崭露头角，成为当前的研究热点。 4月，Google研究团队发布了相关论文https://arxiv.org/pdf/2104.08691

5 月，斯坦福大学的研究者提出了一种新型的脑机接口系统，采用循环神经网络，能够将来自运动皮层的手写字脑电信号解析为文字。

这项研究结果显示意念写字速度破纪录，写字速度能达到每分钟90个字符，原始准确率为94.1%。在有自动纠错软件的支持下，内容正确率进一步提高到99%以上，远超其他脑机接口的意念写字速度。这项研究可以说首次破译了“与手写笔迹相关”的大脑活动，可以让瘫痪患者不用手也能快速打字。

论文：https://www.nature.com/articles/s41586-021-03506-2

2020年4月，谷歌大脑研究者Jeff Dean等提出了一种基于 AI 的芯片设计方法。该方法可以在6小时内完成设计工作，而人类需要数周时间。https://arxiv.org/pdf/2004.10746.pdf

今年6月，谷歌联合斯坦福大学的研究者对这一方法进行了改进，并应用于下一代AI加速芯片的设计中。该方法可自动生成的芯片布局设计，并在功耗、性能和芯片面积等关键指标上媲美人类工程师。目前该研究已发表于《自然》杂志上。

论文：https://www.nature.com/articles/s41586-021-03544-w

6月30日，OpenAI联合微软、GitHub推出了基于大规模预训练语言模型研发的Copilot代码生成插件，能够集成在微软的编辑器VS Code 中。Copilot经过数十亿行公开代码训练，它能从注释和代码中提取上下文，并能立即为人类程序员写的代码和整个函数提供自动代码生成的建议。

Copilot 主要可以辅助三种开发任务，包括代码生成、代码补全、测试用例生成等。由于基于“大参数+大算力”进行训练，Copilot具有非常惊人的性能，一些评论甚至认为Copilot带来了一种新的代码开发模式。链接：https://?copilot.github.com ?

7月23日，在开源AlphaFold2仅一周后，DeepMind再次在《自然》杂志发文，AlphaFold数据集的发布引爆科研圈：数据集中预测的所有氨基酸残基中，有58%达到可信水平，其中更有35.7%达到高置信度。而在这之前科学家们数十年的努力，只覆盖了人类蛋白质序列中17%的氨基酸残基。

此外，AlphaFold已经预测出了350000种蛋白质结构，涵盖了98.5%的人类蛋白质组以及20种生物的蛋白质，例如大肠杆菌、酵母菌和果蝇等，可通过公布的数据库查看各个蛋白质的3D结构。

论文：https://www.nature.com/articles/s41586-021-03828-1

7 月，DeepMind 研究者提出一种名为XLand的通用智能体强化学习训练环境。DeepMind 认为，泛化能力不足是限制当前强化学习算法应用的一大障碍。但泛化能力并不是一蹴而就形成的，人类是从简单的任务开始，逐渐掌握复杂的任务。

受此启发，DeepMind提出一个由任务空间组成的、超大规模的“元宇宙”XLand，它能让智能体在不断扩展、升级的开放世界中通过上亿次的训练练就了不俗的泛化能力，其中包含了数十亿个任务，涵盖雅达利、夺旗、Dota2、捉迷藏等不同的游戏、世界和玩家对象。AI智能体首先学习简单任务，不断完善，然后逐渐在更为复杂的任务上训练。

经过5代训练，AI智能体在XLand的4000个独立世界中玩大约70万个独立游戏，涉及340万个独立任务的结果，最后一代的每个智能体都经历了2000亿次训练步骤。目前，AI智能体已经能够顺利参与几乎每个评估任务。

链接：https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play

2021年11月，何恺明担任一作的Facebook AI实验室提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)，代表了无监督，弱监督在视觉领域的进展。他所提的MAE极为简单：对输入图像的随机块进行mask并对遗失像素进行重建。

它基于以下两个核心设计：一是设计了一种非对称编解码架构，其中解码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；其次，他们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。

MAE方案使得所得高精度模型具有很好的泛化性能：仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度。下游任务的迁移取得了优于监督训练的性能，证实了所提方案的可扩展能力。

论文链接：https://arxiv.org/pdf/2111.0637

12月，DeepMind 研究者提出采用机器学习辅助发现数学猜想和定理的方法。通过AI技术能够发现数学目标中潜在的模式和关系，理解这些目标之间的属性机理，并帮助数学界寻找直觉和模式。

研究者通过人工智能技术成功帮助数学家进一步解决数学问题。例如：(1)扭结的代数和几何结构的新关联；(2)由对称群的组合不变性猜想预测出的候选函数。研究者认为，这一研究有助于形成一种数学和人工智能领域之间的协作模式，通过利用两个领域之间的优势，得到更加具有突破性的发现。

论文：https://www.nature.com/articles/s41586-021-04086-x

从上述成果来看，可以看到，那些开创性研究依然是由DeepMind、Google Brain、OpenAI、FAIR等我们耳熟能详的国外知名机构所领衔，国内在大模型、芯片等领域也有不错的研究成果，但在引领性的基础研究方面尚需努力。

更多2021年的AI研究成果，强烈推荐阅读《2021-2022 年度智源人工智能前沿报告》，里面有非常翔实的内容介绍。

上一篇： 31、第 31 章

下一篇：有哪些免费的ai写作生成器？推荐这五个AI写作软件

2021年人工智能领域有哪些关键性进展和突破？

友情链接：