编者按：

很多人都预测 2023 年将是 AI 之年。但 AI 显然不是今年才开始爆发的。2022 年图像生成工具以及聊天工具 ChatGPT 等消费者化是人工智能开始普及应用的标志，2023 年这股趋势只会愈演愈烈。也许我们将迎来继农业革命、工业革命以来的第三种通用技术的普及。

全文约3393字，建议阅读时间9分钟。

2022年取得突破的生成式人工智能是自十多年前移动和云计算兴起以来最引人注目的技术。平台层正在钙化，我们正目睹着令人兴奋的应用层的萌芽——这些产品有可能成为数十亿人日常生活的一部分。

搭好舞台

在过去十年里，有两股重要力量推动了技术的发展：分别是移动和云计算。移动促进了大型消费互联网公司的崛起，这些公司基本上都成立于2009年至2013年间。数字广告在2010年代迅速转向移动设备，桌面时代的公司不得不争先恐后地重塑业务。

云计算则支撑了软件即服务(SaaS)的爆发式增长，并让数据变成企业最宝贵的资源。这一领域的新兴公司基本上也都成立于2009年至2013年之间。2015年到2022年间，存储在云端的企业数据占比翻了一番。移动和云计算让2010年代成为技术领域非常非常好的十年。

2020年代最引人注目且最有可能推动技术发展的力量是什么？也许是人工智能。人工智能在过去几年中得到了显著改善。我们看到了从Stable Diffusion到Midjourney、ChatGPT到Lensa的一切事物的涌现。人工智能正在成为主流。

我们正处在人工智能的转折点，这个转折点正在支撑起创新的寒武纪大爆发2009年至2013年诞生了数十家由移动和云计算技术提供支持的变革型初创公司。未来几年这样的公司将再度涌现，人工智能将成为催化剂。

AI是泡沫，还是下一个大事件？答案可能是两者兼而有之。现在有很多令人兴奋的事情，其中很多是有理由的，但其中很多可能是非理性的、不成熟的，或者两者兼而有之。但是当你将画面拉远时就能发现，毫无疑问我们正处于一个激动人心的技术新时代的风口浪尖。

图像模型

2022 年文本生成图像AI爆发了。首先出现的是来自OpenAI的DALL-E。当然，不是谁都可以直接用DALL-E，但这方面的创作已经开始在互联网上火起来了。

对于这个世界大部分的地区来说，DALL-E是AI的第一个真正的“哇哦”时刻OpenAI的Sam Altman把这一点归功于图像所传递的情感力量：其实相对于 DALL-E，技术界对 2020 年推出的GPT-3要更加认可。从GPT-3这里，第一次真正感受到了系统的智能。它可以做人做的事情。它的出现让以前根本不相信AGI（通用人工智能）的人也要认真对待这一话题了。发生在GPT-3身上的有些事情是我们大家都没预料到的。

但是图像却有着独特的情感力量。相对于GPT-3，世界其他地方对DALL-E的欣赏要高很多。

人往往更喜欢更丰富的媒体格式：照片一直都比文字更受欢迎；与此同时，视频在使用上一直在蚕食图片应用的市场，迫使后者也得向视频转型。在我看来，类似的偏好也会发生在生成式人工智能身上：图像 > 文本，很快，视频也会 > 图像，以及最终沉浸式 3D 体验将 > 视频。

在 DALL-E 起势之后，去年夏天Stable Diffusion和Midjourney的出现彻底改变了局面。Stable Diffusion具有开创性，因为它是开源的，这意味着开发者基于它做开发。Stable Diffusion将扩散从像素空间转移到了潜在空间，从而推动质量的显著提高。与此同时，Midjourney 在可访问性方面具有开创性。任何人都可以注册一个免费账号，并获得25个积分，图像则是用公共服务器生成的。用完 25 个积分之后，每月支付10美元或30美元就可以继续使用。Midjourney已迅速成为 Discord上最受欢迎的服务器之一，拥有740万会员。

2022年是图像模型的转折点，生成的图像质量得到了迅速提高。举个例子：众所周知，AI 很不擅长创作手。除非 AI 具有出色的上下文感知能力，否则很难知道已经弄出了多少根手指。其结果是我们最终会得到很多有四根或六根手指的手。下图是Midjourney v3（2022 年 7 月）与Midjourney v4（2022 年 11 月）生成结果的对比，你能看出结果有了明显改进：不再会出现有两只喙或三条腿的企鹅。

数字创作的轨迹正在沿着动画的轨迹前进，但技术发展的步伐只会越来越快。比方说，上面Midjourney生成的企鹅图像之间的差异只是短短几个月之间的对比结果。

语言模型

去年，在图像模型出现飞跃的同时，语言模型也突飞猛进。去年11月， OpenAI推出了ChatGPT，刚推出五天，这款聊天工具就收获了100万用户。ChatGPT的表现令人难以置信，有“魔法时刻”降临的感觉。

人工智能现在这种发展和采用的节奏可以追溯到 2017 年当时国外某公司发表的一篇开创性论文《Attention Is All You Need》。这篇论文由Cohere.ai创始人Aidan Gomez与人合著，从中催生出一个规模呈指数级增长的“transformer”模型时代。

不到三年前的GPT-3推出时的参数规模为约2000亿，但新的GPT-4将有约 1,000,000,000,000（万亿）个参数。

在提出新想法、理解上下文以及回忆信息的能力方面，每个新模型都实现了飞跃。但更大的模型的训练成本也高很多。训练有数千亿个参数的模型可能要花费数百万美元。出于这个原因，大规模模型正在成为初创公司创立的基础。

生成式 AI 的用例

手写文字识别是最早的人工智能形式之一，邮政服务主要用它来读取信封上的地址。但是人工智能的这个用例非常特殊。在生成式人工智能方面，我们已经看到：图像和语言模型有了巨大改进；OpenAI、Hugging Face、Stability.ai等公司提供的宝贵基础设施。这两个因素相结合拓宽了用例的可能性。

一说到AI和大型语言模型时，人们往往认为需要大量专业知识。为了处理这些东西，我得了解深度学习，我可能还得懂微积分或至少线性代数，可是我根本就不太喜欢那种东西。我需要知道怎么给硬件编写CUDA内核程序？这可太吓人了。

他们疏忽了一点，这其实是个谬误。这个谬误就好比要想制作颜料，你得是化学家。所以如果我想成为一名画家的话，我必须学习化学。但现实情况是，你不需要知道如何制作颜料就能成为一名伟大的画家。同理，你不需要弄清楚大型模型是怎么做出来的，也可以用它们做出出色的产品。

任何人都可以更轻松地开发出利用AI去画画的工具。变革每个行业的机会已经成熟。如果极度简化的话，我们可以把用例分为两类：创意类、生产力类。

说到创意，我们看到生成式人工智能降低了创作的门槛。利用Midjourney，你可以给电影制作概念图。Latitude.ai等公司开发出AI Dungeon等游戏，利用GPT-3进行AI驱动的探索。

就像人工智能增强了创意一样，人工智能也增强了生产力。我们在赋予作者和营销人员超能力的工具中就能看到这一点，比方说像Jasper.ai、Copy.ai、Lex这样的工具。通过让ChatGPT帮我头脑风暴，为自媒体设计新标语，它的推荐令人印象深刻。

我们从Gong身上看到了生产力的提升，它运用了AI来帮助B2B销售团队提高效率和效力。我们在Osmosis身上也能看到这一点，它可以帮助广告代理商生成AI广告。我们在GitHub Copilot身上也能看到这一点，它可以将自然语言提示转化为数十种编程语言的编码推荐，而且从2022 年6月开始，所有开发者均可用上这款插件。

人工智能（尤其是建立在语言模型基础之上的人工智能）的早期目标是死记硬背的重复性任务。但目前有一个领域被重塑的时机已经成熟：那就是客户支持。这些是今天的人工智能已经可以取得重大进展的领域。更复杂的任务，比如3D游戏创作，在未来会有进一步的发展。但任何涉及人类创作的行业都会感受到人工智能的影响。

生成式人工智能很快就会与其他成熟的技术发生冲突，比如VR和AR。想象一下生成沉浸式三维虚拟世界的文本提示。这可能会在不久之后成为可能。技术发展往往非常迅速：在人的一生之内，我们就从莱特兄弟首次实现飞行（1903 年）发展到了将人送上距离地球 384400 公里之遥的月球（1969 年）。而今天出生的人们，他们将目睹人工智能重塑人类生活、工作和社会的方方面面。

创业项目群，学习操作 18个小项目，添加微信：luao319 备注：小项目！

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 fqkj163@163.com 举报，一经查实，本站将立刻删除。
如若转载，请注明出处：https://www.fqkj168.cn/4605.html

人工智能_attention，人工智能attention

搭好舞台

图像模型

生成式 AI 的用例

相关推荐