谷歌亮出 AI“王牌”Imagen，生成超逼真图片，网友：OpenAI DALL-E 要被碾压了？

2022年 6月 9日 19:24:38业界资讯互联网来源：InfoQ1 1,033字数 2094阅读6分58秒阅读模式

如今的AI领域出现了一波新趋势--文本到图像生成器。只要把文本描述输入这些程序，它们主涌生成与描述内容高度匹配的精准图片。这些程序还支持各种风格，从油画、CGI 渲染再到实景照片无所不包。总之，只有你想不到，没有它画不出。

此前，该领域的领导者一直是DALL-E--由商业 AI 实验室 OpenAI 开发的程序（今年 4 月刚刚完成更新）。但就在昨天，谷歌也拿出了自己的王牌：Imagen，并在输出质量上一举压倒了 DALL-E。文章源自IT老刘-https://wp.itlao6.com/8702.html

以下图片均由 Imagen 生成：文章源自IT老刘-https://wp.itlao6.com/8702.html

一张戴着宇航员头盔的浣熊在晚上看着窗外的照片

乘坐火箭飞船前往月球的大脑

一只狗好奇地照镜子，看到一只猫

一对机器人夫妇在埃菲尔铁塔的背景下享用美食

撒哈拉沙漠中戴着草帽和霓虹墨镜的小仙人掌

要了解这些模型有什么本事，当然是先从它们生成的作品开始。（感兴趣的朋友可以访问Imagen登陆页面查看更多示例）。文章源自IT老刘-https://wp.itlao6.com/8702.html

可以看到，图像下方的文本就是输入给程序的提示，图像则是输出结果。就这么简单，告诉程序自己想看什么，Imagen 就能自行创作。这可太棒了！文章源自IT老刘-https://wp.itlao6.com/8702.html

虽然这些照片的连续性和准确性都给人留下了深刻印象，但我们旁观者也至少要保持住清醒的头脑。毕竟像Google Brain这类研究团队公布新的 AI 模型时，往往会挑选出质量最高的结果。所以虽然图片看起来非常完美，但恐怕无法代表这套图像系统的平均输出水平。文章源自IT老刘-https://wp.itlao6.com/8702.html

请记住：谷歌只会让你看到最好的图片

以往，文本到图像模型生成的图片看起来都不大完整，而且画面是相当模糊。OpenAI的 DALL-E 生成的图片就有这些问题。文章源自IT老刘-https://wp.itlao6.com/8702.html

但谷歌表示不服，宣称 Imagen 生成的图像已经全线超越了 DALL-E 2，原因就是 Imagen 拥有一套量身打造的测试新基准 DrawBench。文章源自IT老刘-https://wp.itlao6.com/8702.html

DrawBench 的测试指标并不是特别复杂：本质上，它就是一份包含约 200 条文本提示的列表，谷歌团队把这些提示输入到 Imagen 及其他文本到图像生成器里，再由人工评分员判断各程序的输出质量。如下图所示，谷歌发现人类往往更喜欢 Imagen 的输出，对其他竞争模型的作品评价相对较低。文章源自IT老刘-https://wp.itlao6.com/8702.html

谷歌 DrawBench 基准将 Imagen 的输出，与 OpenAI 的 DALL-E 2 等文本到图像竞争对手进行比较。文章源自IT老刘-https://wp.itlao6.com/8702.html

但这都是谷歌说的，而且他们还没有全面开放 Imagen 模型，所以我们也不知道是真是假。不开放也有不开放的理由，毕竟文本到图像模型虽然具有巨大的创造潜力，但在恶意使用之下也有可能引发严重后果。想象一下，如果这样一套系统能够生成我们想要的任何图像，那假新闻、恶作剧或者骚扰性素材还不满天飞？谷歌方面也强调，这些系统在训练过程中也不可避免接触到了社会偏见，所以输出结果中也会包含种族主义、性别歧视或其他一些有毒内容。文章源自IT老刘-https://wp.itlao6.com/8702.html

老话说得好：垃圾进、垃圾出，AI 也不例外

这主要源自此类系统的编程方式。从本质上讲，它们依靠大量数据进行训练（对 Imagen 来说，使用的就是图像加文本组合）,从数据中发现模式并尝试重现。但要想得出可靠的结论，模型就得接触巨量数据。即使是谷歌这样资金雄厚的科技巨头，也很难在研究团队之内把所有输入信息都全部过滤一遍。因此，他们只能从网络上直接抓取内容，所以网上那些有毒言论和信息也就不免要渗透到 AI 模型当中。文章源自IT老刘-https://wp.itlao6.com/8702.html

谷歌研究人员在他们的论文中也做出总结：“文本到图像模型往往需要大规模数据作为支持……因此研究人员高度依赖于大型、通常未经梳理、直接从网络上抓取到的数据集……数据集审计结果显示，这类数据内容往往会反映社会上的刻板印象、压迫性观点、对边缘化身份群体的贬损等有害关联内容。”文章源自IT老刘-https://wp.itlao6.com/8702.html

换句话说，计算机科学家们的那句老话说得好：垃圾进、垃圾出，AI 也不例外。文章源自IT老刘-https://wp.itlao6.com/8702.html

谷歌并没有具体解释 Imagen 到底生成了哪些令人不安的内容，但强调这套模型“编码了几种社会偏见和刻板印象，例如总体更倾向于生成肤色较浅的人像，也更倾向于生成符合西方世界刻板印象的职业与性别组合。”文章源自IT老刘-https://wp.itlao6.com/8702.html

同样的问题在 DALL-E 身上也有出现。例如，在让 DALL-E 生成“空乘人员”图像时，给出的几乎全是女性形象。而如果要求生成“CEO”图片，得到的就基本都是“老白男”。文章源自IT老刘-https://wp.itlao6.com/8702.html

面对这个问题，OpenAI 也决定不公开发布 DALL-E，只面向一部分特定人员开放 beta 测试。他们还过滤了某些文本输入，希望阻止模型生成种族主义、暴力或色情图像。这些举措确实在一定程度上限制了技术的潜在有害应用，但 AI 技术的发展史告诉我们，这种文本到图像模型早晚会被公之于众，到那时候一切令人不安的影响都将如洪水般倾泄而出。文章源自IT老刘-https://wp.itlao6.com/8702.html

谷歌自己的结论是，Imagen“目前尚不适合公众使用”，并表示计划开发一种新方法来衡量“未来工作中的社会与文化偏见”，希望借此测试模型的后续迭代。但就目前来看，谷歌展示的图片确实质量颇高——头戴王冠的浣熊和墨镜下的柯基犬都相当带感。不过这还只是冰山一角，如果要想展现全部真容，Imagen 先得搞定技术研究可能引发的意外后果。文章源自IT老刘-https://wp.itlao6.com/8702.html

原文链接：文章源自IT老刘-https://wp.itlao6.com/8702.html

https://www.theverge.com/2022/5/24/23139297/google-imagen-text-to-image-ai-system-examples-paper?ref=refind

文章源自IT老刘-https://wp.itlao6.com/8702.html文章源自IT老刘-https://wp.itlao6.com/8702.html

继续阅读

我的微信公众号

微信扫一扫关注公众号，不定时更新

资源分享

工具&方法

业界资讯

Github推荐

谷歌亮出 AI“王牌”Imagen，生成超逼真图片，网友：OpenAI DALL-E 要被碾压了？

请记住：谷歌只会让你看到最好的图片

老话说得好：垃圾进、垃圾出，AI 也不例外

阿里第一颗芯片诞生！据称性能“40倍于同类” 逾百亿美元市场会否诞生下一个英特尔

写“毁灭人类计划书”、错误太多被 Stack Overflow 封禁，好玩的 ChatGPT 还不能替代程序员

61岁被迫再求职，多名开源功臣被裁：谷歌开源部门裁员“大地震”

如何快速获取阿里通义千问邀请码

苹果美区Apple ID提示余额不足/需要绑定信用卡，已使用礼品卡充值的解决方法

Midjourney 5.2震撼发布！原画生成3D场景，无限缩放无垠宇宙

微软已向申请用户开放基于ChatGPT的全新必应，ChatGPT移动版即将到来

60天ChatGPT月活1亿, 微软又出手：Bing中将出现GPT-4

61岁被迫再求职，多名开源功臣被裁：谷歌开源部门裁员“大地震”

AI vs AI：为了ChatGPT等模型生成的文本，斯坦福推出DetectGPT

Google将文本变成音乐，AI绘图多久能变为AI动漫?

糗事百科宣布将在12月29日零点关闭服务,自称享年17岁

研究：新冠会影响视力和深度知觉；网友：冬天受冻了也会

对使用者体验不友好？Web3让网络和APP变得更难用

发表评论

资源分享

工具&方法

业界资讯

Github推荐

请记住：谷歌只会让你看到最好的图片

老话说得好：垃圾进、垃圾出，AI 也不例外

发表评论

加入我们

立即登录

找回密码