狂徒AI对罗翔老师下手了

朋友,你有没有想过自己在二次元是什么样子?


最近,这种发电机在国内外流行起来 。


看,如果你丢了一张罗翔老师的照片,一个“抓拍”就会产生第二种漫画风格:

狂徒AI对罗翔老师下手了

文章插图
一键秒霸道总裁有木有,引得网友纷纷前来围观 。


甚至肯德基(KFC)官方账号也来凑个热闹,亲自打破他们父亲的次元墙:


狂徒AI对罗翔老师下手了

文章插图
各种梗图层出不穷:


狂徒AI对罗翔老师下手了

文章插图
在二次滤镜下,就连这首经典的《女人吼猫》也流露出一丝暖意 。“其实还有点可爱 。”


这是QQ小世界最近推出的二次元图像生成器——“另一个维度的我” 。


那么这个次生壁是怎么破的呢?
【狂徒AI对罗翔老师下手了】

只需上传一张照片 。


据了解,在QQ小世界的“异次元的我”话题下,已有超100万的投稿量和上亿的浏览量 。


一度连QQ服务器都被碾压:
狂徒AI对罗翔老师下手了

文章插图
“全民参与”的情况之所以会这样,与打破次元壁的简单操作是分不开的 。


只要搜索“自由绘画”就能看到入口:
狂徒AI对罗翔老师下手了

文章插图
然后就现场拍照,或者上传图片:


狂徒AI对罗翔老师下手了

文章插图
而且,为了让二次元风格图能够容纳各种图片,《另一个维度的我》还设置了不同的使用场景,让适应性更高:
狂徒AI对罗翔老师下手了

文章插图
不得不说,现在打破次元壁真的很容易 。


那么下一个问题是:


什么原则?


近年来,扩散模型在图像生成领域得到了蓬勃发展 。


比如OpenAI的GLIDE和Google的Imagen都是采用基于扩散模型的流水线来获得高质量的图像生成结果 。


扩散模型分为两个过程 。如下图所示,右边有一张正常的图片 。


狂徒AI对罗翔老师下手了

文章插图
从右到左的正向扩散是一个逐渐将正态分布的噪声叠加在一张图片上的过程,最终得到一张看起来完全是噪声的图片 。


可以松散的认为是在牛排上撒盐和胡椒,直到看起来完全被盐和胡椒覆盖,看不清原来的纹路 。


从左到右反向扩散是逐步去除噪点,尽量还原画面,是扩散产生数据的过程 。


扩散模型的训练是对叠加在xt上的噪声进行学习和预测,从而得到去噪后的xt-1图片 。在一轮又一轮的去噪之后,获得最终的无噪声输出图像X0 。


最新的稳定扩散模型在此基础上结合了经过训练的VAE模型 。


VAE模型可以压缩和解压缩任何图片 。图像经VAE编码器压缩后,可以得到比原始图像小得多的特征码 。然后基于特征码训练扩散模型,最后生成的特征码通过VAE解码器还原成原始大小的大图 。这是稳定扩散的实践 。


这一改进大大减少了图像生成时间和占用的GPU资源,使登陆成为可能 。


为了用文字控制模型生成的内容,稳定扩散模型使用预先训练好的CLIP模型来指导生成的结果 。


CLIP模型使用大量的文本和图片对进行训练,可以度量任意图片和文本之间的相关性,即CLIP-score 。


在生成前向图像的过程中,除了去噪,模型还需要使去噪后的图像和引导词的CLIP-score尽可能大 。


这样在不断生成的过程中,输出的结果会越来越接近我们给定的文本描述 。

秒懂生活扩展阅读