狂徒AI对罗翔老师下手了( 二 ) _生活百科

文章插图
上图中，左下角孩子的脸先叠加了一定程度的噪点。

之后在去噪的过程中，生成的结果图与“一个戴眼镜的女人”的距离会不断缩小，这样生成的结果会逐渐变成一个戴眼镜的成年女人。

生成的图像仍能保留原图像的大致结构，但在文字的引导下细节发生了变化。

稳定扩散技术在AI绘画中表现出非常高的观赏性和娱乐性，尤其是在二次元领域。各家公司都推出了基于Stable Diffuse的AI绘画平台，如draft.art、意大利AI等。

但是，当时现有的平台使用起来非常不方便。如果直接生成，大概率生成的质量不会很高，很容易遇到翻车的场景:

文章插图
如果用户想要生成更好的效果，就需要对图片内容进行详细的描述，并添加许多文字来增强效果，强化风格，从而得到一个理想的效果。

而且界面可调参数多，用户门槛很高；另一方面，由于资源的消耗，这些平台通常需要长时间排队才能得到一个结果。

所以QQ小世界团队对这些痛点进行了优化和改造。用户只需上传一张图片，即可获得好看且稳定的生成效果，降低了使用门槛，保证了生成质量。

在技术上，研究人员主要做了以下优化:

精准内容生成:通过自研扩散模型强化生成语义，辅助图片内容分析，提高生成内容的对应度；

更快的生成速度:利用超分割模型降低difussion模型的生成分辨率，加速图像推理过程，提高生成速度，节省GPU资源；

多种风格选择:针对不同场景设计丰富美观的风格化效果。

此外，在设计游戏玩法时，简化了用户的使用流程。为了让用户的使用门槛更低，体验更好，研究团队通过口碑积累，达到了1000%的峰值二次传播率。

之前的一些AI画图平台，如如意AI，草稿美术等。，除了上传图片还需要使用一系列的提示来描述主题和风格，有时还需要调整不同的参数才能得到理想的效果。

为了降低用户的使用门槛，“异次元的我”改进了管道:

文章插图
输入模型的提示词分为两部分——图片主要内容的描述和样式的描述。

描述:为了得到图片的内容描述，在输入图片中的信息上检测人物的性别、年龄、姿势等属性，得到最终准确详细的内容描述词。

风格描述:为了让结果更接近二次元，针对各种不同的场景，设计了非常有特色的二次元风格。按照第一步对画面内容进行分析后，进一步细分为单身男、单身女、多人等不同场景。

研究者将内容描述和风格描述相结合，通过对原始图像的分析，得到最终完整的提示词输入网络，能够稳定生成画面精美、风格突出的结果。既保证了生成内容与原图的对应性，又加入了很多“异次元”元素，让用户更有穿越二次元的感觉，同时保证了较高的生成质量。

另一方面，自主研发的扩散模型加强了语义理解，可以更准确地理解和生成图片的主要内容，显著提高语义信息理解和图像生成质量。

相比其他近期推出类似游戏的平台，《异次元的我》会有更好的内容精准度，风格也会更二次元，更唯美:

文章插图
据了解，原本稳定扩散需要经过多次迭代才能生成图片，在默认配置的A100机器上生成一张720p的图片大概需要12s 。

如果需要通过提高分辨率和迭代步数来改善效果，最多需要一分钟。

而《异次元的我》对自研模型采用了一系列模型压缩和工程加速方案，最终一张图片的生成速度为1.6s，提升了7倍。

狂徒AI对罗翔老师下手了( 二 )

秒懂生活扩展阅读