狂徒AI对罗翔老师下手了( 二 )




狂徒AI对罗翔老师下手了

文章插图
上图中,左下角孩子的脸先叠加了一定程度的噪点 。


之后在去噪的过程中,生成的结果图与“一个戴眼镜的女人”的距离会不断缩小,这样生成的结果会逐渐变成一个戴眼镜的成年女人 。


生成的图像仍能保留原图像的大致结构,但在文字的引导下细节发生了变化 。


稳定扩散技术在AI绘画中表现出非常高的观赏性和娱乐性,尤其是在二次元领域 。各家公司都推出了基于Stable Diffuse的AI绘画平台,如draft.art、意大利AI等 。


但是,当时现有的平台使用起来非常不方便 。如果直接生成,大概率生成的质量不会很高,很容易遇到翻车的场景:
狂徒AI对罗翔老师下手了

文章插图
如果用户想要生成更好的效果,就需要对图片内容进行详细的描述,并添加许多文字来增强效果,强化风格,从而得到一个理想的效果 。


而且界面可调参数多,用户门槛很高;另一方面,由于资源的消耗,这些平台通常需要长时间排队才能得到一个结果 。


所以QQ小世界团队对这些痛点进行了优化和改造 。用户只需上传一张图片,即可获得好看且稳定的生成效果,降低了使用门槛,保证了生成质量 。


在技术上,研究人员主要做了以下优化:


精准内容生成:通过自研扩散模型强化生成语义,辅助图片内容分析,提高生成内容的对应度;


更快的生成速度:利用超分割模型降低difussion模型的生成分辨率,加速图像推理过程,提高生成速度,节省GPU资源;


多种风格选择:针对不同场景设计丰富美观的风格化效果 。


此外,在设计游戏玩法时,简化了用户的使用流程 。为了让用户的使用门槛更低,体验更好,研究团队通过口碑积累,达到了1000%的峰值二次传播率 。


之前的一些AI画图平台,如如意AI,草稿美术等 。,除了上传图片还需要使用一系列的提示来描述主题和风格,有时还需要调整不同的参数才能得到理想的效果 。


为了降低用户的使用门槛,“异次元的我”改进了管道:
狂徒AI对罗翔老师下手了

文章插图
输入模型的提示词分为两部分——图片主要内容的描述和样式的描述 。


描述:为了得到图片的内容描述,在输入图片中的信息上检测人物的性别、年龄、姿势等属性,得到最终准确详细的内容描述词 。


风格描述:为了让结果更接近二次元,针对各种不同的场景,设计了非常有特色的二次元风格 。按照第一步对画面内容进行分析后,进一步细分为单身男、单身女、多人等不同场景 。


研究者将内容描述和风格描述相结合,通过对原始图像的分析,得到最终完整的提示词输入网络,能够稳定生成画面精美、风格突出的结果 。既保证了生成内容与原图的对应性,又加入了很多“异次元”元素,让用户更有穿越二次元的感觉,同时保证了较高的生成质量 。


另一方面,自主研发的扩散模型加强了语义理解,可以更准确地理解和生成图片的主要内容,显著提高语义信息理解和图像生成质量 。


相比其他近期推出类似游戏的平台,《异次元的我》会有更好的内容精准度,风格也会更二次元,更唯美:
狂徒AI对罗翔老师下手了

文章插图
据了解,原本稳定扩散需要经过多次迭代才能生成图片,在默认配置的A100机器上生成一张720p的图片大概需要12s 。


如果需要通过提高分辨率和迭代步数来改善效果,最多需要一分钟 。


而《异次元的我》对自研模型采用了一系列模型压缩和工程加速方案,最终一张图片的生成速度为1.6s,提升了7倍 。

秒懂生活扩展阅读