过去的一年里,随着 DALL-E 2,Stable Diffusion 等图像生成模型的发布,text-to-image 模型生成的图像在分辨率、质量、文本忠实度等方面都得到了飞跃性提升,极大促进了下游应用场景的开发,人人都成了 AI 画家。
但相关研究表明,目前的生成模型技术仍然存在一个重大缺陷:无法在图像中呈现出可靠的视觉文本。
有研究结果表明,DALL-E 2 在图片中生成连贯文本字符上非常不稳定,而最新发布的 Stable Diffusion 模型则是直接将「无法呈现可读的文本」列为已知的限制。