一、研究背景
手写体自动临摹技术是一种创新的AI生成任务,用户仅需上传少量书写样本,即可生成符合自己书写风格的电子字体。这种字体不仅可用于社交和办公软件,还能更好地表达个性和情感,兼具传统手写体的人情味和数字时代的高效性。此前的技术通常需要15张样本作为风格参考,但最新的研究成果仅需单张样本即可实现这一目标。
二、技术挑战
当前流行的文生图和风格迁移方法虽然强大,但在手写文字临摹方面仍存在不足。研究者们测试了多种工业方法(如DALL-E3、Stable Diffusion等),发现它们在临摹墨迹颜色、倾斜程度等方面仍有较大差距。因此,研究团队提出了一个新的风格化手写文字生成模型,称为One-DM(One-Shot Diffusion Mimicker),仅需单张样本即可临摹用户的书写风格。
三、关键技术
1. 拉普拉斯风格增强模块
研究者发现高频成分中包含清晰的文字轮廓和显著的书写风格。One-DM利用拉普拉斯算子提取高频成分,并通过拉普拉斯对比学习损失函数(LapNCE)引导高频风格编码器提取判别性强的风格模式。
2. 自适应门控机制
为了过滤掉空域风格特征中的噪声信息,One-DM引入了自适应门控机制。该机制通过多个可学习的门控单元,根据特征的重要性动态调整通过率,从而抑制多余背景噪声。
3. 风格-融合模块
One-DM通过融合信息和风格信息,再注入扩散模型,引导文字生成过程。该模块包含两个attention机制,确保信息与风格信息的充分结合。
四、实验评估
1. 定量评价
One-DM在多个英文、中文和日文数据集上表现出色,尤其在仅需一张参考样本的情况下,超越了依赖十几张样本的传统方法。
2. 定性评价
One-DM在英文文本生成任务上,可以更好地临摹参考样本的墨迹、字符间隔和笔画粗细等风格特征。在中文和日文等字符结构复杂的文本生成任务上,One-DM同样表现出色。
3. 与工业方法对比
One-DM在文本准确度和风格临摹上均优于现有的主流工业方法,如DALL-E3和Stable Diffusion。
五、未来展望
One-DM从用户体验出发,仅需单张样本即可实现高效、便捷的手写体临摹。未来,更多人可以使用自己的专属字体,享受传统手写体的人情味与AI时代的高效便捷。
本文来源: 机器之心【阅读原文】