"景先生毕设|www.jxszl.com

基于gan的字体风格迁移【字数:10860】

2024-02-25 16:54编辑: www.jxszl.com景先生毕设
1为减轻设计师们的负担,将设计师已设计出的少量的任意类型或风格的艺术字泛化至所有字,是本文主要研究的内容。本文基于PyTorch平台,采用一种多内容生成式对抗网络模型,来实现不同英文大写字母字体之间的风格迁移。该模型分为两部分,第一个部分为字形网络,主要训练字体轮廓,第二个部分为装饰网络,负责对前一个网络生成的字形的颜色和纹理进行微调。两个网络都遵循条件生成式对抗网络的架构。测试结果证明此网络具有很好的泛化性。
目录
引言
一、绪论
研究背景
风格迁移是近年来深度学习领域较为热门的研究课题之一,其主要目的是指将一个物体的风格迁移到另一物体上,使其具有与之相同的风格。风格迁移在许多领域都有着及其重要的作用,包括将动画特效设计,线条风格迁移,机器人书写领域等等。其最突出的应用领域则是图片风格迁移,它采取不一样的风格来渲染图像语义内容,使得图像变换成另一种风格。本文主要探讨的是字体风格迁移。
设计师们在设计海报、电影宣传等艺术字时,往往只设计需要用到的那一小部分字母或汉字,其他字母和汉字则不予设计,所以当其他人想使用这种风格的字体时,也只能使用这小部分字,然而这小部分字往往不能满足他们使用的需求。因此,研究人员开始探索如何进行字体风格迁移,也就是根据已设计好的几个字的字体样式的特点,通过一些算法模型来学习其特征,生成出与之具有相同风格特征的其他字符。例如一套全的具有相同风格样式的大写艺术字母,通过输入的少数几个艺术字母,便可获得其他的有相同风格的艺术字母。如此既省去了设计师们重复设计相同风格字体的时间,也满足了其他人使用该字体的需求。
研究现状
在初期,人们一般通过几何建模来进行字形的研究,所以其应用领域比较狭窄,随着时代的发展,这种不适用于添加装饰、手写体文字,不允许图像输入的建模方式由于适用对象太狭窄早已被淘汰。
Shamir等[1]采取参数特征研究字体,但是它需手动干扰其特征和约束的提取过程,而不是自动学习。 Suveeranont等[2]从用户给出的文本中自动生成新字体,从每个字符的轮廓中,导出一个骨架作为拓扑结构。然后,系统可以使用模板字体中轮廓和骨架的加权混合来表示任意字体。系统提取用户绘制的单个字符的轮廓,并从数据库中计算混合权重,以重 *景先生毕设|www.jxszl.com +Q: ¥351916072
现给定的轮廓。最后将权重应用于所有字符以合成新字体。缺点是生成的模拟字符经常发生清晰可见的扭曲。Xu等[3] 实现了基于实例的汉字手写体自动生成算法。该方法首先将整个汉字分割成多个组成部分,如笔画、部首和频繁使用的汉字组成部分。然后,该算法分析和学习了中国国家字体标准中定义的和个人手写记录中显示的字符手写样式的特征。在这种分析过程中,他们采用了字符形状的参数化表示,并研究了字符的多个组成部分之间的空间关系。该方法通过模拟单个字符组件的形状以及它们之间的空间关系,可以按照基于实例的方法自动生成个性化的手写体。与只有26个字母的英文相比,汉字具有形体复杂,结构多变的特点,其风格迁移更具有挑战性。起初,为了识别不同形式和字体的文本图像,曾理等[4] 基于多尺度非冗余小波纹理分析来实现不同语种不同格式字体的识别,计算简单。其后,陈飞等[5]提出了在 SDL和 OpenGL上在3D场景中任意位置绘制汉字的方法,但其过度依赖于现成的图形库,在功能上不利于扩展。
生成式对抗网络(GAN, Generative Adversarial Networks)[13]是2014年由Ian Goodfellow提出的一种深度学习模型,这个模型是在最近几年那么多复杂分布中没有人看管的学习最有未来的一种。生成式对抗网络的构造主要是包含两个模型:一个生成器模型和一个判别器模型。判别器的任务是确定输入的数据是真实数据还是机器模拟仿真的数据。而生成器的任务则是使生成的模拟数据尽可能与实际数据分布一致。GAN的出现引起了人工智能界的广泛关注,是深度学习领域出现的一大新星。虽然最初出现的 GAN有着很多不足,但在各方人员的探索下,衍生出很多 GAN的改良模型,优化解决了 GAN的各种问题,对 GAN的效果有了很大的提升作用,使得 GAN越来越成熟。在GAN出生的短短五年内, GAN已经达到许许多多各个方面研究以及应用的需要的要求,其中最被频繁利用的一个地方就是视觉以及图像的领域了,已经可从简单的线条图形生成较为真实的物体图像,从被分割过的图像恢复到原始图像,给灰度图像加上颜色变成彩色图像,根据物体的轮廓边缘恢复物体具体完整的图像,给低分辨率图像添加信息内容生成高分辨率图像等等。同时用GAN来进行图像风格迁移的技术已经进展不错,在此基础上,将GAN应用到字体风格迁移上也非常可行,目前已取得了一定的成果,但还有很大的发展空间。
随着生成式对抗网络的出现与发展,研究人员开始研究图像中的字形建模。Baluja[6] 通过分析只有四个字母的一个子集来学习字体的样式。从这四个字母中,主要学习两个任务。第一个是歧视任务:考虑到四个字母和一个新的候选字母,新字母是否属于同一字体;第二,给定四个基字母,是否能生成所有其他与基集合中的字母特征相同的字母。他们使用深度神经网络来处理这两个任务,以各种新颖的方式定量和定性地测量结果,并对该方法的弱点和优势进行了深入的研究。张等[8]用基于RNN的方法是一个端到端的系统,它直接处理顺序结构,不需要任何特定领域的知识。通过RNN系统(结合LSTM和GRU),可以在ICDAR2013竞争数据库上实现最先进的性能。在RNN框架下,提出了一种嵌入字符的条件生成模型,用于自动绘制可识别的汉字。生成的字符(矢量格式)是人类可读的,并且可以被识别的RNN模型高精度识别。实验结果验证了用RNN作为汉字绘制和识别任务的生成和识别模型的有效性,但对于字形复杂的字体生成效果并不理想。Lyu等[9] 创建了一个GAN模型,该模型可生成中国毛笔风格字体图像的,但是其缺点也较为明显,它的设计过于复杂,并且最终生成的字体图像经常出现粘滞或不清晰的笔触。今年,Azadi等[7]领先提出了一个多内容的生成式对抗网络模型,成功地完成了一万种不同的大写英文字母字体间的风格迁移,取得了极大的进步。滕少华等[10]通过结合条件生成式对抗网络和Wasserstein生成式对抗网络,改进了汉字建模方法。其GAN模型使用具有良好灵活性的残差网络作为主要组件,然后利用cGAN模型对汉字的结构建模,成功高效地完成了在不同样式字体的样式改变。
二、预备知识
生成式对抗网络
生成式对抗网络的结构最初来源于二人零和博弈,该二“人”分别是模型的生成器和判别器。生成器不断生成越加仿真的图片,判别器则不断准确识别图片的真伪。二者识别判断能力不断加强,直至判别器的优化程度到达一定高度也判别不出生成器模拟出来的图片的与真实图片的区别。本设计利用GAN的思想,使用生成器生成与输入的字体风格一样的字体,判别器判断字体是否与输入字体风格相似。GAN的特点在于和传统的模型相较而言,它的网络不止一个,而有两个相互对抗的不相同的网络构成,同时其训练方式使用的是对抗训练,通过GAN中生成器的梯度更新信息来源于判别器,而与输入信息无关来实现。

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/563893.html