"景先生毕设|www.jxszl.com

图像字幕的自动生成技术研究【字数:14265】

2024-02-25 16:58编辑: www.jxszl.com景先生毕设
本文针对人工智能的两大热点问题的结合,即计算机视觉和自然语言处理的结合,为得到良好的执行效果和渴求广泛的技术参考,使用深度学习的神经网络训练模型,进行对图像的描述任务。该技术实现大致思路为,通过卷积神经网络模型对图像进行卷积运算并筛选特征,其后对特征进行分类,得出中间网络层变量并赋给递归神经网络模型,然后运用递归神经网络逐字生成对图像的描述。该系统选用的是python语言,采用结构化的方式来构建系统模块,完成了中英文双语的图像描述,当然中英文描述模块采用了不同的神经网络构建,用以作为对照组,从而加深对神经网络工作原理的认识。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1 选题背景1
1.1 问题的提出1
1.2 国内外研究状况2
1.2.1 国外研究状况2
1.2.2 国内研究状况2
1.3 研究的目的和内容2
2 图像英文描述及模型搭建3
2.1 图像英文描述任务简介3
2.2 COCO数据集处理3
2.2.1 COCO数据集简介3
2.2.2 处理过程4
2.3 构建卷积神经网络模型4
2.3.1 VGG网络模型简介4
2.3.2 模型搭建前提5
2.3.3 模型具体构建6
2.4 构建LSTM模型7
2.4.1 LSTM网络模型简介7
2.4.2 模型搭建前提9
2.4.3 模型具体构建9
2.5 批次图片生成10
3 图像中文描述及模型搭建11
3.1 图像中文描述人物简介11
3.2 数据集处理11
3.3 图像与字符序列编码11
3.4 LSTM模型构建12
3.5 描述生成12
4 中英文模块中模型对比13
5 问题解决14
5.1 细节问题14
5.1.1 数组中过多索引指针14
5.1.2 读取TXT文本格式错误 *景先生毕设|www.jxszl.com +Q: #351916072
15
5.1.3 评估Meteor指标时出现永久等待问题15
5.1.4 保存模型与训练续跑15
5.2 重点问题15
5.2.1 全连接层维度设置为512原因15
5.2.2 模型导入时共享变量域的作用15
5.2.3 英文注释无法多文件同时进行15
5.2.4 关于TFRecord文件的操作15
5.2.5 Resource exhausted(资源耗尽)15
5.2.6 英文描述模型训练时间过长16
5.2.7 attention机制中使用tanh激活函数原因16
6图像描述可视化系统16
6.1 可视化系统简介16
6.2 系统功能应用16
7 设计心得17
致谢18
参考文献18
图像字幕的自动生成技术研究
引言
1 选题背景
1.1 问题的提出
人们起初是通过RNN(Recurrent Neural Network)模型作为编码器(Encoder)和解码器(Decoder)进行自然语言处理,但是之后研究者开始尝试使用CNN(Convolutional Neural Network)编码器来提取图像的特征,再使用RNN解码器针对图像的特征生成描述,由此而发掘出计算机视觉和自然语言处理两领域相结合的Image Caption方向,即图像描述方向。
1.2 国内外研究状况
1.2.1 国外研究状况
近两年来,image caption可以说一直是深度学习最热点的方向之一,已有许多著名的科技公司研发部和大学研究实验室对该项问题进行了实践,如Google、Mircosoft、斯坦福大学人工智能实验室等等。此外,Google、Yahoo旗下的Flickr等平台已提供了开源的数据集,并且组织科研人员每年进行攻关竞赛。该领域最早提出且最为经典的模型应属Google在《Show and Tell: A Neural Image Caption Generator》[1]论文中提出的模型,他首次将自然语言处理的RNN模型解码器替换为更为复杂的LSTM(Long Short Term Memory)模型解码器,同时期的还有斯坦福大学提出的Neural Talk,不久微软在《From Captions to Visual Concepts Back》[2]提出编码器端对每张图片生成尽可能多的关键词,从而利用这些关键词生成描述语句,为之后图像和语义的结合作了铺垫。
随后,因为注意力attention机制在自然语言处理上的成功运用,研究者开始思索如何将此项机制运用于Image Caption。注意力机制的思想为对卷积层所提取的图像特征赋予注意力权值,结合上下文和时间,即为一种动态的特征提取,再将此权值与解码器记忆的信息进行加权得出解码向量从而计算得出图像描述关键词。而Google再一次作为先行者,提出了“Show,Attend and Tell”[3]模型。还有一种attention改进机制则是Peter Anderson提出的在CNN阶段对目标进行检测得到相应标签[4],再对LSTM生成的语言进行实时的注意力调整[5],使得描述更加清晰明了、更贴近图像主要部分。
1.2.2 国内研究状况
国内再次方向走在前沿的是百度研究院提出的“multimodal Recurrent Neural Network”模型,即mRNN。这个模型是创造性地提出将CNN与RNN相结合解决图像字幕和语句检索等问题。同时国内创新工厂、美团、搜狗等公司举办的2017年AI Challenger全球挑战赛中便有此项挑战任务,且公布出了中文图像描述数据集等资源。2018年的挑战已更新为图像属性描述,相较Image Caption来说确实有些精进,针对于重点特征属性的描述,似乎更加符合应用需求、更能提高描述的准确性,可以说是Image Caption的细化精化,但是也忽视了串联成句的语法性,只是进行了罗列,忽视了整体的逻辑性和关联性。不管怎么说,对此方向的研究仍需大量的工作。

原文链接:http://www.jxszl.com/jsj/wljs/563938.html