基于深度学习的图像语义描述系统【字数:9270】
目录
摘要 1
关键词 1
ABSTRACT 1
KEY WORDS 1
1 绪论 2
1.1 研究背景及意义 2
1.2 国内外研究状况 2
1.3 研究内容 2
1.4本章小结 2
2.深度学习和卷积神经网络、循环神经网络 2
2.1深度学习概述 2
2.2 卷积神经网络 3
2.2.1卷积神经网络概述 3
2.2.2卷积神经网络结构 3
2.2.3反向传播算法 3
2.2.4常用激活函数 4
2.2.5卷积神经网络的优势 4
2.3循环神经网络 4
2.3.1循环神经网络概述 5
2.3.2 SimpleRNN 5
2.3.3 LSTM 5
2.4 本章小结 5
3 图像语义描述系统的深度卷积神经网络模型 5
3.1卷积核大小以及激活函数的选择 5
3.2池化 6
3.3 DROPOUT 6
3.4基于VGG16的卷积网络架构 6
3.4.1 VGG16的结构和参数构成 6
3.4.2 卷积神经网络的计算过程 8
3.5 本章小结 8
4 图像语义描述系统的深度循环神经网络模型 8
4.1 注意力机制ATTENTIONMECHANISM 8
4.2 ADAM优化器 9
4.3 循环神经网络架构 9
4.3.1 LSTM循环结构 *景先生毕设|www.jxszl.com +Q: *351916072*
9
4.3.2 CNN与RNN的连接 9
4.3 本章小结 10
5. 实验与结果分析 10
5.1自动生成描述的过程概述 10
5.1.1数据集 11
5.1.2图像预处理 11
5.1.3图像特征提取 11
5.1.4词嵌入(WordEmbedding) 12
5.2实验结果分析 12
5.2.1 Bleu评估算法 12
5.2.2本实验得出的Bleu指标 12
5.3 本章小结 12
6.图像语义描述系统的设计 12
6.1 系统简介 12
6.1.1 功能描述 12
6.1.2 系统开发环境 13
6.2 基于深度学习的图像语义描述系统展示 13
6.3 本章小结 14
7.总结 14
致谢 15
参考文献: 15
基于深度学习的图像语义描述系统
引言
绪论
1.1 研究背景及意义
信息科学和技术的快速发展伴随着各种媒体数据的快速增长,这是由于数字设备的普及和存储技术的发展。如何在面对大量生成的未标记数据(如文本,音频,图像和视频)时管理这些未标记的数据,这已经成为一个需要解决的问题。我们的生活中存在大量数字图像,各大网站每天都会有数亿张图像生成。 随着数据量的迅速增加,手动标记显然已成为检索语义相关文本结果的不切实际的方法。为了减少手动标注工作量,图像语义自动标注技术已经成为关键且具有现实意义的研究领域。
国内外研究状况
图像语义描述的机器学习方法主要分为三种:基于统计分类的注释模型,基于概率关联的注释模型和基于深度学习的标注模型。
基于统计分类的方法原理是把每一个关键词对应一个分类,在一副图像中进行多分类,最后选取概率高的几个分类作为做后得出的图像标注。在此领域有如下代表性方法:(1)以颜色直方图为图像特征的支持向量机(Support Vector Machine, SVM)分类方法。(2)基于小波变换的颜色及纹理特征的二维多分辨率隐马尔科夫方法。(3)基于图像分割和区域底层混合特征的多示例学习方法。上述方法存在很明显的缺点,因为基于统计分类的方法是根据图像底层特征进行图像分类,而低层特征与高层语义之间存在较深的语义鸿沟,所以很难生成反映真实语义的图像描述。
基于概率模型的方法原理是将图像语义和图片区域特征的概率联合起来形成一个概率模型,然后利用概率模型对图像进行语义标注。这种方法不需要建立低层特征和高级予以之间的关系,只需要在对应的不同描述图像和语义标签概率之间选择合适的概率统计模型。
基于深度学习的方法原理是对于原始图像自动学习并提取出图像特征,然后将提取出的图像特征再进行深度学习提取出图像语义。代表性工作如下:(1)Sermanet等人做出了基于卷积神经网络的房屋门牌号识别系统。(2)Hinton等人做出了基于受限制的波尔兹曼机(Restricted Boltzmann Machine, RBM)的深度信念网络 (DBN)的Minst手写数字识别系统。
深度学习网络尤其是卷积神将网络在图像分类识别领域取得了极大的成功,而更复杂的结构更深的网络层次更多的神经元更多的神经网络组合使用已经成为深度学习的发展趋势。
原文链接:http://www.jxszl.com/jsj/wljs/563976.html