"景先生毕设|www.jxszl.com

基于深度学习的视觉问答【字数:9818】

2024-02-25 16:55编辑: www.jxszl.com景先生毕设
基于计算机视觉和自然语言处理技术的视觉问答是人工智能研究领域的新兴课题,随着深度学习的发展,基于深度学习的视觉问答技术更加成熟。本文介绍了norm I + LSTM和VIS + LSTM两个经典的视觉问答模型,对比分析两者在不同数据集上的表现,并通过调整VIS + LSTM模型的迭代次数、学习率等超参数,采用Adam算法替换norm I + LSTM模型的RMSProp算法等改进策略提升了模型的性能,并将视觉问答任务用可视化界面展示。最后本设计构建了水稻病害图像的视觉问答数据集,并根据norm I + LSTM 模型的训练结果分析视觉问答在农作物病害检测上的应用。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1引言 2
1.1 研究背景及意义 2
1.2 国内外研究现状 2
1.3 本文主要内容 3
2 视觉问答模型 3
2.1 norm I + LSTM模型 3
2.1.1 基本原理 3
2.1.2 VQA数据集 4
2.1.3 模型实现 5
2.2 VIS + LSTM模型 6
2.2.1 基本原理 6
2.2.2 COCOQA数据集 6
2.2.2 模型实现 6
3 VQA模型优化 7
3.1 模型评价指标 7
3.2 对比结果 7
3.2.1 数据集对比 7
3.2.2 模型对比 8
3.3 改进策略 8
3.3.1 迭代 8
3.3.2 时期数 9
3.3.3 学习率 9
3.3.4优化算法 10
3.4 模型演示 11
4 算法应用 12
4.1 数据集 12
4.2 算法应用 13
5 总结与展望 14
致谢 15
参考文献 16
基于深度学习的视觉问答
引言
1 引言
1.1 研究背景及 *景先生毕设|www.jxszl.com +Q: ^351916072
意义
近年来,视觉问答(Visual Question Answering,VQA)在计算机视觉(Computer Vision,CV)和自然语言处理(Natural Language Processing,NLP)领域引起了研究人员的广泛关注。视觉问答任务是根据输入的图像和与之相关的问题输出答案。目前VQA被广泛应用于图像字幕处理(Image Captioning)[1]、目标检测(Object Diction)[2]、行为识别(Action Recognition)[3]和视觉跟踪(Visual Tracking)[4]等领域。
与传统的计算机图像处理相比,VQA除了和输入图像相关之外,还受到自然语言问题的影响。同一张图像问题不同,那么答案也不一样。而与传统的自然语言处理相比,VQA需要对维数更高且内容没有规则的图像进行编码分析,更难处理。因此综合了图像处理和自然语言技术的视觉问答更加复杂,要求更高。
农作物病害检测一直以来都是农业研究者们的关注重点,农作物病害的爆发导致大规模的减产,造成极大的经济损失。视觉问答技术的发展为农作物病害检测提供了一些新想法,基于视觉问答的农作物病害检测技术在传统病害检测技术的功能上,增加了提供额外信息的能力,如病害描述、作物类型、环境等。随着视觉问答技术愈加成熟,未来会更加深入地应用于农业。
1.2 国内外研究现状
视觉问答自出现以来就受到人工智能领域的广泛关注,目前已经出现了不少视觉问答模型。早期VQA主要采用离散推理和不确定性预测方法,用对数方式获得概率构建模型[5]。随着深度学习的快速发展,近年来,基于深度学习的视觉问答模型开始出现并不断发展。
基于深度学习的视觉问答系统可以分为联合嵌入模型、注意机制模型、模块组合模型和知识库增强模型[6]。联合嵌入模型使用卷积神经网络(Convolutional Neural Network, CNN)[7]提取图像特征,循环神经网络(Recurrent Neural Network, RNN)[8]提取问题特征,两种特征组合训练获得答案。Zhou等[9]在2015年提出用词袋模型(Bag Of Word, BOW)代替循环神经网络,Ma等[10]在2015年提出用三种不同的CNN分别编码图像、问题和两者结合训练部分。在联合嵌入模型中,常使用长短期记忆网络(Long Short Term Memory networks, LSTM)[11]代替循环神经网络和深度卷积神经网络组合使用。
Aishwarya Agrawal等[3]在2015年提出norm I + LSTM模型,该模型采用在ImageNet上预训练的VGGNet(Visual Geometry Group Network)[13]提取图像特征,长短期记忆网络编码问题信息,两者结合送入多层感知器(MultiLayer Perceptron,MLP)[3]中训练,最后由SoftMax输出分类结果。Mateusz Malinowski等[14]在2015年提出NeuralImageQA模型,与[3]不同,该模型将输入问题的每个词向量和图像特征向量同时送入LSTM中一起训练,然后用同一个LSTM网络产生答案。
Ren M等[1]提出VIS + LSTM模型,该模型将图像特征变换到与问答特征向量匹配的维度后,作为问题的第一个词输入LSTM网络,之后依次将每个单词编码后送入LSTM训练,最后由SoftMax输出分类答案。Gao H等[15]提出的MQA(Multimodal Question Answering)模型相比之前的模型更加复杂。该模型包括4个部分,第一部分是由LSTM网络编码问题特征向量,第二部分是由深度卷积神经网络提取图像特征,第三部分是答案LSTM网络编码答案中的当前词和之前产生的词,第四部分是融合前三个模块,预测答案中要产生的下一个词。

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/563917.html