"景先生毕设|www.jxszl.com

基于哈希的跨模态检索系统【字数:11729】

2024-02-25 16:55编辑: www.jxszl.com景先生毕设
1由于其低存储成本和快速的查询速度,基于哈希的跨模态检索算法已被广泛应用于多媒体数据的相似性检索。然而现有哈希算法大多基于手工提取的特征,检索性能仍有待提高。本课题基于深度学习考虑了将特征学习和哈希函数学习集成到同一框架下的跨模态检索算法。首先分别对图像模态和文本模态构建特征学习网络,然后采用交替迭代优化算法求解对应的优化问题。本课题开发的跨模态检索系统可以方便的实现经典算法以及基于深度学习算法的跨模态检索实验。在NusWide和Flickr数据集上实验表明,该系统具有较高的检索精度和较快的检索效率。本课题设计的系统为设计新颖的跨模态检索算法提供了统一的数据集及相应的评价指标,可以加快新算法的设计开发流程。
目录
引言
绪论
研究背景及意义
随着大数据信息时代的到来和多媒体技术的广泛采用,互联网上产生了海量的文本和图像数据。百度、谷歌等搜索引擎公司每天接受30亿条信息搜索请求,图片交互共享网站Flicker目前的图片容量接近6亿,国内大型商务购物软件淘宝拥有近乎300亿的图像数量[1]。传统的单模态检索方法只能检索单一的目标数据,已难以满足当前大数据时代检索的需求,而跨模态检索能够为一个主题检索提供多种形式的数据,往往能够为检索的用户提供对数据更好的理解。
跨模态检索是指输入一种模态的查询图,返回其他模态的检索结果,例如以文搜图,以图搜文,以声搜图,以声搜文等,需要综合考虑文本、图像、声音等多种多媒体因素的信息 [2]。跨模态检索在实际应用中具有广泛的价值,拓展了信息检索的研究内容,开辟了新的检索课题研究。本毕业设计以文本图像的跨模态检索为研究内容,研究基于哈希的以图搜文以及以文搜图的跨模态检索算法,设计基于哈希的跨模态检索系统。
国内外研究现状
近年来,哈希检索算法在计算机视觉及多媒体分析领域得到了广泛关注,按照训练数据是否为多模态分为单模态哈希检索和多模态哈希检索。本章主要介绍国内外基于单模态哈希检索和多模态哈希检索的研究现状[3]。
单模态图像检索研究现状
基于文本的图像检索是单模态检索发展以来比较传统的检索方式,目前已应用了50余年。在基于文本的图像检索中,需要人工对图片标记特征,利用文本的关键字匹配数据库中的图像,并进 *景先生毕设|www.jxszl.com +Q: #351916072
行语义识别,于是又称为“以文搜图”的方法。这种方法实现比较简单,准确率也比较高,但对文本的描述有限,存在描述的局限性和人为建立关键字的主观性等缺点。
基于内容的图像检索是指通过计算机对图像的特征进行自动概括和分析,从而提取图像的特征,并将提取的特征以向量的形式输入到数据库中。常见的基于内容的图像检索流程如图21所示。基于内容的图像检索根据特征相似度查询结果,又称为“以图搜图”。
传统的图像检索算法性能依赖于手动提取的特征,受限于手工特征对图像表达的不足以及不同的哈希函数对特征取样产生的误差,引入深度哈希方法能够更好的学习图像的特征及生成哈希码。深度学习算法的学习能力十分强大,通过哈希学习与深度学习方法结合可以更好的实现检索的性能。2014年,Xia等人[4]提出了与卷积神经网络结合的CNNH方法,2015年,Lai等人[5]提出了与深度神经网络结合的NINH方法,同年,Zhao等人提出了DSRH和DRSCH的方法,同样是2015年,Li等人[7]提出了DPSH的方法,2017年,Li等人[15]把深度学习和哈希学习集成起来,提出了DCMH的方法。
图1 单模态哈希图像检索基本流程
跨模态检索研究现状
与单模态哈希检索不同,多模态哈希检索主要研究不同视角数据之间的相似性度量。多模态哈希检索具体又分为多源哈希(MultiSource Hashing)和跨模态哈希(CrossModal Hashing)。多源哈希和跨模态哈希的主要区别是在多模态检索中,查询的数据和检索的数据必须至少保持有一个相同的模态,本毕业设计主要研究跨模态哈希的检索算法。图2是跨模态检索的示意图。
图2 跨模态检索示意图[2]
分别以文本检索图像、音频和视频
或者以音频检索文本、图像和视频
论文结构安排及主要内容
结构安排
第一章是绪论。首先对本次毕业设计的研究背景和意义进行介绍,并指出了大数据背景下跨模态检索的重要性。接下来从单模态和多模态两个方面介绍了哈希检索算法的国内外研究现状,并对跨模态检索技术成果做了比较详细的总结。最后,对本次毕业设计研究的内容进行了简要的总结和对本论文的机构安排进行了简单的概括。
第二章是跨模态检索技术方法。首先简单介绍了本毕业设计使用的哈希方法,其次对传统的跨模态检索方法做了介绍,其中详细介绍了本毕业设计使用的两种基准算法。最后,对本毕业设计使用的基于深度学习的哈希检索算法做了详细介绍,尤其是对深度学习框架、卷积神经网络算法和本毕业设计使用的DCMH算法的原理和实现环节。
第三章是实验结果与分析。这章对本毕业设计采用的数据集、基准方法和评价指标做了一个详细的介绍,并通过实验验证了DCMH算法的性能。在实验分析部分,通过系统演示和与基准算法对比,进一步展示了DCMH算法的检索效率和精度。
第四章是总结与展望。这章对本毕业设计做了全方面的总结,并指出本毕业设计中的不足,表达了之后对后续工作的展望。
研究内容及成果
本文基于哈希方法的跨模态检索方法展开研究,着重对以下几个部分展开了工作并完成了一定成果:
构建本毕业设计用到的跨模态数据集MIRFLICKR25K和NUSWIDE,转换数据格式并设置为数字矩阵形式,最后划分数据集为训练集和测试集。;
通过与基准算法的对比实验,验证了DCMH算法在MAP、PR曲线、Fmeasure等评价指标下具有更好的性能。
设计并构建了基于哈希的跨模态检索系统,对系统进行图形界面可视化,能够形象的演示DCMH算法与基准算法在不同数据集下的检索效率和精度。
本章小结
本章结合数字时代的发展趋势和日益增长的跨模态检索需求,对跨模态检索的研究背景和意义进行了介绍。此外,本章紧接着多模态的角度介绍了国内外哈希检索方法的研究现状,尤其对多模态中的跨模态检索算法进行了详细介绍。最后介绍了本文的结构安排和本毕业设计的研究内容与成果。

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/563908.html