残差卷积神经网络在图像识别中的应用(附件)【字数:9180】
目 录
第一章 绪论 1
1.1课题研究的背景和意义 1
1.2计算机视觉的研究现状 1
1.3算法简介 2
1.3.1 LeNet5 2
1.3.2 AlexNet 2
1.3.3 VGG模型 3
1.3.4第一代Inception模型 3
1.3.5第二代Inception模型 3
1.3.6第三代Inception模型 3
1.3.7 ResNet 3
1.4内容安排 3
第二章 开发环境 5
2.1Anaconda 5
2.2TensorFlow 5
2.3Spyder 6
2.4Python 6
第三章 基于残差卷积神经网络的图像识别 7
3.1残差卷积神经网络模型 7
3.1.1残差层 7
3.1.2卷积层 8
3.1.3池化层 8
3.1.4全连接层 9
3.2残差卷积神经网络原理推导 9
第四章 算法的实现 11
4.1实 *51今日免费论文网|www.jxszl.com +Q: *351916072*
验的网络结构 11
4.2编程环境 11
4.3实验代码 11
4.4实验 13
4.4.1 Batch的对比实验 14
4.4.2 样本数的对比实验 15
4.4.3 学习率的对比实验 15
4.4.4 GPU的对比实验 16
结束语 18
致谢 19
参考文献 20
第一章 绪论
1.1课题研究的背景和意义
计算机的出现,源于对资本的追逐。相对于高昂的人力,不知疲倦的计算机明显更为优秀。计算机目前可以凭借着超高速的运算速度和巨大的存储空间轻松解决许多对人类而言相对困难的工作。然而,对于一些基于人类思维的问题,目前却很难被计算机解决,这些正是人工智能所涉及的方面。
计算机存储着人类大部分的知识,行为与性格,拥有大量包括各个方面的数据,却依旧无法像人类一样去学习。比如Google公司的无人驾驶,对于障碍物的判别,我很难想象一个清醒的成年人会出错,但是机器却难免不发生意外。路有水泥的、沥青的、也有石子的甚至土路。这些不同材质铺成的路在计算机看来差距非常小。如何让计算机掌握这些人类看起来非常直观的常识,对于人工智能的发展来说是一个巨大的挑战。
近年来,由于不断提升的计算性能和爆炸式增长的网络数据[1],使得大数据分析受到多方关注。与此同时,由于深度学习方法的发展,计算机视觉取得了重大突破。
人们对已有的机器学习框架结构进行改良或改革,每年都有数以万计的模型产生。这些新型神经网络模型的创新方法可谓是五花八门,但同时有些又保留着经典神经网络结构的特点与精髓。这些变化使得这些网络在某些分支领域或者场景下表现的更为出色。以CNN这一基础网络为例:深度残差网络(Deep Residual Network[2])是其近年新兴的变种之一,它本身具有高度非线性的特点,再加之其通过不断叠加非线性函数,使得整个网络的表达能力都随之增强,进而可以表达复杂的流行空间。因此达到在某些领域突出的表现效果。
深度是深度网络很重要的一个参数,网络性能的提升往往是受网络深度提升的影响[3]。当然,随着网络的加深,训练难度也会提升,这使得深度学习的学习效果从大程度上受到了影响。有一种情况就是:网络层数到达一定数量之后,如果再继续增加网络的深度,反而会令其性能开始出现退化。通过输出中间过程研究发现,训练精度下降,从而判定网络并未过拟合(过拟合精度上升),整个网络收敛困难,逐层训练求最优解对此也不能有效解决这一问题(局部最优并非整体最优,具有后效性)。无法提升深度,网络性能便被限制。
ResNet的出现解决了这一问题,它将多个网络进行组合。解决方案如下,通过使用一个准确率达到饱和的浅层网络,将其结果输出给全等映射层,多层循环嵌套,即使是更深度的网络也是如此构成。而有了全等映射层之后,层数的加深不会带来误差值的提高。由此可见,ResNet及其思想对卷积神经网络的研究有着里程碑式的影响,具有很强的推广性,对其展开研究非常有意义。
1.2计算机视觉的研究现状
由于深度学习的助力,计算机视觉目前是一个飞速发展的领域,深度学习和计算机视觉可以帮助汽车查明周围的行人和汽车,并帮助汽车去避开他们,还使得人脸识别技术变得更加效率和准确。计算机的高速发展标志着新型应用产生的可能,这是几年前人们所不敢想的,其次,人们对于计算机视觉的研究富有想象力和创造力,由此衍生出新的神经网络结构与算法启迪人们创造出计算机视觉与其他领域的交叉成果。
深度学习的流行,给计算机视觉带来了新的活力,多种模型的建立使得计算机视觉收获了巨大的成功。目前,常用的模型有LeNet,AlexNet[4],LSTM[5],RCNN,YOLO,SSD等 ,我们根据这些模型,大体上将计算机视觉分为三类,文字识别,图像处理以及物体识别。其中文字识别,开始年代最早,从1950年起,就有人对此进行了研究,目前已广泛运用,例如手写体识别,及各种输入法的手写模式,办公文档的orc,汉王手写板,手机app的白描等都是文字识别的具体应用。之后,人们将图像识别应用于图像处理方面,例如对图像空间的解析,对图片的降噪,遥感图像的处理与识别的,美颜相机,甚至包括华为的NPU等等不甚枚举。之后,人们的要求进一步提升,对计算机视觉进行了研究,使得计算机能够识别某些物体,国内常见的有形色(植物识别),百度搜图,人脸识别等,为人类的生活提供了不少便利。
计算机视觉是在试图学习一个非常复杂的功能,通常我们没有足够的数据来满足我们的需要,所以计算机视觉更多的依赖于手工工程。这也是计算机视觉发展领域,相当复杂的网络架构的原因,因为在缺乏数据的情况下,获得良好的表现方式还是花更多的时间进行架构设计。当数据不足时,手工工程是一项非常困难的事情,它需要极高的技巧与洞察力,更多的依赖于专业的人士,这也就是为什么会在计算机视觉中看到非常复杂的超参数选择。
原文链接:http://www.jxszl.com/jsj/qrs/442965.html