"景先生毕设|www.jxszl.com

基于主成分分析方法对数据进行数据挖掘【字数:10133】

2024-11-03 10:14编辑: www.jxszl.com景先生毕设

目录
摘 要 III
关键词 III
ABSTRACT IV
KEY WORDS IV
引言 1
1 主成分分析原理 1
1.1 主成分分析基本原理 1
1.2 主成分分析法步骤 1
1.2.1 标准化原有数据集 2
1.2.2 计算相关系数矩阵R 2
1.2.3 计算特征值 2
1.2.4 求各主成分的贡献率及其累计贡献率 2
1.2.5 提取主成分 3
1.2.6 计算载荷及得分 3
1.2.7 得出结果并分析 3
1.3 改进主成分分析 3
2 数据来源及数据清洗 4
2.1 数据来源 4
2.1.1 分析原始数据 5
2.2 对原始数据进行数据清洗 5
2.2.1 处理缺失值 5
2.3 利用caret包进行数据预处理 6
2.3.1 caret包原理及应用 6
2.3.2 caret包进行数据预处理 6
3 结果与分析 6
3.1 进行特征选择 6
3.2 主成分分析 8
3.3 改进主成分分析 10
3.3.1 对影响因子加权后主成分分析 10
3.3.2 稀疏主成分分析 11
3.4 比较分析 12
4 结论 13
致谢 13
参考文献: 14
附录 15
基于主成分分析方法对数据进行数据挖掘
摘 要
本文通过运用主成分分析方法原理,对上市公司是否实施“高送转”方案建立模型,并利用BP神经网络算法对测试集进行预测,从中选择错判率最低的模型。首先,利用caret包对原始数据进行了数据清洗和特征选择,从中提取了模型预测精度高的10个影响因子。然后,对提取的10个影响因子进行主成分分析,提取前四个主成分作为新的影响因子来建立模型。针对传统主成分的缺陷(无法体现影响因 *51今日免费论文网|www.51jrft.com +Q: ^351916072
子重要程度及主成分无法用文字解释)提出了两种优化改进主成分分析的方法:一种是对影响因子分别加w1= 0.1369863,w2= 0.13013699,w3=0.11986301,w4= 0.1130137,w5= 0.10958904,w6= 0.10273973,w7=0.09246575,w8= 0.0890411,w9= 0.05479452,w10= 0.05136986的权重,使影响因子的重要程度得以体现;一种是使主成分稀疏化,即稀疏主成分分析法,使主成分能够很好的解释,新的影响因子可以定义为负债因子、成长因子、收益因子、投资因子。最后,对这三种算法提取到的主成分分别作为BP神经网络的输入建立PCABP神经网络模型、加权PCABP神经网络模型和SPCABP神经网络模型,对数据进行数据挖掘。从测试集得到的预测值的错判率来看,两种优化主成分分析的方法都可以降低错判率,但加权PCABP神经网络模型的错判率最低,取得了很好的效果,更加适用于上市公司是否“高送转”举措的判断,可以对上市公司决策者和投资者提供一定的帮助。
引言
股票市场瞬息万变,一个小小的决策都可能会对股票市场造成很大的影响,股票价格也是起起伏伏,股票价格的波动牵动着企业和投资人的心,影响股价变化的要素很多,如何根据所获得的信息对股票市场做预测是很多学者一直在研究的问题。上市公司所做的每一个决定都取决于很多因素,随着互联网技术的飞速发展,产生了越来越多的数据,数据的维数由简单的二维变成多维,从多维数据中获取、挖掘主要信息的难度逐渐增大。生物、农业、及金融等各个行业都离不开信息的提取、挖掘。主成分分析(Principle component analysis, PCA)方法是通过正交变换,将多维变量之间存在相互关系的变量,根据特征值大小是否大于一或方差累计贡献率是否大于85%的原则,将多变量问题转化为少数几个互不相关的变量问题,得到的新变量包含着原始数据的大多数信息,从而达到降低原始数据的维数,减少计算量,使问题简单化的目的。
1 主成分分析原理
1.1 主成分分析基本原理
主成分分析法是一种经常使用的对数据维数进行削减的方法。为了达到减少变量的个数,减弱各变量之间的关联性,提高计算的效率和准确率的目的,主成分分析法通过保留原始数据最大方差的方式来实现获取原始数据大部分信息以及降低原始数据维度这一目的[1],其中得到的新的不相关的新变量称之为主成分。PCA算法得到的主成分按方差的大小不同依次排序,所有主成分中方差最大的主成分被称为第一主成分。若第一主成分能够代表原始数据的绝大部分信息量(即85%的信息量),则原始数据的变量维数降为一维;否则就需要第二主成分,第二主成分的方差次之,同时第二主成分与第一主成分之间信息不会有重叠,即相互间没有相关关系,同样对第二主成分作上述判断。依次对剩余主成分作判断,直到加入的所有主成分的特征值大小都大于一,或能够表示绝大部分原始数据特征信息(即主成分累计贡献率达到85%以上)为止。
主成分分析法本质是一种数据转换,不论数据结构形式是什么样的,其关注点在从原始变量到主成分的转换上。
设有n个研究对象,p为影响因子的数目,每个研究对象都有p个影响因子,xij为第i个研究对象第j个影响因子的数值。原始影响因子数据矩阵表示为:
????
????????
=
????

原文链接:http://www.jxszl.com/jsj/sxtj/606727.html