基于遗传算法的改进xgboost模型的股票收益率预测模型分析【字数:8924】
目录
摘要1
关键词1
Abstract1
Key words1
引言1
一、数据来源与样本选择2
(一)数据来源与描述2
(二)训练集、测试集划分3
二、模型构建3
(一)遗传算法优化模型3
1.遗传算法理论3
2.遗传算法的基本工作原理3
(二)XGBoost预测模型4
1.XGBoost模型基础理论4
2.XGBoost模型算法原理4
三、预测方法及思路4
(一)预测效果评估指标构建4
1.传统预测效果评估4
2.AUC值评估分析4
(二)预测分析思路5
四、实证研究6
(一)数据预处理6
1.数据归一化处理6
2.连续属性数据离散化6
(二)基于遗传算法优化前后的XGBoost预测结果对比分析6
五、结论及政策建议8
致谢8
参考文献9
基于遗传算法改进 XGBoost 模型股票收益率预测模型分析
引言
引言
在经济模型和股票价格预测方面,国内外的学者使用了各种各样的方法进行建模,试图分析其中的规律,且有关于金融市场的价格模型预测一直是国内外金融领域持续关注的问题。
在模型预测方法上 *51今日免费论文网|www.51jrft.com +Q: ^351916072#
可简单分为两种:线性预测模型和非线性预测模型,现阶段最流行的机器学习预测模型大多数都是通过非线性预测模型进行分析。苏治等(2017)通过对已有文献的总结,证明机器学习已成为金融以及经济领域的应用前沿,应用领域多集中在预测金融市场价格走势、提升交易策略等方面。机器学习包括深度神经网络学习、深度信念网络等结构。通过层次结构分别提取深层特征信息,强化关键因素,滤除噪声,对提高预测的精确度具有重大意义;它的应用以及其衍生的优化技术,提高了预测分析方法在金融领域的应用,推动实证研究范式从线性向非线性转变,对金融经济理论做出了较大贡献。
在机器学习预测模型的建立过程中,首先需要考虑的就是因子的选择。从已有研究来看,众多学者对因子的选取以及因子的有效性检验方面的研究上有较为深度的研究并且有部分学者将之运用于股市且取得了较佳的收益。梅世强,王天阳(2014)根据20082013年沪深两市A股市场上市公司财务报告数据,选取公司每股收益、每股净现金流量、每股净资产三个指标作为代表性指标,并运用皮尔逊系数和回归模型分析了三个指标对未来股价的预测能力。通过实证研究发现,每股净资产的稳定性最高,每股收益指数对股价的影响次之,每股净现金流量对股价的预测能力逐年增强。徐景昭(2017)利用20112015年沪深300只股票的数据,对每只股票的相应的因子收益率进行时间序列回归,对β值在5%的显著性水平下的因子进行t检验,然后根据通过t检验的四个有效因子,构建多因子模型,获得了较高的超额收益。林焰和杨建辉(2017)提出一种SVM模型与径向基结合的混合神经网络预测模型来预测股指期货价格的变化区间。结果表明,该预测模型能够准确预测股指期货的价格区间和走势,具有良好的拟合和泛化能力。机器学习除了在金融市场上对价格进行预测,还可以对风险进行预测。孟生旺(2012)以一组车险损失的实际数据为基础,将广义线性模型与神经网络模型、回归树模型进行比较分析,得出神经网络模型的拟合效果最好,线性回归模型的预测结果最差,回归树模型较神经网络模型预测结果次之的结论。
使用机器学习模型进行预测研究时,同样需要考虑研究的目标市场选择,沪深300(HS300) 指数有着良好的市场反馈和投资者一致好评,HS300 是一种强调投资性和交易性的指数,其盈利能力比较突出,其成分股估值价值相对A股市场的平均水平来说比较低,并且在某种程度上反映了机构投资方向,不太容易收到庄家操作的影响。潘和平和张承钊(2018)通过研究金融时间序列自适应组合预测模型(FEPA)预测沪深300股指价格和澳大利亚股指价格,实证结果表明他们的FEPA 模型在沪深300股指15分钟线和日线上的预测准确率分别达到了78%和82%。时曦(2012)通过建立ARIMA模型和ARIMAX模型, 以我国HS300指数为研究对象。在准确识别的基础上, 实证检验了我国HS300指数的日内指数现货价格序列。将指数期货价格信息反映到现货价格的预测过程中, 同时与ARIMA模型作比较。研究发现, 期货价格信息可以更好地预测现货指数价格。由于沪深300成分股是经过严格筛选的优质股,所以有部分学者还利用沪深300指数的成分股进行量化交易,吕凯晨等(2019)以沪深300指数成分股为股票池,引入支持向量分类算法展开技术分析指导买入卖出时机。20152017年,该模型累计收益率达到73.03%,年收益率达到20.05%,远远超过同期沪深300指数的表现。
遗传算法提供了一种优化模型参数的通用求解框架,相较于网格参数优化,其在数量级较大的参数优化上有很强的优势,因此被广泛用于数据挖掘、图像识别等领域。现在也越来越多应用在机器学习领域。在遗传算法的优化问题上众多学者也通过研究表明其优化能力较强,优化后的精度较原模型增加。张一凡等(2018)通过研究绿色金融评估得分与影响因素之间的复杂非线性关系,采用遗传算法优化的神经网络模型对广东省21个城市2011年和2016年的绿色金融发展水平进行了实证分析。研究结果表明,经过遗传算法优化后的神经网络模型预测误差较小,对各市的绿色金融发展状况的预测更加准确。王雪标,张奇松和王雪标(2018)提出了一种基于动态概率和层次机制的改进遗传算法来估计样条函数的边界结点。结果表明,基于改进遗传算法的样条函数可以很好的预测出利率期限结构,无论是在内部样本模型估计还是外部样本模型预测,都远优于基于市场经验的利率期限结构估计。张丽娟和张文勇(2018)在传统的混合神经网络期权定价模型中,用Heston模型代替BS模型。利用BP神经网络对实际市场期权价格与Heston模型期权价格之间的差异进行拟合。采用遗传算法对整个神经网络进行优化。建立了基于Heston模型和遗传算法的混合神经网络期权定价模型。对香港恒生指数期权和上证50ETF期权进行了首次模拟检验,结果表明,该模型比BS神经网络模型和其他传统定价模型更为准确。吴栩和王雪飞(2016)利用遗传算法求解移动平均策略的最优步长组合。在样本数据的基础上,通过20个独立的遗传算法实验,得到了收益性强的步长参数组合。赵健(2010)在改进遗传算法BP神经网络模型的基础上,以我国8只权证1050日数据、标的股票1900日数据等所需数据为训练数据,对训练网络进行了研究。结果表明,神经网络在权证定价中的效果优于BS模型,而RBF模型的精度优于BP模型,遗传算法优化的BP模型的精度优于RBF模型。
原文链接:http://www.jxszl.com/jmgl/jjymy/606765.html