"景先生毕设|www.jxszl.com

基于网络招聘信息的分类算法及分析【字数:10546】

2024-11-03 10:15编辑: www.jxszl.com景先生毕设

目录
摘要 II
ABSTRCT III
1 数据预处理 3
1.1 数据基本情况描述 3
1.2 文本预处理 3
1.2.1 属性数值化 3
1.2.2 jieba中文分词工具介绍 5
1.3 文本特征抽取 5
1.3.1 TFIDF算法(词频—逆向文档频率)原理 5
1.3.2 代码 6
1.3.3 结果分析 6
2 算法原理及代码运行结果 7
2.1 文本聚类 7
2.1.1 文本相似度计算 7
2.1.2 文本聚类 7
2.2 Kmeans聚类算法 7
2.2.1 Kmeans算法原理 7
2.2.2 代码 8
2.2.3 代码运行结果 9
2.3 KNN经典算法 10
2.3.1 KNN经典算法原理 11
2.3.2 代码 11
2.3.3 结果分析 13
2.4 支持向量机分类 13
2.4.1 SVM分类算法原理 13
2.4.2 代码 15
2.4.3 结果分析 15
2.5 随机森林分类算法 15
2.5.1 随机森林分类算法原理 15
2.5.2 代码 16
2.5.3 结果分析 17
3 不同的算法对比分析 17
参考文献 18
基于网络招聘信息的分类算法及分析
摘要
这几年的时间里一些网站已经成为了重要的招聘信息发布平台,对于招聘者与求职者来说,网络信息都是重要的渠道来源。本文将运用文本分类及数据挖掘技术对原始网络招聘数据进行研究。
首先基于数据挖掘技术,对原始5万多条求职者原始数据进行了信息挖掘,进行数据预处理,属性数值化后,抽取需要的部分数据进行聚类分析。
数据预处理部分的代码使用Python书写,先进行文本预处理,并且对其中的部分数据进行属性数值化。通过python中自带的 *51今日免费论文网|www.51jrft.com +Q: *351916072
jieba中文分词工具对原始数据中的文本部分进行分词,随后尝试着通过TFIDF算法计算关键词权重,希望能以此为依据提取关键词。并且通过计算职位优势方面的TFIDF权重,分析了职位优势中各个情况各自的重要程度。
随后采用Kmeans算法对挑选出来的部分数据(工作类型)进行分类,通过数据预处理部分的先验结果尝试给定k值,并且同时使用R语言中自带的Kmeans包与改良自定义Kmeans函数来对数据进行聚类,并对聚类结果进行了分析。
使用KNN算法、SVM算法、随机森林算法对薪水数据与教育程度的关系进行了分类,并且对比同样数据下不同算法得出的结果,分析各个算法的优劣程度及在此数据集适用程度。
引言
(1)使用Kmeans算法聚类时,分别使用R语言自带的Kmeans包和改良的自定义函数对于工作类型的预处理数据进行聚类,对比两个函数的聚类效果。
(2)在完成预处理后的数据中抽取薪水和教育程度两列数据,重新分类处理作为一个数据集。用KNN算法、SVM算法、随机森林算法分别对此数据集进行分类,根据分析结果,计算误差率,对比不同的算法对于这组数据的分析结果。
流程图(图1)
flow chart (Figure 1)

随着网络技术的突飞猛进,大量网络数据不断产生,分类和聚类作为当下数据挖掘中最实用的技术之一,已经得到了广泛应用。目前常用的算法有决策树,人工神经网络,SVM,Bayes,KNN等。1991年,W.Aha,Dennis Kibler等[1]总结了基于实例的学习算法,其中最常用且基础的KNN算法具有无监督,无参数,简单且容易实现的特点,针对其缺点,目前提出了很多种改进算法。2016年周庆平[2]等提出了一种基于搜索改进的KNN文本分类算法;苏毅娟等[3]给出了大数据情况下快速分类的方法。2018年殷亚博,杨文忠等人[4]提出了基于聚类改进的KNN算法;肖绍武[5]提出了基于中心抽样的KNN算法,旨在提高运行效率。2019年王志华等[6]提出了结合Kmodes算法和KNN算法的创新算法。而Kmeans算法则是一种简单有效的聚类算法,2000年熊志华等[7]通过Kmeans算法聚类利用多神经网络建立了一个非线性软测量模型;2004年,Chris Ding等[8]则对主成分分析的Kmeans聚类算法进行了研究。同样Kmeans算法也有一些改进算法,2008年,Krista Rizman Zailk[9]提出了一种基于模型字母识别的高效Kmeans算法,2016年高见文等[10]提出了一个迭代式模型;2018年柏宇轩[11]则着重讨论了特征值的选取问题。而关于文本聚类的问题,2016年,刘红光等[12]给出了当下主流机器学习文本分类算法综述。2011年,丁世飞,齐丙娟,谭红艳[13]写出了支持向量机理论与算法研究的综述。2019年,吕红燕,冯倩[14]给出了关于随机森林算法的研究综述。2020年,石凤贵[15]介绍了基于TFIDF算法的中文文本分类实现算法,并且根据数据给出了python实现例子。另外,2005年,张宁,贾自艳,史忠植[16]在文本分类中使用了KNN算法。
1 数据预处理

原文链接:http://www.jxszl.com/jsj/sxtj/606741.html