密度聚类算法在文本挖掘中的应用研究【字数:13290】
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1 绪论 1
1.1 研究背景 1
1.2 研究现状 2
1.3 研究的目的和内容 2
2 开发平台及应用技术 2
2.1 PyCharm 2
2.2 PyQt5 2
2.3 使用的Python库 3
2.3.1 Matplotlib库 3
2.3.2 Requests库 3
2.3.3 Re模块 3
3 文本挖掘 3
3.1 文本挖掘概念 3
3.2 文本聚类 3
3.3 文本聚类的关键技术 3
3.3.1 数据收集 3
3.3.2 中文分词和停用词引入 4
3.3.3 向量模型化 4
4 密度聚类 4
4.1 聚类和密度聚类概念 4
4.1.1 聚类 4
4.1.2 密度聚类 5
4.2 DBSCAN 5
4.2.1 基本概念 5
4.2.2 算法思想 7
4.2.3 算法描述 8
4.3 OPTICS 9
4.3.1 基本概念 9
4.3.2 算法思想 9
4.3.3 算法描述 10
4.4 CFSFDP 11
4.4.1 基本概念 11
4.4.2 算法思想 12
4.4.3 算 *51今日免费论文网|www.jxszl.com +Q: *351916072*
法描述 13
4.5 聚类性能度量指标 13
5 实验与分析 15
5.1 基于标准数据集的算法运行结果 15
5.1.1 数据集的原始数据分布图 15
5.1.2 参数对算法的影响 15
5.2 基于文本数据集的算法运行结果 22
5.2.1 文本数据集基本信息 22
5.2.2 输入数据对算法的影响 22
6 系统的设计与实现 24
6.1 系统设计原理 24
6.2 系统展示 25
6.2.1 选择界面 25
6.2.2 创建项目界面 25
6.2.3 算法检测界面 26
6.2.4 打开项目界面 26
7 总结 27
致谢 27
参考文献 29
密度聚类算法在文本挖掘中的应用研究
引言
数据挖掘是当前IT界研究的热点之一,文本挖掘属于数据挖掘领域的一项重要分支,而文本聚类则属于文本挖掘的一项重要应用[1]。聚类算法有很多,这些算法各有所长,所以本次实验研究不同的密度聚类算法以及其在文本挖掘中的应用。
1 绪论
1.1 研究背景
自1995年“数据挖掘”一词正式被提出至今,它已经发展成熟,各种算法被提出,应用范围也越来越广[2]。尤其是随着IT技术被引入生活的各个角落后,全球每天产生数据信息的速度越来越快,几年前曾出现过一个形象的描述,它把互联网一天中产生的数据等量成1.68亿张DVD和相当于《时代》杂志770年的文字量。而如今,互联网每天产生的信息量只多不少,而这其中,文本数据占有重要部分。如何应用这些数据,直到现在仍然是一个热点问题。聚类作为数据挖掘应用最广泛的技术之一,算法之间的优劣以及特点的研究具有重要意义,这样才能在选择算法时有依据。
1.2 研究现状
密度聚类算法算是聚类算法中应用较广的算法类别,因为它可以识别任意形状的簇,对于分布不均匀或分布范围呈类圆形的簇表现较好。正是由于基于密度的聚类适用性广,所以关于密度聚类的研究也很多。
根据对密度定义的不同对密度聚类算法又可以进行细分:即基于中心的密度算法、基于网格的密度算法、基于密度函数的算法等,除此之外,还有为改进算法而与其他方法综合的算法。根据中心来定义簇的密度的方式是传统的定义密度的方式。这一类别中有一个十分经典的算法,即DBSCAN(DensityBased Spatial Clustering of Applications with Noise),这个算法是由Ester M.等学者在1996年提出的[3]。尽管该算法简单有效,但是DBSCAN不善于解决高维数据,且对于数据量大的数据DBSCAN的开销也很大。所以,国内外许多学者都基于这一算法进行改进,提出许多新的算法。基于密度的聚类算法的又一较经典算法OPTICS(Ordering Points To Identify the Clustering Structure)的基础就是DBSCAN,它是由Ankerst等学者于1999年提出的[4]。除此外,DBSCAN算法的提出者之一Ester M.和Xu X.之后又提出了DBCLASD(Distribution Based Clustering of Large Spatial Databases),与需要两个输入参数的DBSCAN不同,DBCLASD不需要输入任何参数,这一改进克服了因为数据量大致使DBSCAN可能无法为其提供两个参数的缺点,但是DBCLASD算法的速度相比于DBSCAN慢。J.Org Sander ,Martion Ester提出了空间聚类算法GDBSCAN,它是用于对多维空间数据库进行聚类的算法。陈治平和王雷提出了基于密度梯度的聚类算法,这个算法通过分析样本点和其范围内的点密度变化情况,沿密度变化大的方向寻找不动点来获取聚类中心,随后对边界点分布进行分析完成对类的合并。
原文链接:http://www.jxszl.com/jsj/jsjkxyjs/563925.html