密度聚类算法在文本挖掘中的应用研究【字数：13290】

2024-02-25 16:56编辑: www.jxszl.com景先生毕设

文本挖掘指通过对大量的原始数据进行处理和分析，由此得到潜在的数据信息和价值等。文本聚类是文本挖掘领域域的一项重要应用。本文首先简要介绍了本文的研究背景、研究现状、内容和目的，然后对文本挖掘、文本聚类的概念进行介绍，着重介绍文本挖掘的关键技术，接着对密度聚类的概念进行介绍，着重介绍三种经典算法概念和代码实现。将这三种算法分别应用于标准数据集和文本挖掘中并得到处理结果，最后通过判定指标，对其进行结果分析，从而对比和分析三种聚类算法的应用效果。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1 绪论 1
1.1 研究背景 1
1.2 研究现状 2
1.3 研究的目的和内容 2
2 开发平台及应用技术 2
2.1 PyCharm 2
2.2 PyQt5 2
2.3 使用的Python库 3
2.3.1 Matplotlib库 3
2.3.2 Requests库 3
2.3.3 Re模块 3
3 文本挖掘 3
3.1 文本挖掘概念 3
3.2 文本聚类 3
3.3 文本聚类的关键技术 3
3.3.1 数据收集 3
3.3.2 中文分词和停用词引入 4
3.3.3 向量模型化 4
4 密度聚类 4
4.1 聚类和密度聚类概念 4
4.1.1 聚类 4
4.1.2 密度聚类 5
4.2 DBSCAN 5
4.2.1 基本概念 5
4.2.2 算法思想 7
4.2.3 算法描述 8
4.3 OPTICS 9
4.3.1 基本概念 9
4.3.2 算法思想 9
4.3.3 算法描述 10
4.4 CFSFDP 11
4.4.1 基本概念 11
4.4.2 算法思想 12
4.4.3 算 *51今日免费论文网|www.jxszl.com +Q: *351916072*
法描述 13
4.5 聚类性能度量指标 13
5 实验与分析 15
5.1 基于标准数据集的算法运行结果 15
5.1.1 数据集的原始数据分布图 15
5.1.2 参数对算法的影响 15
5.2 基于文本数据集的算法运行结果 22
5.2.1 文本数据集基本信息 22
5.2.2 输入数据对算法的影响 22
6 系统的设计与实现 24
6.1 系统设计原理 24
6.2 系统展示 25
6.2.1 选择界面 25
6.2.2 创建项目界面 25
6.2.3 算法检测界面 26
6.2.4 打开项目界面 26
7 总结 27
致谢 27
参考文献 29
密度聚类算法在文本挖掘中的应用研究
引言
数据挖掘是当前IT界研究的热点之一，文本挖掘属于数据挖掘领域的一项重要分支，而文本聚类则属于文本挖掘的一项重要应用[1]。聚类算法有很多，这些算法各有所长，所以本次实验研究不同的密度聚类算法以及其在文本挖掘中的应用。
1 绪论
1.1 研究背景
自1995年“数据挖掘”一词正式被提出至今，它已经发展成熟，各种算法被提出,应用范围也越来越广[2]。尤其是随着IT技术被引入生活的各个角落后，全球每天产生数据信息的速度越来越快，几年前曾出现过一个形象的描述，它把互联网一天中产生的数据等量成1.68亿张DVD和相当于《时代》杂志770年的文字量。而如今，互联网每天产生的信息量只多不少，而这其中，文本数据占有重要部分。如何应用这些数据，直到现在仍然是一个热点问题。聚类作为数据挖掘应用最广泛的技术之一，算法之间的优劣以及特点的研究具有重要意义，这样才能在选择算法时有依据。
1.2 研究现状
密度聚类算法算是聚类算法中应用较广的算法类别，因为它可以识别任意形状的簇，对于分布不均匀或分布范围呈类圆形的簇表现较好。正是由于基于密度的聚类适用性广，所以关于密度聚类的研究也很多。
根据对密度定义的不同对密度聚类算法又可以进行细分：即基于中心的密度算法、基于网格的密度算法、基于密度函数的算法等，除此之外，还有为改进算法而与其他方法综合的算法。根据中心来定义簇的密度的方式是传统的定义密度的方式。这一类别中有一个十分经典的算法，即DBSCAN（DensityBased Spatial Clustering of Applications with Noise），这个算法是由Ester M.等学者在1996年提出的[3]。尽管该算法简单有效，但是DBSCAN不善于解决高维数据，且对于数据量大的数据DBSCAN的开销也很大。所以，国内外许多学者都基于这一算法进行改进，提出许多新的算法。基于密度的聚类算法的又一较经典算法OPTICS（Ordering Points To Identify the Clustering Structure）的基础就是DBSCAN，它是由Ankerst等学者于1999年提出的[4]。除此外，DBSCAN算法的提出者之一Ester M.和Xu X.之后又提出了DBCLASD（Distribution Based Clustering of Large Spatial Databases），与需要两个输入参数的DBSCAN不同，DBCLASD不需要输入任何参数，这一改进克服了因为数据量大致使DBSCAN可能无法为其提供两个参数的缺点，但是DBCLASD算法的速度相比于DBSCAN慢。J.Org Sander ,Martion Ester提出了空间聚类算法GDBSCAN，它是用于对多维空间数据库进行聚类的算法。陈治平和王雷提出了基于密度梯度的聚类算法，这个算法通过分析样本点和其范围内的点密度变化情况，沿密度变化大的方向寻找不动点来获取聚类中心，随后对边界点分布进行分析完成对类的合并。

原文链接：http://www.jxszl.com/jsj/jsjkxyjs/563925.html

"景先生毕设|www.jxszl.com

密度聚类算法在文本挖掘中的应用研究【字数：13290】

查看完整版论文请

扫码加QQ

扫码加微信

在线客服

[QQ:351916072]