新浪微博人脉网络数据挖掘算法的分析与比较
目录
摘要 1
关键词 1
Abstract 1
Keywords 1
引言 1
1 绪论 2
1.1 研究背景及意义 2
1.2 研究现状 2
1.3 研究内容 3
2 新浪微博数据获取 3
2.1 基于新浪自带API获取 3
2.2 基于网络爬虫获取 4
2.2.1 模拟登陆 4
2.2.2 页码获取与处理 5
2.2.3 使用环境和遇到的问题 5
2.2.4 其他方法及最终数据结果 6
3 数据处理方式 6
3.1 用户关系筛选算法的设计与实现 6
3.2 数据分析和人脉关系网络图 9
4 通过聚类算法对人脉网络进行分析 11
4.1 传统Kmeans算法聚类分析 11
4.2 改进Kmeans算法聚类分析 12
5 总结与反思 14
致谢 16
参考文献 17
新浪微博人脉网络数据挖掘算法的分析与比较
网络工程 林臻
引言
引言:微博作为Web2.0时代新生网络应用形式,在最近几年中得到了迅猛的发展[1],用户可以方便的通过移动通信终端上传和分享自己感兴趣的微博信息[2]。微博使用人群数量大,状态信息更新频繁、信息传播迅速,用户占有率相对集中,CNNIC发布的第33次《中国互联网络发展状况统计报告》显示,截至2014年底,我国网民规模达到5.64亿,微博用户为3.09亿[3],因此其成为了数据挖掘中相当有意义的
*51今日免费论文网|www.jxszl.com +Q: %3^5`1^9`1^6^0`7^2#
研究方向。但过于庞大的数据量对利用人工甚至普通计算机进行处理都提出了不小的挑战,从而提出利用数据挖掘算法,通过对其进行分析,从大量数据信息中发现有用的模式和隐藏信息[4],并对其进行整合处理,从中得出一定结论,对整个新浪微博的人脉网络能有直观清晰的认识,发现其规律,分析其本质,了解新型人脉网络的特性,并对以后进一步深入研究打下基础。
绪论
研究背景及意义
互联网正逐步演变为无处不在的计算平台和信息传播平台。微博、在线社区网站、博客、论坛、维基等社交网络应用的出现和迅猛发展,使得人类使用互联网的方式产生了深刻变革——由简单信息搜索和网页浏览转向网上社会关系的构建与维护、基于社会关系的信息创造、交流和共享[5]。
微博是现在使用最为广泛分享与交流平台,是一种通过关注机制分析简短实时信息的广播式的社交网络平台。微博现正成为人类社会关系维系和信息传播的重要渠道和载体。用户通过WEB、WAP等各种客户端组建个人社区,用及其少量的文字更新信息,并及时分享。基于微博用户间关系的单向性,用户可以构建起一个强关系和弱关系并存的网络,从而同时满足了其多层次的社交需求,是人类在虚拟网络世界生活的抽象概括和延伸。在国内新浪微博是微博领域的领头羊,而放眼世界,Twitter则是全球用户最多的微博社区。
数据挖掘(Date Mining,DM),是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的知识的过程,在数据库系统中称其为知识发现(Knowledge Discovery in Database,KDD)。微博数据挖掘则融合了数据库系统、统计学、信息科学、人工智能、机器学习等等,是一个新兴的多学科交叉应用领域[6]。
微博人脉网络是以用户ID为节点、以用户之间的关系为边的有向网络[7]。社交网络作为一种新的社会组织,可把从未见面的人联系起来,微博的快速发展改变了人们的生活状况,人们的消息传递方式,也改变了虚拟世界人民的人脉关系。新的人脉网络的构建,导致各个商家需要重新审视新的关系网,利用微博平台来拓展和发现新的商机,充分利用新的人脉关系,传播自己的品牌和商业文化。有助于人脉网络服务平台根据用户的职业改进服务,促进人脉网络的联系,推动用户间知识的获取和共享。
研究现状
随着互联网的发展和微博用户数据的急剧增长,在海量数据中挖掘用户之间的关系成为研究热点。相比网络爬虫,新浪微博的开放API接口可以更加简洁的获取相应的数据,为程序高效获取微博数据提供了保障[1],因此微博数据挖掘以及人脉关系分析受到了广泛关注。
国内采用复杂网络方法研究社会网络取得了一定成果。胡海波[8]等对若邻网的结构进行分析,分析结果表明该网络与现实社会网络相似,具有无标度特性、小世界特性、高聚类系数、层次化结构和社团性等网结构特征。余高辉[9]等针对 QQ 群好友关系构建了一个复杂网络模型,并对网络属性及动力机制进行了分析,分析结果表明网络中用户之间的连接关系较为稀疏,但已在不断地增长,而且还具有小世界特性[10]。闫光辉等从链接方面对某领域的微博用户进行可信度分析[11]。徐志明等研究了微博社会网络中的用户关系分析技术[19]。吴斌等研究了基于微博重复发送行为的垃圾用户行为建模和甄别算法[20]。黄磊等研究微博中用户类型的识别方法[21]。
国外采用复杂网络方法对社会网络进行分析已开展较多研究。Akshay Java[12]等人对 Twitter 中一定时间段内的数据集进行了研究,结果表明微博中的用户分为3类:信息收集者、信息提供者和好友关系。另外该文还从微博网络中用户规模的增长、用户出度和入度的分布特征、用户所在地的分布等。Teutte[13]等研究了复杂网络及网络动力学理论在分析Twitter 用户关系网络特性方面的可行性,并计算了 Twitter 用户关系网络的基本参数。Mislove Alan[14]等在 2007 年首次对大规模社交网站 Flickr、YouTube 等进行研究,发现在这些网站中用户之间的关系网络拥有无标度、小世界等复杂网络的典型特性。Haewoon Kwak[15]等对大规模 Twitter 用户的关系网络进行分析,发现其虽然符合小世界、无标度等复杂网络特征,但其节点的出度和入度并非严格遵循幂律分布,而且用户之间的连接是非对称的。
研究内容
原文链接:http://www.jxszl.com/jsj/wljs/44632.html