"景先生毕设|www.jxszl.com

基于微博大数据的用户画像建模【字数:15726】

2024-11-03 10:15编辑: www.jxszl.com景先生毕设

目录
摘要 II
关键词 II
ABSTRACT III
KEY WORDS III
引言
1 材料与方法 1
1.1 用户画像模型 1
1.1.1用户画像的分类 1
1.1.2用户画像构建流程 2
1.2 主题模型 3
1.2.1主题模型概览 3
1.2.2pLSA模型 3
1.2.3LDA主题模型 5
2 基于LDA的用户画像模型构建 7
2.1 用户画像建模总体框架 7
2.2 数据采集与预处理 8
2.2.1网络爬虫技术 8
2.2.2文本预处理 9
2.3 用户画像模型 9
2.3.1 LDA模型构建 9
2.3.2 用户聚类 9
3 试验结果分析 10
3.1 实验数据展示 10
3.2 文本预处理 10
3.3 LDA主题模型 11
3.3.1主题选取 11
3.3.2训练过程 12
3.4 用户聚类 14
3.5 微博用户画像 14
4 总结 21
致谢 21
参考文献 22
附录A:程序代码 24
附录B:数据结果 49
基于微博大数据的用户画像建模
摘要
随着现代网络技术的蓬勃发展,日常生活中已经离不开电子产品。用户在网络上的行为信息,呈迅猛增长势态,当下正是大数据时代。如何深度挖掘数据背后的用户倾向,了解用户需求,从而提升营销效率,逐渐成为了企业的重要目标。
在描述用户群体时,若数据转换成多个不同的标签,从多个维度更好的了解用户。本文针对移动互联网领域中微博用户,从个人基本信息、社交信息、微博文本三个角度进行数据爬取。首先将数据进行预处理,利用分词程序将用户的微博文档简化成多个短文本,来揭示语料库中隐藏的主题。在LDA模型构建中,经过测试选取参数,输出主题数为10个。随后在对微博用户进行聚类时,从上述选取的 *51今日免费论文网|www.51jrft.com +Q: &351916072
三个角度的信息出发,利用kmeans方法,组间差异化大,组内同质性大的原则,最终将用户群体分为5簇。
最后从获取数据的三个方面出发,根据不同群体的数据特点,总结出该群体的用户画像,并对微博平台提出了一些推荐内容与监管机制的建议。
User Portrait Modeling Based on Weibo Big Data
ABSTRACT
With the vigorous development of modern network technology, electronic products can no longer be separated from daily life. The behavior information of users on the network is showing a rapid growth trend, and now is the era of big data. How to deeply mine the users tendency behind the data and understand the users needs to improve marketing efficiency has gradually become an important goal of the enterprise.
When describing user groups, if the data is converted into multiple different labels, users can be better understood from multiple dimensions. This article aims at microblog users in the field of mobile Internet, crawling data from three angles of personal basic information, social information, and microblog text. First, the data is preprocessed, and the users Weibo document is reduced to multiple short texts using a word segmentation program to reveal the hidden topics in the corpus. In the LDA model construction, the parameters are selected through testing: and the number of output topics is 10. Then, when clustering Weibo users, starting from the information from the three angles selected above, using the kmeans method, the difference between groups is large and the principle of homogeneity within the group is finally divided into 5 user groups. cluster.
Finally, starting from three aspects of obtaining data, according to the data characteristics of different groups, the user portraits of this group are summarized, and some recommendations for the recommended content and supervision mechanism are proposed for the Weibo platform.

原文链接:http://www.jxszl.com/jsj/sxtj/606736.html