"景先生毕设|www.jxszl.com

基于python爬虫的影评智能推荐系统的设计与实现【字数:6747】

2024-03-07 16:04编辑: www.jxszl.com景先生毕设
本项目是基于网络爬虫技术的系统方案设计,在爬取的网络数据基础上,我们对爬取的数据进行了数据的分析与处理,从而实现根据各个豆瓣用户的影评进行影片推荐的功能。基于pycharm的平台,采用了python的语言与mysql数据库等技术对该系统进行开发,实现了用户可看的豆瓣用户的登录页面,根据影评信息推荐电影页面,搜索电影页面及用户不可看的爬虫功能,数据储存,数据算法处理的功能. 2
目录
声明 1
Abstract: 3
一、 引言 1
(一)课题背景 1
(二)课题意义 1
二、 系统概述 1
(一) 系统简介 1
(二) 开发工具介绍 1
三、 需求分析 2
四、 系统概要设计 2
(一) 系统功能架构设计 2
(二) 数据库设计 3
1.数据库分析 3
2.数据库逻辑结构设计 3
五、 系统详细设计 4
(一) 智能推荐系统逻辑设计 4
(二) 详细设计 5
1. 类设计 5
2. 流程设计 6
六、 系统功能实现 6
(一) 算法分析 6
(二) 功能实现 7
1. 网站数据的爬取 7
图61爬虫步骤设计与实现图 7
2. 爬取所得数据的储存 12
3. 数据的分析处理 15
4. 数据处理结果的网页呈现 18
总结 22
参考文献 23
致谢 24

引言
(一)课题背景
因为互联网跟各信息化产业的快速发展,庞大的数据量以及其的处理问题已经成为了现代人们需要考虑以及面对的问题,为了能有效的解决网络数据的指数级增长,海量数据的获取、分析、处理、应用已然成为了一大研究热点。今年来,大数据技术便是为了解决海量网络数据而提供了有效方案。
(二)课题意义
在生活节奏日渐加快的当下,人们承受着每天早出晚归的疲惫,紧绷的神经一刻也无法放松。在人们利用身边的碎片时间为 *景先生毕设|www.jxszl.com +Q: @351916072
其减压,放松其精神,进行观影时,为了让人们更在这有限的时间里能够更加准确的找寻到自己喜欢观看的电影而诞生的电影推荐系统。电影推荐系统根据你平日观看电影的影评信息。
本电影推荐系统用python的beautifulsoup对用户影评信息进行爬取,接着运用皮尔逊相似度对爬取的数据进行处理分析,从而得到适合用户观看的电影并进行推荐。Beautifulsoup 作为python中的库,其首要的功能便是在网络中爬取各类数据。因此它在处理导航、检索以及分析树等方面上,有着某些跟简便的函数。它可以通过拆解分析文本从而为使用者提供他们想要爬取的各种数据,所以它在一定程度上更像是一个存放着各类工具的盒子,或许是因为简便,所以想要得到一个完整的程序并不用太多的代码。同时, Beautiful Soup并不用去考虑任何编码的方式,因为其会将写入的文本非手动的转化为Unicode的编码格式,写出的文本转化为utf8的编码格式,除非那是个没有说明编码格式的文本,这种时候,Beautiful Soup自然也就不能去辨别文本的编码格式了。
此外,本系统还简单的加入了一个搜索电影并根据搜索的电影推荐与其类型一样的电影,也在一定程度上减少了人们在找寻电影上浪费的时间。
系统概述
系统简介
本影片只能推荐系统是基于python编程语言的基础上根据简单的用户影评信息结合皮尔逊相关系数对信息进行分析处理开发而成。本系统出现是为了人们在利用休闲时间看电影娱乐时能够更好的找到自己所感兴趣电影,从而更好的运用有限的休闲时间,尽可能的减少了在找电影花费的时间。
开发工具介绍
Python是一种非静态类的面向对象脚本语言。也是种电脑程序的设计语言,从一开始被计划用来对自动化脚本的制作,到后来随着其版本不停的更换以及增加了各种新功能,使其在小型或规模大的项目开发上的运用变得愈来愈多。比如可以运用于因特网、网页的开发,科学的运算和统计以及教育,介面的开发,应用程序的开发,后端的开发等许许多多的领域。自从上世纪末Python语言出现到现在,它早已经开始被大范围运用于管理信息系统工作的加工和网页编程。Python的创办人是一个荷兰人。
他名字叫吉多范罗苏姆,在20世纪的某个圣诞节,Amsterdam圣诞节的无聊让吉多有了一个想法,他决定开发一个跟以往有所不同的脚本解析应用,用作ABC 语言的一种延续。
Python有着大蟒蛇的含义,选取这个作为该编程语言名称的原因,其实是来自英国1969上映的喜剧节目《蒙提.派森干的飞行马戏团》。而ABC原本就是吉多参与设计的一类教学语言。就吉多其自身一开始的看法,ABC本来就是一种十分美好和厉害的语言,也觉得这是特意为那些并不是专业的程序员打造的。但事实上ABC这种语言并没能取得成功,究其缘由,吉多觉得很大程度是因为ABC语言的不开放。所以吉多认为在Python 上不能重蹈覆辙。除了这个以外,吉多还打算完成在ABC 中有过想法但并没完成的东西。基于这些原因,Python在吉多手里诞生了。
需求分析
在这网络迅速发展,万维网成为大量信息的载体的时代,网络爬虫能有效地提取并利用这些信息,同时随着时代的快速发展,生活节奏日渐加快,人们在工作繁忙之后,会更加注重对休闲时间的有效安排,为了人们在忙碌工作后那段有限的休闲时间里能不必耗费过多时间去从大量的电影中筛选自己喜欢观看的电影,本系统从豆瓣网爬取了用户的影评信息,并且根据登录用户在豆瓣网上的电影的好评记录及其它用户的影评记录进行皮尔逊相关系数的计算,寻找出与登录用户有着相同爱好的用户,再推荐与登录用户有着相同爱好的用户所好评过的电影。

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/564477.html