"景先生毕设|www.jxszl.com

中文环境下的学术不端事件演化趋势分析【字数:12581】

2024-11-03 10:49编辑: www.jxszl.com景先生毕设

目录
摘 要 II
关键词 II
ABSTRACT III
KEY WORDS III
引言 1
一、绪论 1
(一)本文研究目的及意义 1
(二)国内外研究现状 1
(三)相关技术研究 2
1.爬虫技术 2
2.情感分析技术 2
3.内容及趋势分析技术 3
二、研究设计 3
(一)研究方法 3
(二)研究思路 3
1.数据收集 3
2.文本处理 4
3.内容及趋势分析 4
(三)研究对象 4
三、研究过程 4
(一)数据收集 4
(二)文本处理 5
(三)内容及趋势分析 6
1.高频词分析 6
2.社会网络分析 8
3.时间序列分析 10
4.结论 13
四、总结与展望 14
(一)数据收集 14
(二)文本处理 14
(三)内容及趋势分析 15
五、讨论与结论 15
(一)讨论 15
(二)结论 15
致谢 16
参考文献 16
中文环境下的学术不端事件演化趋势分析
摘 要
随着互联网时代的到来,我国人民的生活与网络的关系越发千丝万缕、密不可分。因为互联网的普及,网络媒体也渐渐成为人们获取信息的主要方式之一。由于互联网独有的匿名性,人们倾向于在网络上表达自己内心最真实的感受。学术不端作为学术研究中的一种不正当的学术行为,阻碍着学术研究的健康发展。学术不端的出现,严重打击了学术创造和学术交流氛围,因此,学术不端行为的发展趋势成为了学术界普遍关注的问题。本研究运用Python网络爬虫技术和情感分析技术,从科学网中实时采集并整理得到508条与学术不端有关的中文新闻文本,运用内容分析方法、时间序列分析法并借助软件对其进行高频词分析、社会网络分析、时间序列模型建立,得到该网站学术不端新闻文本的准确语义信息与演化趋势。研究 *51今日免费论文网|www.51jrft.com +Q: ^351916072
发现,未来关于学术不端的讨论热度将呈现上升态势,而对于此类事件的情感也会倾向于正面及中性,大众对于学术不端的发现与遏制依然充满信心。本研究对中文语义环境下的学术不端行为进行内容分析及趋势分析,对中文新闻文本中学术不端事件的演变趋势进行分析与总结,为更好地了解和遏制学术不端行为提供理论依据,也为未来学术不端行为的研究提供理论参考。
引言
(一)本文研究目的及意义
世界范围内,学术不端行为的归类、认定、惩处等研究[1]远远不够深入,针对学术不端行为的定性与定量相结合的、系统的研究方法也尚无人涉足[2],可以说,关于学术不端行为的定性研究、内容分析研究与趋势分析研究,对于科研诚信体系有着举足轻重的意义。随着现代信息技术的快速发展,学术不端行为愈加技术化、“隐蔽”化,关于学术不端行为的报道也层出不穷。本研究将对中文语义环境下的学术不端行为进行内容分析及趋势分析,对中文新闻文本中学术不端事件的演变趋势进行分析与总结,为更好地了解和遏制学术不端行为提供理论依据,也为未来学术不端行为的研究提供理论参考。
(二)国内外研究现状
综合国内外的研究成果,目前针对中文新闻文本中学术不端事件的演变趋势的相关研究相对较少。而关于舆情的趋势分析方面,虽成果较多,但主要根据所分析的数据对象及数据类型而变,以下列举了常用的网络舆情趋势分析方法。
趋势分析及预测的原理为使用量化分析的方法,对某一事件或某一话题的趋势进行分析,检测出该事件或该话题中某种潜在趋势,从而根据检测出的趋势进行该事件或该话题未来趋势的预测[3]。
国外舆情的分析研究主要为话题识别与跟踪[4][5],其目的是自动识别新闻媒体文本中的新话题,并对已知话题持续跟踪与分析[6]。话题检测与跟踪针对具有突发性和连续性规则的网络新闻语料库,它与信息检索、数据挖掘和信息提取等自然语言处理技术渗透和相交,因此逐渐成为研究热点。
在国内,GPC Fung[7]提出了一种参数自由的识别网络热点话题的方法,其对象主要是突发事件话题。这种方法依赖于某一时间段的特征分布,只识别了突发事件,并没有对后续新闻报道进行跟踪分析[6]。除此之外,张虹等人运用神经网络模型,对网络舆情热度进行预测;彭丹等人收集网络上的新闻评论,对其进行聚类,并归纳出各种新闻事件的不同的网络传播规律;有研究还指出,基于混沌理论,一种WEB舆情趋势的预测方法也具有可行性;刘勘等人通过马尔可夫模型达到了预测网络舆情热度的效果;宾宁等人采用博弈模型,研究网络舆情演变规律;王猛等人基于Singlepass聚类算法,能够识别跟踪网络舆情趋势;田盼等人在SOM神经网络聚类分析上取得了一定进展;陈雪波等人则针对元细胞自动机模型做了一系列研究。
(三)相关技术研究
1.爬虫技术
信息爆炸的时代,数据规模和数据类型呈几何式增长,为了从海量的信息里获取有价值的数据,衍生了网络爬虫。爬虫技术通过设定信息源的获取规则,得到有价值的网络数据,再进行数据清洗和加工,构建出信息数据基础[8]。
网络爬虫,又称网页蜘蛛、网络机器人,能够按照一定的规则,自动地抓取互联网信息。在工作时,爬虫先向网站发起请求,等到数据获取成功后,自动分析并提取出有用的部分。从技术层面来说,即通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码、JSON数据、图片、视频等爬到本地,进而提取出自己需要的数据,存放起来使用[9]。
用Python语言编写的网络爬虫有语言简洁、使用方便、爬虫框架功能强大、网络支持库及网页解析器丰富等优点[9],而本研究需要通过一个中文科技新闻网站——科学网(http://www.sciencenet.cn)获取中文新闻文本,通过查询发现,该网站中的新闻文本不太容易直接从网上下载,网站中还有许多模块与栏目,且所需的中文科技新闻语料逐个复制不太现实,故本研究拟采用Python语言编写的网络爬虫进行数据采集。

原文链接:http://www.jxszl.com/jsj/xxaq/606932.html