"景先生毕设|www.jxszl.com

面向算法类文本的自动生成工具的设计与实现【字数:12029】

2024-11-02 13:31编辑: www.jxszl.com景先生毕设

目录
摘要 III
关键词 III
ABSTRACT IV
KEY WORDS IV
引言 1
1 选题背景 1
1. 1 研究背景 1
1. 2 研究现状 1
1. 3 研究目标 2
2 需求分析 2
2. 1 需求分析 2
2. 2 用例图 3
3 概要设计 4
3. 1 总体设计 4
3. 2 主要功能模块设计 4
3. 2. 1 自动摘要 5
3. 2. 2 自动分类 6
3. 2. 3 文本相似度计算 9
3. 3 数据存储方式 10
4 详细设计与实现 11
4. 1 开发环境 11
4. 2 系统架构 11
4. 3 功能设计 11
4. 3. 1 文本预处理功能 12
4. 3. 2 自动摘要生成功能 14
4. 3. 3 相似度计算功能 17
4. 3. 4 文本分类功能 18
4. 3. 5 文件上传与下载功能 20
4. 3. 6 检索数据集功能 21
5 功能测试 22
5. 1 测试目的 22
5. 2 测试过程 22
5. 3 测试结论 23
6 总结与展望 23
6. 1 总结 23
6. 2 展望 24
致谢 24
参考文献 25
面向算法类文本的自动摘要生成工具的设计与实现
摘 要
本项目的预处理包括使用jieba工具进行中文分词处理、使用Doc2Vec模型对分词结果进行向量化处理两个步骤。在实现自动摘要功能时,首先对向量进行聚类,分别计算簇中各句子权重,同时依据高频词典修改句子权重,根据权重抽取每个簇中的代表句,最终按照原文顺序将其组合为摘要;在实现自动分类功能时,根据预设类别,使用预训练的模 *51今日免费论文网|www.jxszl.com +Q: ¥351916072
型对文本向量进行分类,其结果可由使用者加以修正,同时为后续的进一步训练获取并积累人工标注;本文还利用余弦相似度度量算法,实现两篇文章的相似度计算;最后,本文同时提供了对本地文件的读取功能、对处理结果的保存功能。在部署到线上服务器时,使用Django作为Web开发框架,uWSGI作为中间件,项目部署在Nginx中,使用网页提供服务。
引言
1 选题背景
1. 1 研究背景
通常来说,在网络社区中进行算法交流与学习的方式具有更大的灵活性,既能包含各个领域中不同的算法,又可以很方便地与其他人进行讨论,互相分享学习心得。社区中的文章质量与分享者的水平和表达能力紧密相关,其中不乏逻辑清晰、内容充实、构思巧妙的优秀文章,也常有对个人学习心得和经验等主观内容的记录。
但这些文章并没有如同文献一般严谨的结构要求。在浏览或检索社区中的文章时,难免会遇到一些问题,诸如:
(1)在检索大量文章时,由于文本长度较大,检索效率受到影响;
(2)接触到了某一领域的某一篇具体文章,但并不了解该领域的知识,无法判断解决问题时使用的算法类型,以便深入学习该算法;
(3)多篇文章所述内容大致相同等。
1. 2 研究现状
自然语言处理的技术中,统计语言模型[1]作为其基础,在这一过程中发挥了十分重要的作用。而文本作为一种符号化的表达方式,无法使用精确的定量表示方法进行表达。因此,文本向量化搭建起了人类语言与计算机之间沟通的桥梁。
对文本的自动摘要领域的研究已有许多年的历史,从Luhn[2]首次在论文中提出这一概念以来,许多科学家在这一领域中投入了大量的精力进行研究,不断提高这一领域算法的实用性和效率,自动摘要已经是信息检索领域中提升效率的主要方式之一[3]。当前,自动摘要算法大体上可以按照处理方式将其归类为抽取式和生成式两种[4]。
抽取式文本摘要算法的依据是文本的统计结果,即通过计算文本中的词频、上下文关系等信息提取出文本的主要内容;或将句子进行统一处理,按照句子的内容信息进行聚类,并通过对每个聚类生成的簇进行分析,得出最终的摘要文本[4]。抽取式摘要存在的问题主要包括无法确定摘要长度、难以判断句子权重值等几方面。
生成式算法试图理解文本的语义,并由机器给出对文本的概括性文字,作为文章的摘要[5]。Cho[6]首次将深度学习的方法引入文本生成领域,并提出了Seq2Seq框架,解决了输入输出长度不确定的问题。目前Seq2Seq主要仍被应用在单个短文档领域中[7]。在进一步应用该框架解决实际问题时,又由Lopyrev[8]等引入了Attention机制使该框架的表现效果更为出色。另一方面,由于每种语言都有其特定的语义表达方式,试图理解语义内容时便需要对语言加以针对性调整。
相较于抽取式摘要而言,生成式摘要算法产生的摘要文本更接近于人类所熟悉的语言模式,具有较高的研究价值和更大的研究潜力。但当前的生成式摘要算法的输出结果是基于对原文的语义进行理解后,对原文信息进行归纳和推理所得出的,存在添加新词、语义理解偏差等异常情况的可能性,并不能精确地反映出原始文本中的内容,甚至可能会增加检索操作的错误几率。

原文链接:http://www.jxszl.com/jsj/jsjkxyjs/605761.html