登录    注册    忘记密码

详细信息

基于TextRank的抽取式文本摘要生成方法研究    

文献类型:学位论文

中文题名:基于TextRank的抽取式文本摘要生成方法研究

作者:黄菲菲[1];

第一作者:黄菲菲

机构:[1]河南财经政法大学;

第一机构:河南财经政法大学

导师:景丽;河南财经政法大学

授予学位:硕士

语种:中文

中文关键词:文本摘要;TextRank;BERT;文本相似度;去冗余

摘要:是通过技术从文本或者文本集合自动抽取、提炼文本中的要点信息,方便读者从大量数字信息中获取所需内容。目前有多种实现技术,大致可分为抽取式文本摘要和生成式文本摘要。本文研究对象为抽取式文本摘要,现有抽取式文本摘要技术存在的问题是抽取的结果不准确、主题重复等,针对这些问题本文对传统的Text Rank模型做了改进,针对Text Rank算法存在的摘要句主题重复问题,利用MMR算法(最大边界相关算法)进行去冗余处理,引入BERT模型解决一词多义问题,用句向量直接计算句子的相似度取代了传统的词频统计计算相似度的方法。本文的研究内容主要有以下几个方面:1、文本句向量的生成TextRank模型是基于图的形式,在构建图模型时,图中的节点是句向量,传统的Text Rank算法生成句向量是先把句子中的词转换成向量,然后将所有的词向量转换成句向量,本文引入BERT模型直接把文本中的句子转化成向量的形式,借助BERT模型的优势可以根据语境确定语义,解决一词多义问题。在TTNews数据集上实验结果表明,这种改进获得较好的实验结果。2、文本相似度计算传统TextRank算法计算相似度是计算两个句子之间的共现词出现的频率,该方法没有考虑到句子语义层面的信息,抽取的摘要不准确,本文通过BERT模型得到句向量之后,基于句子的向量形式计算它们之间的相似度。理论分析和实验结果表明,余弦相似度方法更胜一筹。3、对主题相同的句子去重复处理传统的TextRank算法得到的摘要结果存在句子主题重复问题,这个问题在长文本数据集上表现的更加明显,因此,本文利用最大边界相关算法对摘要结果进行去冗余处理。

参考文献:

正在载入数据...

版权所有©河南财经政法大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心