登录    注册    忘记密码

详细信息

基于深度学习的文本分类研究    

文献类型:学位论文

中文题名:基于深度学习的文本分类研究

作者:何婷婷[1];

第一作者:何婷婷

机构:[1]河南财经政法大学;

第一机构:河南财经政法大学

导师:景丽;河南财经政法大学

授予学位:硕士

语种:中文

中文关键词:文本分类;词频-逆词频算法;卷积神经网络;双向长短期记忆网络;注意力机制

摘要:文本分类是自然语言处理领域的重要组成部分。当前文本分类应用十分广泛,例如新闻主题分类、垃圾文本过滤、信息检索、舆论监督、情感分析等领域。随着互联网的发展,网民浏览微博、微信、抖音、新闻客户端以及电商平台并在其平台上进行评论的行为会产生大量数据,而这些数据呈现海量、繁杂、无序等特征,仅仅依靠人力进行文本分类很难完成。因此利用计算机技术对文本自动分类已经成为当前研究的焦点。目前的文本分类模型存在文本表达弱和文本特征提取不全面的问题,因此,本文主要研究了文本表示和特征提取两个方面,提出了精度高的文本分类模型。首先本文阐述了文本表示中目前常用的word2vec模型相关原理,并分析了其优缺点。针对word2vec模型未考虑到文本词语的重要性问题,引入了TF-IDF算法与word2vec融合的方法形成词向量。该方法不仅考虑到了文本词语间的语义信息,也考虑到了词语权重,更加准确地表示了文本语义。同时,为了使TF-IDF算法更加适用于文本分类任务,总结了传统的TF-IDF算法存在的问题并利用特征项在类内、类间的分布信息和特征项距离信息改进TF-IDF算法形成TF-IDF-ICP算法,提高特征词的类别区分度。然后将改进的TF-IDF算法与word2vec模型相结合形成词嵌入层对文本进行表示形成输入词向量。接下来,本文研究了深度学习中经典的神经网络,总结它们优势和劣势,发现单一的神经网络仅能提取一方面特征,因此本文选择了几种文本分类精度高的神经网络设计了两种文本分类模型,一种是结合注意力机制的卷积神经网络模型,ACNN(Attention based on convolutional neural network),另一种是基于注意力机制的双向长短期记忆卷积网络模型,即ABLCNN(Attention base on Bi-LSTM and CNN),并探讨神经网络模型的组合对于文本分类性能的影响。最后综合考虑到文本表示和文本特征的问题,将改进的TF-IDF算法分别和两种分类器结合形成文本分类模型,提高文本分类的准确率。在THUCNews和online_shopping_10_cats两个数据集上进行实验,实验结果表明,本文提出的改进TF-IDF算法和word2vec模型结合的词向量可以提高文本分类效果。在THUCNews数据集上准确率达到97.38%,在online_shopping_10_cats数据集上准确率达到91.33%。除此之外,实验结果表明使用ABLCNN分类器和ACNN分类器所呈现的实验效果区别并不显著,但ACNN分类器所需训练时间更少,由此可见,并不是深度神经网络组合越多,性价比越高。

参考文献:

正在载入数据...

版权所有©河南财经政法大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心