登录    注册    忘记密码

详细信息

基于语言特性的中文领域术语抽取算法  ( EI收录)  

An Algorithm of Chinese Domain Term Extraction Based on Language Feature

文献类型:期刊文献

中文题名:基于语言特性的中文领域术语抽取算法

英文题名:An Algorithm of Chinese Domain Term Extraction Based on Language Feature

作者:傅继彬[1,2];樊孝忠[2];毛金涛[2];余正涛[3]

第一作者:傅继彬

通讯作者:Fu, J.-B.

机构:[1]河南财经学院计算机与信息工程学院;[2]北京理工大学计算机学院;[3]昆明理工大学信息工程与自动化学院

第一机构:河南财经政法大学计算机与信息工程学院

年份:2010

卷号:30

期号:3

起止页码:307-310

中文期刊名:北京理工大学学报

外文期刊名:Transactions of Beijing Institute of Technology

收录:CSTPCD;;EI(收录号:20102012932649);Scopus(收录号:2-s2.0-77952178941);北大核心:【北大核心2008】;CSCD:【CSCD2011_2012】;

基金:国家自然科学基金资助项目(60863011);国家教育部高等学校博士学科点专项科研基金资助课题(20050007023)

语种:中文

中文关键词:术语抽取;领域耦合性;领域相关性;领域一致性

外文关键词:term extraction; domain cohesiveness; domain relevancy; domain consensus

摘要:提出一种基于语言特性的中文领域术语自动抽取算法.集成领域耦合性、领域相关性和领域一致性3种语言特性建立统计模型进行中文领域术语的自动抽取.提出基于困惑度衰减比率的自动评价方法,使用该评价方法对术语抽取算法进行了比较评估.实验结果表明,该算法与基于互信息和似然度的方法相比,在准确率和召回率方面都有较大提高.
An algorithm for Chinese domain term extraction based on language feature is proposed. Domain terms in Chinese have three features, domain cohesiveness, domain relevancy and domain consensus. The algorithm to extract domain term integrates three statistical models which compute domain cohesiveness, domain relevancy and domain consensus respectively. Experimental results show that the algorithm has higher precision and recall than the method based on mutual information and log-likelihood. An automatic evaluation method based on perplexity attenuation ratio is proposed, and the above algorithms are measured by the automatic evaluation method.

参考文献:

正在载入数据...

版权所有©河南财经政法大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心