登录    注册    忘记密码

详细信息

一种基于节点密度分割和标签传播的Web页面挖掘方法    

文献类型:会议论文

中文题名:一种基于节点密度分割和标签传播的Web页面挖掘方法

作者:张乃洲[1];李石君[1];

第一作者:张乃洲

机构:[1]河南财经政法大学计算机与信息工程学院, 郑州, 450002 武汉大学计算机学院, 武汉, 430072;

第一机构:河南财经政法大学计算机与信息工程学院

会议论文集:2012中国计算机大会论文集

会议日期:20121001

会议地点:大连

主办单位:中国计算机学会

语种:中文

中文关键词:页面分割;节点密度;标签传播;DOM树;块分类

摘要:获取Web页面中的重要内容如文本和链接,在许多Web研究领域有着重要的应用价值。目前针该问题主要采用Web页面分割和区块识别的方法。但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法割裂了Web页面中本文和链接的内在语义关系,同时降低了页面处理的效率。本文提出了一种Web页面重要内容挖掘的统一框架,该框架主要由三个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为丌同的页面块。第二,采用基于标签传播的半监督方法自动扩展页面块训练集。第三,在扩展的页面块训练集上对SVM分类器进行训练。最后利用已训练的SVM分类器对页面块进行分类。采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局。我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性。

参考文献:

正在载入数据...

版权所有©河南财经政法大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心