详细信息
一种基于节点密度分割和标签传播的Web页面挖掘方法
文献类型:会议论文
中文题名:一种基于节点密度分割和标签传播的Web页面挖掘方法
作者:张乃洲[1];李石君[1];
第一作者:张乃洲
机构:[1]河南财经政法大学计算机与信息工程学院, 郑州, 450002 武汉大学计算机学院, 武汉, 430072;
第一机构:河南财经政法大学计算机与信息工程学院
会议论文集:2012中国计算机大会论文集
会议日期:20121001
会议地点:大连
主办单位:中国计算机学会
语种:中文
中文关键词:页面分割;节点密度;标签传播;DOM树;块分类
摘要:获取Web页面中的重要内容如文本和链接,在许多Web研究领域有着重要的应用价值。目前针该问题主要采用Web页面分割和区块识别的方法。但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法割裂了Web页面中本文和链接的内在语义关系,同时降低了页面处理的效率。本文提出了一种Web页面重要内容挖掘的统一框架,该框架主要由三个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为丌同的页面块。第二,采用基于标签传播的半监督方法自动扩展页面块训练集。第三,在扩展的页面块训练集上对SVM分类器进行训练。最后利用已训练的SVM分类器对页面块进行分类。采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局。我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性。
参考文献:
正在载入数据...