登录    注册    忘记密码

详细信息

一种新的用于数据挖掘工具的网页净化算法    

An new algorithm of Web page purification for data mining tools

文献类型:期刊文献

中文题名:一种新的用于数据挖掘工具的网页净化算法

英文题名:An new algorithm of Web page purification for data mining tools

作者:孙楠[1];张华伟[1]

第一作者:孙楠

机构:[1]河南财经政法大学计算机与信息工程学院

第一机构:河南财经政法大学计算机与信息工程学院

年份:2011

卷号:26

期号:3

起止页码:85-87

中文期刊名:郑州轻工业学院学报:自然科学版

收录:CSTPCD

语种:中文

中文关键词:网页净化;网页噪声;文档对象模型;阈值

外文关键词:Web page purification; Web noise; DOM; threshold

摘要:为了更好地消除网页噪声,有效地提取网页的主题内容,提出了一种新的网页净化算法.该算法认为网页的主题内容主要包含在标记和标记里面,并据此对网页噪声进行预处理,然后与相关网页进行内容匹配,通过计算节点重要度,获取网页的主题内容.对门户网站的6 318个网页的检测表明,该算法可以有效地提取网页的主题内容,准确率达到98.2%以上.用于数据挖掘工具时,该算法优于其他同类算法,可以有效地去除网页噪声.
In order to eliminate noise preferably and extract topic content from Web pages efficiently,an algorithm of Web page purification is presented.This algorithm argues that topic content of Web page is mainly contained in table and p,hereby Web noise can be preprocessed.Then with the content match of relevant Web page,the topic content of Web page can be acquired by way of calculating the importance of node.This algorithm has achieved very precise results,correctly extracting 98.2% of the pages in a set of 6 318 pages in portal sites.When used for data mining tools,this algorithm is better than the other similar algorithms.It can eliminate noise efficiently.

参考文献:

正在载入数据...

版权所有©河南财经政法大学 重庆维普资讯有限公司 渝B2-20050021-8 
渝公网安备 50019002500408号 违法和不良信息举报中心