关于我们MORE>>
    中国航天科技集团公司是根据国务院深化国防科技工业管理体制改革的战略部署,经国务院批准,于1999年7月1日在原中国航天工业总公司所属部分企事业单位基础上组建的国有特大型高科...
当前位置:首页 > 期刊导读 > 2015 > 02 >

基于特征串的网页文本并行去重算法

作者: 谢瑶兵

摘要: 针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提取特征串,使用Google的Simhash算法对提取的特征串进行哈希映射得到相应的哈希码,然后对产生的哈希码进行海明距离比较,从而得到重复的网页数据.实验表明,与相关去重算法相比,所提算法有效地提高了文本去重计算效率.


关键字: 搜索引擎 特征串 网页去重 Simhash MAPREDUCE


上一篇:一种基于隐语义模型的协同过滤算法
下一篇:基于QR分解与2DLDA的单样本人脸识别