齐宁:搜索引擎知识 网页查重技术

[复制链接]
查看: 1676|回复: 20

1584

主题

1万

帖子

5万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
58699
发表于 2016-2-23 15:57:19 | 显示全部楼层 |阅读模式
网页查重技巧来源竽暌冠复制检陈技巧,即断定一个文件内容是否存在抄袭、复制别的一个或多个文件的技巧。


  1993年Arizona大年夜学的Manber(Google现副总裁、工程师)推出了一个sif对象,寻找类似文件。1995年Stanford大年夜学的Brin(Sergey Brin,Google开创人之一)和Garcia-Molina等人在“数字图书不雅”工程中初次提出文本复制检测机制COPS(Copy Protection System)体系与响应算法[Sergey Brin et al 1995]。之后这种检测反复技巧被应用到引擎中,根本的核心技巧既比较类似。


  网页和R单的文档不合,网页的特别属性具有内容和格局等标记,是以在内容和格局上的雷同类似构成了4种网页类似的类型。
1、两个页面内容格局完全雷同。
2、两个页面内容雷同,但格局不合。
3、两个页面部分内容雷同并且格局雷同。
4、两个页面部分重要雷同但格局不合。


实现办法:


网页查重,起首将网页整顿成为一个具有标题和正文的文档,来便利查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步调,一、特点采取。二、类似度计算和评价。三、消重。


1.特点采取
我们在断定类似物的时刻,一般是才能用不变的特点进行比较,文件查重第一步也是进行特点采取。也就是将文档内容分化,由若干构成文档的特点集合表示,这一步是为了方面后面的特点比较计算类似度。
特点采取有很多办法,我们这里重要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。
“I-Match算法”是不依附于完全的信息分析,而是应用数据集合的统计特点来采取文档的重要特点,将非重要特点摈弃。
“Shingle算法”经由过程采取多个特点词汇,比较两个特点集合的类似程度实现文档查重。


                                                               
2.类似度计算和评价
  对于引擎来说,反复的网页内容是异常有害的。反复网页的存在意味着这些网页就要被引擎多处理一次。更有害的是引擎的索引制造中可能会在索引库里索引两份雷同的网页。当有人萌芽时,在结不雅中就会出现反复的网页链接。所以无论是大年夜体验照样体系效力检索质量来嗣魅这些重负网页都是有害处的。


特点采取完毕后,就须要进行特点比较,因网页查重第二步就是类似度计算和评价。
I-Match算法的特点只有一个,当输入一篇文档,根据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一些关键特点,即一篇文┞仿中特别高和特别低频的词汇往往不克不及反竽暌功这篇文┞仿的本质。是以经由过程文档中去掉落高频和低频词汇,并且计算出这篇文档的独一的Hash值(Hash简单的说就是把数据值映射为地址。把数据值作为输入,经计算后即可获得地址值。),那些Hash值雷同的文档就是反复的。


Shingle算法是采取多个特点进行比较,所以处理起来比较复杂一些,比较的办法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种办法计算出的数值为“Jaccard 系数”,它可以断定集合的类似度。Jaccard 系数的计算办法集合的交集除以集合的并集。


3.消重
   对于删除反复内容,引擎推敲到浩瀚收录身分,所以应用了最简单的最实用的办法。先被爬虫抓取的页面同时很大年夜程度也包管了优先保存原创网页。


   网页查重工作是体系中弗成缺氨赡,删除了反复的页面,所以引擎的其他环节也会削减很多不须要的麻烦,节俭了索引存储空间、削减了萌芽成本、进步了PageRank枷⒚效力。便利了引擎用户。


本文首发 齐宁收集营销策划 www.qi-ning.com 转载请注明作者信息。感谢!
齐宁 MSN: i@qining.org
回复

使用道具 举报

0

主题

1万

帖子

4万

积分

论坛元老

Rank: 8Rank: 8

积分
44163
发表于 2016-8-17 06:58:52 | 显示全部楼层
我们公司的项目就是在帝国网络公司做的,一家很负责的公司,一些问题都会考虑的很好。很尊重我们这些客户的意见。
回复 支持 反对

使用道具 举报

0

主题

1万

帖子

4万

积分

论坛元老

Rank: 8Rank: 8

积分
44163
发表于 2016-8-17 07:18:04 | 显示全部楼层
与深圳帝国网络合作了快一年的时间,将我公司网络推广的业务交给了他们,我们是做快速消费品食品行业的,开发意向度高的新客户是我们的生命线之一,他们给我做的关键词“深圳糖果批发”、“果冻采购哪家好”像这样的都排在了百度首页,3个月时间,果然和合同上的时间一致。每天都能保证有意向的询盘,去年12月份一个意向客户订单12万。
回复 支持 反对

使用道具 举报

0

主题

1万

帖子

3万

积分

论坛元老

Rank: 8Rank: 8

积分
31847
发表于 2016-8-17 07:28:04 | 显示全部楼层
这家整合营销做的非常不错,关键词非常稳定,给我们带了很多有效的客户,非常感谢帝国网络。
回复 支持 反对

使用道具 举报

0

主题

1万

帖子

4万

积分

论坛元老

Rank: 8Rank: 8

积分
44163
发表于 2016-8-17 07:10:47 | 显示全部楼层
他们的营销型网站做的非常不错,服务也很好。第一推荐的哦。可以去盯下。
回复 支持 反对

使用道具 举报

1584

主题

1万

帖子

5万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
58699
 楼主| 发表于 2016-8-17 07:50:05 | 显示全部楼层
我谈过的合作对象有好几家,但是这家的服务态度是最好的,在技术不变的基础上,我更愿意跟服务态度好的合作
回复 支持 反对

使用道具 举报

0

主题

406

帖子

812

积分

高级会员

Rank: 4

积分
812
发表于 2021-2-24 04:35:53 | 显示全部楼层
济南专业网站优化公司
回复 支持 反对

使用道具 举报

0

主题

410

帖子

820

积分

高级会员

Rank: 4

积分
820
发表于 2021-2-24 16:06:38 | 显示全部楼层
霍城网站优化公司
回复 支持 反对

使用道具 举报

0

主题

414

帖子

828

积分

高级会员

Rank: 4

积分
828
发表于 2021-2-25 02:40:04 | 显示全部楼层
网站建设优化公司
回复 支持 反对

使用道具 举报

0

主题

386

帖子

772

积分

高级会员

Rank: 4

积分
772
发表于 2021-2-25 18:03:40 | 显示全部楼层
上海宝山网站seo优化公司
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩推荐

网站优化如何利用META标签提升网站关键词排

2017-07-04 陕西

为什么为了更好的SEO优化而在网站上拼命写

2018-02-27 泰安

如何做好网站的站内优化以及网站建设的SEO

2018-02-27 淄博

网站如何用三个方法做到让用户和搜索引擎都

2018-02-27 青岛

为何现在较少的网站优化站外这一个非常重要

2018-02-27 菏泽

网站优化做不好怎么办?SEO服务分析网站优化

2017-06-23 海南

归纳总结网站推广中seo优化为何离不开多元

2018-02-27 日照

美丽说的SEOseo多牛

2016-06-07 四平

让SEO服务更专业

  • 帝国网络服务有限公司
  • 客服电话:400-050-4004
  • 深圳市南山区西丽硅谷
    大学城创业园C区117

精彩SEO教程,快速SEO查询

关注我们

Copyright 福建SEO优化  Powered by©帝国网络优化公司  技术支持:福建SEO优化服务公司