欢迎您光临自学哈网,只为分享网络知识教程,供大家学习参考!

「自学哈网」搜索引擎指纹算法是什么?常见的搜索引擎指纹算法有哪些?

作者 : 自学哈 本文共941个字,预计阅读时间需要3分钟 2022-11-26 共147人阅读
也想出现在这里? 联系我们

互联网上肯定会存在大量的重复内容网页,这时需要有一个过滤的机制,主要目的是处理文本内容的去重、过滤和聚类,而搜索引擎指纹算法是属于文章质量度的一种算法。那么搜索引擎指纹算法是什么?常见的搜索引擎指纹算法有哪些?【网站优化

一、搜索引擎指纹算法是什么?

简单来说搜索引擎指纹算法就和人的指纹一样,看起来这个手指是差不多的,但是实际上每一个人的手指都有一个独一无二的指纹,而我们所看到的网页也是一样的。不少网页内容其实都是差不多的,但是每一个网页搜索引擎抓取以后都会保存,然后建立一个指纹,可以理解为唯一标识符,而这个算法最大的好处就是可以通过这个唯一标识别符来计算网页的重复。

搜索引擎网页指纹技术在百科词条中的解释是:提取一个信息的特征,通常是一组词或者一组词+权重,然后根据这组词调用特别的算法,例如MD5,将之转化为一组代码,这组代码就成为标识这个信息的指纹。搜索引擎在抓取内容之后,会首先剔除掉文章中的一些非特征信息关键词,比如:你、我、他等称谓;而且、但是等连接词;哦、呢、吧等语气词。这些词对于信息标识是没有帮助的,然后就是对文字信息的提取与处理,经过一系列复杂的算法流程。

二、常见的搜索引擎指纹算法有哪些?

最简单的指纹构造方式就是计算文本的md5或者sha哈希值,除非输入相同的文本,否则会发生“雪崩效应”,极小的文本差异通过md5或者sha计算出来的指纹就会不同(发生冲撞的概率极低),那么对于稍加改动的文本,计算出来的指纹也是不一样。

因此,一个好的指纹应该具备如下特点:

1、指纹是确定性的,相同的文本的指纹是相同的;

2、指纹越相似,文本相似性就越高;

3、指纹生成和匹配效率高。

业界关于文本指纹去重的算法众多,如k-shingle算法、google提出的simhash算法、Minhash算法、top
k最长句子签名算法等。搜索引擎指纹算法和一般的算法不一样的地方在于它是针对网页集合来进行判断的,不像网页去重这种算法是页面与页面之间判断。而指纹是通过大数据进行集合判断,最后通过唯一标识符号判断网页内容是否原创。

以上就是《搜索引擎指纹算法是什么?常见的搜索引擎指纹算法有哪些?》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。

本站声明:
本站所有资源来源于网络,分享目的仅供大家学习和交流!如若本站内容侵犯了原著者的合法权益,可联系邮箱976157886@qq.com进行删除。
自学哈专注于免费提供最新的分享知识、网络教程、网络技术的资源分享平台,好资源不私藏,大家一起分享!

自学哈网 » 「自学哈网」搜索引擎指纹算法是什么?常见的搜索引擎指纹算法有哪些?
也想出现在这里? 联系我们
© 2022 Theme by - 自学哈网 & WordPress Theme. All rights reserved 浙ICP备2022016594号