PageRanke算法
发布日期:2021-07-01 02:16:25 浏览次数:2 分类:技术文章

本文共 597 字,大约阅读时间需要 1 分钟。

PageRanke算法的工作原理

PageRank的作用是评价网页的重要性,以此作为搜索结果的排序重要依据之一。

早期的搜索引擎的做法:

一、根本不评价结果重要性:

直接按照某自然顺序(例如时间顺序或编号顺序)返回结果,只能适用于结果集比较少的情况。

二、基于检索词的评价 TF-IDF:

基于检索词评价的思想非常朴素: 检索词匹配度越高的页面重要性越高。 “匹配度”就是要定义的具体度量。一个最直接的想法是关键词出现次数越多的页面匹配度越高。但是这样会造成一种情况。 如果我们的的文章比较长,那么比较长的文章比比较短的文章网页关键词出现的次数就会多一些,这样我们基于检索词评价结果的重要性就显得不合理。 所以有人对算法做了 改进使用关键词出现的次数/文章的总词数 ,这种算法看起来很合理但是非常容易受到"Term Spam”的攻击。

通过一个例子介绍 Term Spam:

现在假设Google单纯使用关键词占比评价页面重要性,而我想让我的文章在搜索结果中排名更靠前(最好排第一)。那么我可以这么做:在页面中加入一个隐藏的html元素(例如一个div),例如我知道现在欧洲杯很火热,我就在我博客的隐藏div里加一万个“欧洲杯”,当有用户搜索欧洲杯时,我的博客就能出现在搜索结果较靠前的位置。 这种行为就叫做“Term Spam”。 这种行为甚至可以干扰别的关键词搜索结果。

早期搜索引擎

转载地址:https://maoli.blog.csdn.net/article/details/91359236 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:时间序列预测模型
下一篇:Apriori关联规则算法

发表评论

最新留言

网站不错 人气很旺了 加油
[***.192.178.218]2024年05月02日 19时00分41秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章