PageRanke算法
发布日期:2021-07-01 02:16:25
浏览次数:2
分类:技术文章
本文共 597 字,大约阅读时间需要 1 分钟。
PageRanke算法的工作原理
PageRank的作用是评价网页的重要性,以此作为搜索结果的排序重要依据之一。
早期的搜索引擎的做法:
一、根本不评价结果重要性:
直接按照某自然顺序(例如时间顺序或编号顺序)返回结果,只能适用于结果集比较少的情况。
二、基于检索词的评价 TF-IDF:
基于检索词评价的思想非常朴素: 检索词匹配度越高的页面重要性越高。 “匹配度”就是要定义的具体度量。一个最直接的想法是关键词出现次数越多的页面匹配度越高。但是这样会造成一种情况。 如果我们的的文章比较长,那么比较长的文章比比较短的文章网页关键词出现的次数就会多一些,这样我们基于检索词评价结果的重要性就显得不合理。 所以有人对算法做了 改进 , 使用关键词出现的次数/文章的总词数 ,这种算法看起来很合理但是非常容易受到"Term Spam”的攻击。
通过一个例子介绍 Term Spam:
现在假设Google单纯使用关键词占比评价页面重要性,而我想让我的文章在搜索结果中排名更靠前(最好排第一)。那么我可以这么做:在页面中加入一个隐藏的html元素(例如一个div),例如我知道现在欧洲杯很火热,我就在我博客的隐藏div里加一万个“欧洲杯”,当有用户搜索欧洲杯时,我的博客就能出现在搜索结果较靠前的位置。 这种行为就叫做“Term Spam”。 这种行为甚至可以干扰别的关键词搜索结果。早期搜索引擎
转载地址:https://maoli.blog.csdn.net/article/details/91359236 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
网站不错 人气很旺了 加油
[***.192.178.218]2024年05月02日 19时00分41秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
使用redis实现订阅功能
2019-05-01
URL特殊字符转码
2019-05-01
对称加密整个过程
2019-05-01
java内存模型
2019-05-01
volatile关键字
2019-05-01
tomcat_关闭
2019-05-01
Servlet_快速入门
2019-05-01
Servlet_生命周期方法
2019-05-01
Servlet_体系结构
2019-05-01
Servlet_urlpartten配置
2019-05-01
Request_原理
2019-05-01
Request_继承体系
2019-05-01
前端权限控制:获取用户信息接口构造数据
2019-05-01
有状态服务和无状态服务
2019-05-01
七牛云存储:断点续传
2019-05-01
递归遍历目录
2019-05-01
字节流复制文本文件【应用】
2019-05-01
字节流复制图片
2019-05-01
其他数字摘要算法实现
2019-05-01
私钥加密私钥解密
2019-05-01