网站爬取准备
发布日期:2021-08-31 01:31:16 浏览次数:2 分类:技术文章

本文共 2333 字,大约阅读时间需要 7 分钟。

hot3.png

1. 爬虫作用	用网络爬虫技术让重复性的手工流程实现自动化处理。2. 爬取准备	a. 检查robots.txt	在链接后加robots.txt查看是否有要求或限制		User-agent : 后表示禁止的用户代理		Crawl-delay : 后表示要求的爬取延迟		Sitemap : 后的链接提供网站地图文件			例:伯乐在线提供的网站地图	b. 估算网站大小		site: +网站链接或URL路径 (用goole吧)	c. 识别网站所用技术		i. 在windows powershell 中输入pip查看是否已安装pip		ii. 使用pip install builtwith安装 builtwith模块		iii. 使用该模块将URL作为参数,对该URL进行分析			>>> import builtwith			>>> builtwith.parse('http://example.webscraping.com')			{u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'], 			u'web-frameworks': [u'Web2py', u'Twitter Bootstrap'], 			u'programming-languages': [u'Python'], 			u'web-servers': [u'Nginx']    }			>>> builtwith.parse('http://jianshu.com')			{u'javascript-frameworks': [u'Prototype', u'RequireJS'], u'web-frameworks':  [u'Twitter Bootstrap', u'Ruby on Rails'],u'Twprogramming-languages': [u'Ruby'], u'web-servers': [u'Tengine']}			>>> builtwith.parse('http://chinadaily.com.cn')			{u'javascript-frameworks': [u'jQuery'], u'web-servers': [u'Nginx']}			>>> builtwith.parse('http://oschina.net')			{u'javascript-frameworks': [u'jQuery', u'Vue.js'], u'web-servers': [u'Tengine']}	d. 寻找网站所有者		i. 安装WHOIS协议封装库		pip install python-whois		ii. 使用		>>>import whois		>>> print whois.whois('jianshu.com')		{		  "updated_date": [		    "2016-04-06 00:00:00",		    "2016-04-06 10:24:47"		  ],		  "status": [		    "clientTransferProhibited https://icann.org/epp#clientTransferProhibited",		    "clientTransferProhibited"		  ],		  "name": "Shanghai Bai Ji Information Technology Inc. Ltd,",		  "dnssec": "Unsigned",		  "city": "Shanghai",		  "expiration_date": [		    "2020-03-20 00:00:00",		    "2020-03-20 18:28:58"		  ],		  "zipcode": "200433",		  "domain_name": "JIANSHU.COM",		  "country": "CN",		  "whois_server": "whois.name.com",		  "state": "Shanghai",		  "registrar": "Name.com, Inc.",		  "referral_url": "http://www.name.com",		  "address": "Innospace 2, B1, Building #5, KIC, No.316 Songhu Road , Yangpu District",		  "name_servers": [		    "F1G1NS1.DNSPOD.NET",		    "F1G1NS2.DNSPOD.NET",		    "f1g1ns1.dnspod.net",		    "f1g1ns2.dnspod.net"		  ],		  "org": "Shanghai Bai Ji Information Technology Inc. Ltd,",		  "creation_date": [		    "2008-03-20 00:00:00",		    "2008-03-20 18:28:58"		  ],		  "emails": [		    "contact@jianshu.com",		    "abuse@name.com"		  ]		}

转载于:https://my.oschina.net/spacewe/blog/832908

转载地址:https://blog.csdn.net/weixin_34056162/article/details/91916709 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:易客 给脸不要脸,那我只好开扒图片了
下一篇:kafka常用命令整理

发表评论

最新留言

逛到本站,mark一下
[***.202.152.39]2024年03月09日 06时58分32秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

php 常用文件系统函数,php 文件系统函数整理介绍 2019-04-21
android pm.java,java – AM / PM的Android DateFormat因设备而异 2019-04-21
oracle存储过程调用sql文件,oracle - 在SQL Developer中运行存储过程? 2019-04-21
oracle同时报604和12507,V$SES_OPTIMIZER_ENV 查不到刚修改的隐含参数, 2019-04-21
zblog的php更换域名,zblogphp更换域名后,原zblog里使用了固定域名,登录不进去怎么办... 2019-04-21
oracle dnfs 配置,Source of Oracle参数解析(dnfs_batch_size) - django-\/\/ i K | 2019-04-21
oracle所需的环境,转:面对一个全新的oracle环境,首先应该了解什么? 2019-04-21
linux 小数四则运行,shell四则运算(整数及浮点数)的方法介绍 2019-04-21
linux系统分区后进入紧急模式,Linux系统的救援模式应用详解 2019-04-21
linux配置匿名ftp服务器,在Linux环境中使用vsftpd搭建ftp实现匿名上传详细配置 2019-04-21
linux创建硬盘分区lvm,LVM创建及分区调整、更换LVM硬盘 2019-04-21
FreeBSD可以安装Linux软件吗,在Linux服务器上面通过网络安装FreeBSD 2019-04-21
.net core linux 桌面应用,C# dotnet core + AvaloniaUI 开发桌面软件,hello world 2019-04-21
linux tcp 113错误,linux系统报tcp_mark_head_lost错误的处理方法 2019-04-21
南昌工程学院c语言答案,南昌工程学院C语言程序设计基础课件第3讲运算符和表达式... 2019-04-21
python学画画_python学画画(下) 2019-04-21
云栖社区 mysql_【直播结束,已更新回放】PG、MySQL到底哪个好?云栖说这次请来五位专家撕了一下-阿里云开发者社区... 2019-04-21
老男孩mysql 百度云_英语语录:除了你,没人能掌控你的幸福 2019-04-21
mysql驱动多次执行问题_Laravel5.2队列驱动expire参数设置带来的重复执行问题 数据库驱动... 2019-04-21
mysql获取刚新增的数据库_如何取得刚插入数据库的数据的id mysql 2019-04-21