爬虫10+练习 1-glidedsky基础两篇爬虫-白红宇的个人博客

爬虫10+练习 1-glidedsky基础两篇爬虫

发布日期：2021-05-11 01:40:18 浏览次数：22 分类：精选文章

本文共 4168 字，大约阅读时间需要 13 分钟。

��

��Python��requests��lxml��

�� ��HTTP��User-Agent��Cookie��Host��

�� ��run(url)��URL��HTML��lxml��etree��

�� ��xpath��class='col-md-1'��div��

��

import requests
from lxml import etree
headers = {
    'Cookie': 'your_cookie_value',
    'Host': 'example.com',
    'Referer': 'https://example.com/page',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}
def run(url):
    response = requests.get(url, headers=headers)
    html = etree.HTML(response.text)
    numbers = html.xpath('//div[@class="col-md-1"]/text()')
    total = 0
    for num in numbers:
        total += int(num)
    print(total)
# MAIN EXECUTION
run('https://glidedsky.com/level/crawler-basic-1')

�� ��Cookie��robots.txt��IP��

��

�� ��/level/crawler-basic-2?page={current_page}��

�� ��1-1000��

�� ��Cookie��Referer��

��

import requests
from bs4 import BeautifulSoup
headers = {
    'Cookie': 'your_cookie_value',
    'Host': 'example.com',
    'Referer': 'https://example.com/level/crawler-basic-2',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
}
# ������������������������������
total_number = 0
def get_numbers(response):
    global total_number
    soup = BeautifulSoup(response.text, 'lxml')
    for div in soup.find_all(class_='col-md-1'):
        num = div.text.strip()
        if num.isdigit():
            total_number += int(num)
def main():
    for page in range(1, 1001):
        url = f'http://glidedsky.com/level/crawler-basic-2?page={page}'
        response = requests.get(url, headers=headers)
        get_numbers(response)
        print(f'���������������{page}���...')
if __name__ == "__main__":
    main()

5. **������������**
   - ������������`headers`������`Referer`������������������`locale = zh_CN`���������������������������������������������������
   - ������������������������������`Referer`���`User-Agent`������������������������������������������������������
---
### ���������������������������������
���������������������������������������������������������
- ������������������������������������
- ���������������1000������������������������������������
������������������������������������������
1. **������������������**���������������������������������������������������
2. **������������**���������HTTP������ codes������������������
3. **������������������**���������������������������������������������������������������
������������������������������`requests`���`lxml`������������������������������������������������������(Task���������)���������������������HTTP������������������������������
`ymsander`

上一篇：【SQLI-Lab】靶场搭建

下一篇：ip地址求网络号、子网掩码、主机数、主机数位数和子网主机地址范围最全详解（含例题）

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

��

��

��

发表评论

最新留言

关于作者

推荐文章

������������������������������

���������������������������������������������������

���������������������������������������

发表评论

最新留言

关于作者

推荐文章

��

��

��