爬虫10+练习 1-glidedsky基础两篇爬虫
发布日期:2021-05-11 01:40:18 浏览次数:22 分类:精选文章

本文共 4168 字,大约阅读时间需要 13 分钟。

������������������������������

���������������������������������������������������

���������������������������������������������������������������Python������requests���lxml������������������������������������������������������������������������������

  • ��������������� ������������HTTP���������������������������������������������������������������������������������������������User-Agent���Cookie���Host������������

  • ������������������ ������������������run(url)���������������������URL������������������������������������HTML���������������lxml������etree���������������������������������

  • ��������������������� ������xpath���������������������class='col-md-1'���div������������������������������������������������������������������������������������������

  • ������������������������

    import requests
    from lxml import etree
    headers = {
    'Cookie': 'your_cookie_value',
    'Host': 'example.com',
    'Referer': 'https://example.com/page',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
    }
    def run(url):
    response = requests.get(url, headers=headers)
    html = etree.HTML(response.text)
    numbers = html.xpath('//div[@class="col-md-1"]/text()')
    total = 0
    for num in numbers:
    total += int(num)
    print(total)
    # MAIN EXECUTION
    run('https://glidedsky.com/level/crawler-basic-1')
  • ������������ ���������������������������������������������Cookie������������������������������������������������robots.txt������������������������������������������������IP���������


  • ���������������������������������������

    ������������������������������������������������������������������������������������������������������������������������������������

  • ������������������ ������������������������������������������������������������������������������������������������������������������������������/level/crawler-basic-2?page={current_page}���������������������������������

  • ������������������������ ���������������������������1-1000������������������������������������������������������������������������������������������������������������������������������������������������������������������

  • ������������������������ ������Cookie���Referer���������������������������������������������������������������������������������������������������������������

  • ������������������

    import requests
    from bs4 import BeautifulSoup
    headers = {
    'Cookie': 'your_cookie_value',
    'Host': 'example.com',
    'Referer': 'https://example.com/level/crawler-basic-2',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'
    }
    # ������������������������������
    total_number = 0
    def get_numbers(response):
    global total_number
    soup = BeautifulSoup(response.text, 'lxml')
    for div in soup.find_all(class_='col-md-1'):
    num = div.text.strip()
    if num.isdigit():
    total_number += int(num)
    def main():
    for page in range(1, 1001):
    url = f'http://glidedsky.com/level/crawler-basic-2?page={page}'
    response = requests.get(url, headers=headers)
    get_numbers(response)
    print(f'���������������{page}���...')
    if __name__ == "__main__":
    main()
  • 5. **������������**
    - ������������`headers`������`Referer`������������������`locale = zh_CN`���������������������������������������������������
    - ������������������������������`Referer`���`User-Agent`������������������������������������������������������
    ---
    ### ���������������������������������
    ���������������������������������������������������������
    - ������������������������������������
    - ���������������1000������������������������������������
    ������������������������������������������
    1. **������������������**���������������������������������������������������
    2. **������������**���������HTTP������ codes������������������
    3. **������������������**���������������������������������������������������������������
    ������������������������������`requests`���`lxml`������������������������������������������������������(Task���������)���������������������HTTP������������������������������
    `ymsander`
    上一篇:【SQLI-Lab】靶场搭建
    下一篇:ip地址求网络号、子网掩码、主机数、主机数位数和子网主机地址范围最全详解(含例题)

    发表评论

    最新留言

    做的很好,不错不错
    [***.243.131.199]2025年04月09日 13时55分11秒