
本文共 4168 字,大约阅读时间需要 13 分钟。
������������������������������
���������������������������������������������������
���������������������������������������������������������������Python������requests
���lxml
������������������������������������������������������������������������������
��������������� ������������HTTP���������������������������������������������������������������������������������������������User-Agent
���Cookie
���Host
������������
������������������ ������������������run(url)
���������������������URL������������������������������������HTML���������������lxml
������etree
���������������������������������
��������������������� ������xpath
���������������������class='col-md-1'
���div������������������������������������������������������������������������������������������
������������������������
import requestsfrom lxml import etreeheaders = { 'Cookie': 'your_cookie_value', 'Host': 'example.com', 'Referer': 'https://example.com/page', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}def run(url): response = requests.get(url, headers=headers) html = etree.HTML(response.text) numbers = html.xpath('//div[@class="col-md-1"]/text()') total = 0 for num in numbers: total += int(num) print(total)# MAIN EXECUTIONrun('https://glidedsky.com/level/crawler-basic-1')
������������ ���������������������������������������������Cookie������������������������������������������������robots.txt
������������������������������������������������IP���������
���������������������������������������
������������������������������������������������������������������������������������������������������������������������������������
������������������ ������������������������������������������������������������������������������������������������������������������������������/level/crawler-basic-2?page={current_page}
���������������������������������
������������������������ ���������������������������1-1000������������������������������������������������������������������������������������������������������������������������������������������������������������������
������������������������ ������Cookie
���Referer
���������������������������������������������������������������������������������������������������������������
������������������
import requestsfrom bs4 import BeautifulSoupheaders = { 'Cookie': 'your_cookie_value', 'Host': 'example.com', 'Referer': 'https://example.com/level/crawler-basic-2', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36'}# ������������������������������total_number = 0def get_numbers(response): global total_number soup = BeautifulSoup(response.text, 'lxml') for div in soup.find_all(class_='col-md-1'): num = div.text.strip() if num.isdigit(): total_number += int(num)def main(): for page in range(1, 1001): url = f'http://glidedsky.com/level/crawler-basic-2?page={page}' response = requests.get(url, headers=headers) get_numbers(response) print(f'���������������{page}���...')if __name__ == "__main__": main()
5. **������������** - ������������`headers`������`Referer`������������������`locale = zh_CN`��������������������������������������������������� - ������������������������������`Referer`���`User-Agent`������������������������������������������������������---### ������������������������������������������������������������������������������������������- ������������������������������������- ���������������1000������������������������������������������������������������������������������1. **������������������**���������������������������������������������������2. **������������**���������HTTP������ codes������������������3. **������������������**���������������������������������������������������������������������������������������������`requests`���`lxml`������������������������������������������������������(Task���������)���������������������HTTP������������������������������`ymsander`
发表评论
最新留言
关于作者
