【爬虫】练习-白红宇的个人博客

【爬虫】练习

发布日期：2021-06-29 02:15:35 浏览次数：3 分类：技术文章

本文共 1081 字，大约阅读时间需要 3 分钟。

京东商品（正常运行）

import requestsurl='https://item.jd.com/100004286349.html'try:    r=requests.get(url)    r.raise_for_status()#状态码，返回200则对    r.encoding=r.apparent_encoding#编码    print(r.text[:1000])except:    print('爬取失败')

亚马逊商品信息（存疑，可能是网站已变更？似乎无法得到有用信息）

import requestsurl='https://www.amazon.cn/gp/product/B01M8L5Z3Y'try:    kv={'user-agent':'Mozilla/5.0'} #修改requestd库——伪装成浏览器，别被亚马逊识破    r=requests.get(url,headers=kv)    r.raise_for_status()#状态码，返回200则对    r.encoding=r.apparent_encoding#编码    print(r.text[:1000])except:    print('爬取失败')

百度、360搜索关键词，返回长度（百度存疑，可能是网站已变更——需要验证码；360可）

#百度import requestskeyword='python'#关键词try:    kv={'wd':keyword} #修改requestd库——伪装成浏览器，别被亚马逊识破    r=requests.get('https://www.baidu.com/s',params=kv)#搜索关键词    print(r.request.url)    r.raise_for_status()    print(len(r.text))except:    print('爬取失败')

#360import requestskeyword='python'try:    kv={'q':keyword} #修改requestd库——伪装成浏览器，别被亚马逊识破    r=requests.get('https://www.so.com/s',params=kv)#搜索关键词    print(r.request.url)    r.raise_for_status()    print(len(r.text))except:    print('爬取失败')

网络图片的爬取和存储

转载地址：https://blog.csdn.net/YWP_2016/article/details/105120724 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：【课程作业】GIS设计与开发之MySQL、WebServie、调用环境云API

下一篇：【课程作业】数据挖掘之主成分分析

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！