
python爬虫--08 淘宝比价
发布日期:2021-05-14 12:19:01
浏览次数:19
分类:原创文章
本文共 1054 字,大约阅读时间需要 3 分钟。
import requestsimport redef getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = 'utf-8' return r.text except: print('Fail')def parsePage(html,ilt): try: tits = re.findall(r'\"raw_title\"\:\".*?\"',html) pris = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) for i in range(len(tits)): title = eval(tits[i].split(':')[1]) price = eval(pris[i].split(':')[1]) ilt.append([title,price]) except: print("")def printGoodsList(ilt): tplt = "{:4}\t{:32}\t{:8}" print(tplt.format("序号","商品名称","价格")) count = 0 for g in ilt: count +=1 print(tplt.format(count,g[0],g[1]))def main(): page =3 goods = '书包' start_url = 'https://s.taobao.com/search?q=' + goods infolist = [] for i in range(page): try: url = start_url +'&s=' + str(44*i) html = getHTMLText(url) parsePage(html,infolist) except: continue printGoodsList(infolist)main()
发表评论
最新留言
初次前来,多多关照!
[***.217.46.12]2025年05月01日 20时35分39秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
【二叉树】已知后序与中序求先序
2019-03-09
数组范围的动态扩容
2019-03-09
解决Nginx 404 not found问题
2019-03-09
计算机网络之第三章笔记--数据链路层
2019-03-09
创建型模式之简单工厂模式实例及代码操作
2019-03-09
广东外语外贸大学第三届网络安全大赛Writeup
2019-03-09
跟着燕青学分布式事务控制技术方案
2019-03-09
Activiti视频分享
2019-03-09
VS2019 报错: LINK Error 无法找到 MSCOREE.lib的解决办法
2019-03-09
关于JS中的内存溢出与内存泄漏
2019-03-09
JS实现防抖与节流(使用按钮触发事件)
2019-03-09
React 学习笔记 —— refs 属性的三种书写方式
2019-03-09
CCF 模拟2-1 夏令营
2019-03-09
第八届蓝桥杯——杨辉三角
2019-03-09
算法训练——字符串合并
2019-03-09
信息学奥赛一本通【题目索引 + 解答】
2019-03-09
什么时候需要重写HashCode()
2019-03-09
2021-04-23
2019-03-09
Linux编程基础之创建两个子进程而不创建孙子进程
2019-03-09
hadoop 分布式文件系统的计算和高可用
2019-03-09