
爬虫|菜鸟的学习之路——爬取一本小说
发布日期:2021-05-03 20:39:08
浏览次数:30
分类:原创文章
本文共 1140 字,大约阅读时间需要 3 分钟。
前言:本次爬取的是全书网的某一本小说并以.TXT格式下载到本地。
工具:python3 和 pycharm
Python库:urllib.request 和 re
注意:python是用3以上的版本,库可以在Windows命令提示符里输入pip install+库名
第一步:分析网页
1.首先我们要了解要爬取网站的页面,查看网页源代码。
2.其次要想好代码的步骤和思路。
#获取主页面源代码
#获取章节超链接
#获取小说内容
#下载小说
(全书网某本小说界面)
第二步:开始编程
1.定义库。
import urllib.request
import re
2.定义一个函数egtNovlContent()。
#获取主页面源代码
html = urllib.request.urlopen("http://www.quanshuwang.com/book/9/9055").read()
#解码
html = html.decode("gbk")
#获取章节超链接
urls = re.findall(req, html)
#遍历每章(章节网址和名字)
for i in urls:
novel_url = i[0]
novel_name = i[1]
chapt = urllib.request.urlopen(novel_url).read()
chapt_html = chapt.decode("gbk")
#获取小说内容
reg = '</script> (.*?)<script type="text/javascript">'
#多行匹配
reg = re.compile(reg, re.S)
chapt_content = re.findall(reg, chapt_html)
#删掉多余的字符串(替换) chapt_content = chapt_content[0].replace(" ","")
chapt_content = chapt_content.replace("<br />", "")
#下载小说 print("正在下载:%s"%novel_name)
f = open('{}.txt'.format(novel_name),"w")
f.write(chapt_content)
f.close()
#调用函数getNovelContent()
第三步:运行实践
(pycharm运行)
(本地查看,爬取成功)
源代码如下:
结束语:第一次写博客,写的很糙,望包含,我是初学者,菜鸟一枚,多多学习。
——sum
发表评论
最新留言
路过,博主的博客真漂亮。。
[***.116.15.85]2025年04月02日 23时53分42秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
Scala字符串与容器
2019-03-05
关于JTAG,你知道的和不知道的都在这里
2019-03-05
【CTF】CTFHub 技能树 文件头检查 writeup
2019-03-05
web服务器-并发服务器2
2019-03-05
【算法】解析位运算
2019-03-05
【Servlet】web.xml中welcome-file-list的作用
2019-03-05
【SqlServer】如何把本地SqlServer数据库部署到远程服务器上
2019-03-05
【ASP.NET】ASP.NET中权限验证使用OnAuthorization实现
2019-03-05
第9章 用户自己建立数据类型
2019-03-05
02、MySQL—数据库基本操作
2019-03-05
RedHat Linux-配置YUM仓库
2019-03-05
Redis数据类型
2019-03-05
1907: 树的路径覆盖
2019-03-05
1475: 方格取数
2019-03-05
1787: [Ahoi2008]Meet 紧急集合
2019-03-05
鸿蒙js开发10 从底部弹起的滚动选择器
2019-03-05
VueRouter爬坑第一篇-简单实践
2019-03-05
webpack实践(一)- 先入个门
2019-03-05
webpack实践(三)- html-webpack-plugin
2019-03-05