知乎回答多线程爬虫案例
发布日期:2021-07-01 02:11:10
浏览次数:2
分类:技术文章
本文共 407 字,大约阅读时间需要 1 分钟。
知乎回答多线程爬虫
模式
-
单问题爬取模式
-
相似问题爬取模式
输出
文件名 问题题目
文件内容
- 问题
- 问题id
- 回答者昵称
- 回答者空间id
- 回答者id
- 回答者内容
单问题爬取模式
功能 主要通过用户提供的问题id,爬取单个问题下的所有回答
相似问题爬取模式
功能 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的相关问题进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。
bug 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会触发反爬机制,需要用户填写一个验证码才可以继续爬取。(也许未来有时间的话会把获取验证码的部分代码补全,但具体机器打码的实现还是太难了,所以还得自己手动输入验证码)
优点 简单,明了,使用requests库进行爬取,利用递归实现迭代检索,代码量不大。
缺点 功能较少,对线程的把握不够好,可能会出现数据少量缺失的情况。
技术栈:
转载地址:https://maoli.blog.csdn.net/article/details/117299155 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年05月04日 16时28分29秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
typedef 函数指针
2019-05-02
回调函数
2019-05-02
Linux socket之一:基础函数
2019-05-02
Linux socket之二:面向连接的socket通信实现
2019-05-02
Linux socket之四:使用POLL机制处理多连接
2019-05-02
cat <<EOF
2019-05-02
exec 自定义文件描述符
2019-05-02
shell的 关联数组 和 普通数组
2019-05-02
线程同步: 条件变量pthread_cond_t
2019-05-02
pthread_exit()和return的区别
2019-05-02
c语言 goto语句
2019-05-02
gdb 单步调试
2019-05-02
shmget - 共享内存
2019-05-02
系统调用的实现原理
2019-05-02
leetcode(7) - Reverse Integer
2019-05-02
高效编辑器vim之窗口分割
2019-05-02
gdb 调试
2019-05-02
诊断并解决 SSH 连接慢的方法
2019-05-02