知乎回答多线程爬虫案例-白红宇的个人博客

知乎回答多线程爬虫案例

发布日期：2021-07-01 02:11:10 浏览次数：2 分类：技术文章

本文共 407 字，大约阅读时间需要 1 分钟。

模式

输出

文件名 问题题目

文件内容

单问题爬取模式

功能主要通过用户提供的问题id，爬取单个问题下的所有回答

相似问题爬取模式

功能通过用户提供的起始问题id，以及相关内容爬取数量，利用知乎的相关问题进行自动检索，并不断递归至用户提供的爬取数量（默认数量为20）。

bug 由于知乎具有一定的反爬，所以在相似问题检索时最大的检索量为400，如果到达500就会触发反爬机制，需要用户填写一个验证码才可以继续爬取。（也许未来有时间的话会把获取验证码的部分代码补全，但具体机器打码的实现还是太难了，所以还得自己手动输入验证码）

优点简单，明了，使用requests库进行爬取，利用递归实现迭代检索，代码量不大。

缺点功能较少，对线程的把握不够好，可能会出现数据少量缺失的情况。

技术栈：

转载地址：https://maoli.blog.csdn.net/article/details/117299155 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！