知乎回答多线程爬虫案例
发布日期:2021-07-01 02:11:10 浏览次数:2 分类:技术文章

本文共 407 字,大约阅读时间需要 1 分钟。

知乎回答多线程爬虫

模式

  1. 单问题爬取模式

  2. 相似问题爬取模式

输出

文件名 问题题目

文件内容

  1. 问题
  2. 问题id
  3. 回答者昵称
  4. 回答者空间id
  5. 回答者id
  6. 回答者内容

单问题爬取模式

功能 主要通过用户提供的问题id,爬取单个问题下的所有回答

相似问题爬取模式

功能 通过用户提供的起始问题id,以及相关内容爬取数量,利用知乎的相关问题进行自动检索,并不断递归至用户提供的爬取数量(默认数量为20)。

bug 由于知乎具有一定的反爬,所以在相似问题检索时最大的检索量为400,如果到达500就会触发反爬机制,需要用户填写一个验证码才可以继续爬取。(也许未来有时间的话会把获取验证码的部分代码补全,但具体机器打码的实现还是太难了,所以还得自己手动输入验证码)

优点 简单,明了,使用requests库进行爬取,利用递归实现迭代检索,代码量不大。

缺点 功能较少,对线程的把握不够好,可能会出现数据少量缺失的情况。

技术栈:

转载地址:https://maoli.blog.csdn.net/article/details/117299155 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:Scrapy爬取新浪微博用户信息、用户微博及其微博评论转发
下一篇:来跟我学爬虫,爬取网易云音乐的邓紫棋歌单MP3,注意:VIP歌曲不可以爬取

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年05月04日 16时28分29秒