33款可用来抓数据的开源爬虫软件工具

发布日期：2021-05-19 16:45:07 浏览次数：23 分类：精选文章

本文共 2211 字，大约阅读时间需要 7 分钟。

33款开源爬虫软件推荐

Java爬虫

Arachnid

Arachnid 是一个基于 Java 的微型爬虫框架，内置简单的 HTML 解析器。通过实现 Arachnid 的子类，可以快速开发简单的 Web 蜘蛛。

crawlzilla

crawlzilla 是一个功能强大的开源爬虫工具，基于 Nutch 核心，支持多种文件格式的抓取，包括 PDF、DOC、PPT 等。其还支持中文分词，适合构建精准搜索引擎。

Ex-Crawler

Ex-Crawler 由守护进程和灵活的 Web 蜘蛛组成，使用数据库存储网页信息。适合需要长期运行的爬虫任务。

Heritrix

Heritrix 是一个模块化的 Java 蜘蛛，支持分布式抓取，严格遵守 robots 文件和 META 标签。

heyDr

heyDr 是一个轻量级的多线程垂直检索爬虫框架，支持自定义 UA 和 cookie，适合搭建垂直搜索引擎前期数据准备。

ItSucks

ItSucks 是一个 Web 蜘蛛开源项目，支持通过下载模板和正则表达式定义下载规则，提供 Swing GUI 操作界面。

jcrawl

jcrawl 是一个轻量且性能优良的 Web 蜘蛛，支持从网页中抓取各种文件类型，基于用户定义的符号（如 email、QQ）。

JSpider

JSpider 是一个功能强大的 Web 蜘蛛框架，行为由配置文件决定，支持高度扩展性，适合开发复杂的网页抓取与数据分析工具。

Leopdo

Leopdo 是一个全文和分类垂直搜索引擎，包含分词系统，支持多语言分词。

MetaSeeker

MetaSeeker 是一个网页抓取、信息提取工具包，支持提取多种文件格式，操作简单，适合个人和小团队使用。

Playfish

Playfish 是一个综合应用多个开源 Java 组件的网页抓取工具，通过 XML 配置文件实现高度可定制性，支持抓取论坛、贴吧等内容。

Spiderman

Spiderman 是一个基于微内核+插件式架构的网络蜘蛛，支持定制 XPath，适合快速开发数据抓取工具。

webmagic

webmagic 是一个模块化的爬虫框架，覆盖整个爬虫生命周期，支持多线程和分布式抓取，提供强大的页面抽取功能。

Web-Harvest

Web-Harvest 是一个 Java 开源 Web 数据抽取工具，支持 XSLT、XQuery 和正则表达式，适合定制化数据提取任务。

WebSPHINX

WebSPHINX 是一个交互式开发环境，包含爬虫工作平台和类包，适合需要灵活配置的用户。

YaCy

YaCy 是一个基于 P2P 的分布式 Web 搜索引擎，同时也是一个 Http 缓存代理服务器。

Python爬虫

QuickRecon

QuickRecon 是一个信息收集工具，支持子域名收集、电子邮件地址收集和人际关系分析，适合网络安全和市场研究。

PyRailgun

PyRailgun 是一个轻量级的网页抓取框架，支持抓取 JavaScript 渲染后的页面内容，适合需要高效抓取的场景。

Scrapy

Scrapy 是一个基于 Twisted 的异步爬虫框架，支持分布式抓取，文档全面，适合复杂网页数据提取。

C++爬虫

hispider

hispider 是一个高性能的爬虫框架，支持多机分布式下载、HTTP 压缩编码和网站定向下载。

larbin

larbin 是一个高性能的爬虫工具，支持 URL 扩展和镜像网站，适合需要大规模数据收集的任务。

Methabot

Methabot 是一个速度优化的爬虫，支持抓取 Web、FTP 和本地文件系统，适合需要多种数据源抓取的场景。

C#爬虫

NWebCrawler

NWebCrawler 是一个开源的网络爬虫程序，支持多线程下载、MIME 类型优先级和爬虫陷阱规避。

Sinawler

Sinawler 是国内第一个微博数据爬虫程序，支持用户数据采集和关系网络构建。

spidernet

spidernet 是一个多线程爬虫程序，支持递归树模型，存储于 SQLite 数据文件中。

Web Crawler

Web Crawler 是一个集成 Lucene 支持的爬虫框架，提供多种过滤器和监听器机制。

网络矿工

网络矿工是一个基于 .NET 平台的开源网站数据采集工具，支持多种文件格式的抓取。

PHP爬虫

OpenWebSpider

OpenWebSpider 是一个多线程爬虫框架，集成多种有趣功能，适合需要复杂数据处理的任务。

PhpDig

PhpDig 是一个搜索引擎框架，支持 PDF、DOC 等文档的索引，适合专业化搜索引擎的开发。

ThinkUp

ThinkUp 是一个社交媒体数据采集工具，支持推特、Facebook 等平台的数据抓取，提供交互分析和可视化展示。

微购

微购是一个基于 ThinkPHP 的购物分享系统，整合多种商品数据接口，适合淘宝客站长使用。

Erlang爬虫

Ebot

Ebot 是一个可伸缩的分布式爬虫，使用 RESTful API 提供 URL 管理功能。

Ruby爬虫

Spidr

Spidr 是一个 Ruby 网页爬虫库，支持将多个网站或特定链接完全抓取到本地。

这些开源爬虫软件涵盖了多种开发语言和功能需求，适合不同场景的用户选择。

上一篇：Java并发系列 | AbstractQueuedSynchronizer源码分析之概要分析

下一篇：Spring AOP的实现原理

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！