Hadoop大数据综合案例2-HttpClient与Python招聘网数据采集-白红宇的个人博客

发布日期：2021-05-20 06:41:44 浏览次数：24 分类：精选文章

本文共 785 字，大约阅读时间需要 2 分钟。

HTTP请求过程当你在浏览器中输入一个URL时，实际上正在发送一个HTTP请求。这个请求包含了请求头信息，比如用户代理、来源页面等。服务器接收到请求后会返回一个HTTP响应，响应中包含了页面内容和响应头信息。浏览器接收响应后，就可以将内容解析并呈现在屏幕上。

数据采集案例在这里，我选择了 Lagou(拉哥)。使用Python的requests库发送请求。首先是设置一个 POST请求，包含pn和kd参数。pn 用于表示页码，kd 用于表示搜索关键词。在循环中，对pn进行迭代，发送多个请求。每次请求Send后，保存响应中的内容到指定文件中。为了保证请求间隔，设置Sleep一秒。

HttpClient数据采集 HttpClient 是 Apache 的一个开源库，用于发送 HTTP 请求。优点是支持多种请求方式，灵活且可靠。基本步骤是创建HttpClient对象，定义请求方式和URL。设置请求头和参数，最后执行请求。这里主要使用 POST 方法，返回结果的数据为Json格式。建议导入相关依赖，避免缺少功能。

Hadoop 磁盘存储准备好Hadoop环境后，使用HttpClient获取数据后，将数据写到HDFS中。首先创建配置对象，获取HDFS文件系统。自动生成保存路径，使用UUID生成文件名，包含当前日期，便于管理。使用IOUtils.copyBytes将数据Copy到输出流中。确保路径存在，避免异常。

注意事项在开发过程中，应考虑使用配置文件管理参数，减少硬编码。优化请求方式，提升处理能力。增加错误处理机制，确保数据正确保存。检验写入结果时，确保文件完整。配置好Hadoop服务前，测试环境必须稳定。

通过以上步骤，可以成功从网络采集数据并保存到HDFS。整个流程需要结合工具和配置，确保高效可靠。最后测试运行，确认生成文件和内容无误。

上一篇：Hadoop大数据综合案例3-MapReduce数据预处理

下一篇：Hadoop大数据综合案例1-环境搭建

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章