发布日期：2021-05-20 06:41:46 浏览次数：18 分类：精选文章

本文共 3656 字，大约阅读时间需要 12 分钟。

数据分析与招聘网站职位数据项目

在大数据价值链中，数据分析 punishments ofis 至关重要。它的目标是通过萃取数据中的有用信息为决策提供支持，从而帮助企业找到潜在的业务规律。本文将通过一个真实的案例分析招聘网站的职位数据，展示数据分析在实际应用中的效果。以下是我们对特定招聘网站职位数据的处理过程和分析结果。

1. 数据建表与处理

我们首先创建了一个名为jobdata的数据仓库，以便简化后续操作。创建数据库和切换到所需数据库的命令如下：

hive (default)> create database jobdata; hive (default)> use jobdata;

随后，我们创建了存储原始职位数据的事实表ods_jobdata_origin，其结构如下：

create table ods_jobdata_origin( city string comment '城市', salary array
   
     comment '薪资', company array
    
      comment '奖励', kill array
     
       comment '技能') comment '原始职位数据表' row format delimited fields terminated by ',' collection items terminated by '-';

将HDFS上的预处理数据导入到上述事实表中，使用以下命令：

hive (jobdata)> load data inpath '/lagou/output/part-r-00000' overwrite into table ods_jobdata_origin;

最后，我们可以通过查询查看数据是否成功导入：

hive (jobdata)> select * from ods_jobdata_origin;

2. 招聘网站职位数据维度分析

根据分析需求，我们对原始数据进行了多维度的切割，分别针对薪资、区域、福利和技能展开分析。以下是具体步骤和结果。

2.1 职位薪资分析

通过对薪资数据的统计分组，我们生成了薪资分布细粒度表t_salary_detail。数据处理逻辑如下：

insert overwrite table t_salary_detail select sal, count(1) from ( select case when salary[0] >= 0 and salary[0] <= 5 then '0-5' when salary[0] >= 6 and salary[0] <= 10 then '6-10' when salary[0] >= 11 and salary[0] <= 15 then '11-15' when salary[0] >= 16 and salary[0] <= 20 then '16-20' when salary[0] >= 21 and salary[0] <= 25 then '21-25' when salary[0] >= 26 and salary[0] <= 30 then '26-30' when salary[0] >= 31 and salary[0] <= 35 then '31-35' when salary[0] >= 36 and salary[0] <= 40 then '36-40' when salary[0] >= 41 then '41+' end as sal from ods_jobdata_origin group by sal;

分析结果如下：

select * from t_salary_detail; |薪资区间|频次| |---|---| |0-5|411| |6-10|178| |11-15|104| |16-20|512| |21-25|362| |26-30|363| |31-35|83| |36-40|66| |41+|66|

这些数据表明，我国大数据领域的职位薪资分布主要集中在11-20k之间，其中11-15k的薪资区间出现频次最高。这一结果为企业在制定薪资策略时提供了重要参考依据。

2.2 职位区域分析

为了更好地理解职位区域分布，我们对原始数据按城市进行分组统计，生成了城市分布表t_city_detail。数据处理命令如下：

insert overwrite table t_city_detail select city, count(1) from ods_jobdata_origin group by city;

查询结果如下：

select * from t_city_detail; |城市|频次| |---|---| |上海|91| |北京|145| |深圳|68| |广州|50| |南京|2| |无锡|1| |杭州|33| |南昌|1| |合肥|3| |天津|1| |成都|19| |南山|1| |武汉|14| |南昌|1| |福州|1| |苏州|2| |西安|3| |郑州|2|

从分析结果可以看出，大数据职位的需求主要集中在一线和速成城市，其中北京、上海和深圳的需求量最为庞大。这一发现表明企业在这些地理位置对大数据人才需求较高，与当地互联网公司（如阿里巴巴等）之间存在密切关联。

2.3 公司福利标签分析

针对企业的福利标签，我们对原始数据进行了分析，生成了福标分布表t_company_detail。数据处理命令如下：

insert overwrite table t_company_detail select company, count(1) from ( select explode(company) as company from ods_jobdata_origin ) group by company;

查询结果如下：

select * from t_company_detail where count > 2; |福利标签|频次| |---|---| |专项奖金|36| |五险一金|85| |弹性工作|68| |免费餐|26| |输展津贴|26| |年终奖金|31| |带薪年假|158| |五险一金|85| |绩效奖金|128| |吸引力评分|23| |年底双薪|68|

通过福标分析可以了解企业的福利待遇情况，帮助求职者在求职过程中做出更明智的选择。这一结果也为企业在制定人才福利政策时提供了参考依据。

2.4 职位技能标签分析

最后，我们对职位中所列出的技能标签进行了统计分析，生成了技能分布表t_kill_detail。数据处理命令如下：

insert overwrite table t_kill_detail select kill, count(1) from ( select explode(kill) as kill from ods_jobdata_origin ) group by kill;

查询结果如下：

select * from t_kill_detail where count > 2; |技能标签|频次| |---|---| |DBA|3| |ETL|67| |Flink|56| |Hadoop|179| |Hive|68| |Java|55| |Linux|4| |MySQL|10| |MongoDB|7| |Oracle|7| |Python|22| |SQL|5| |SQLServer|3| |Scala|27| |Spark|132| |Storm|13| |HBase|7| |Data Engineering|42| |Data Analysis|9| |Data Processing|3| |Database|4| |Database Development|19| |Data Mining|25| |Data Architecture|13| |Architect|4| |Testing|4| |System Architecture|3| |Data Science|25|

从技能分析可以看出，大多数企业对大数据职位要求掌握Hadoop、Spark和数据库相关技能。这两个技能的占比率分别为38%和34%，显示出企业对这两项技术的高度重视。对于想要从事大数据领域的读者来说，这一发现提供了学习方向和职业准备的重要线索。

3. 总结

通过上述分析，我们可以清晰地看到招聘网站职位数据中薪资、区域、福利和技能等多个维度的分布情况。这些数据不仅为企业的人才招聘决策提供了重要的数据支持，也为求职者在职业选择上提供了有价值的参考。同时，这一分析过程也展示了使用Hive对大规模数据的高效处理能力，为后续的业务决策提供了可靠的数据基础。相信这些分析结果能够为相关的业务运营提供帮助。

上一篇：Hadoop大数据综合案例5-SSM可视化基础搭建

下一篇：Hadoop大数据综合案例3-MapReduce数据预处理

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

数据分析与招聘网站职位数据项目

1. 数据建表与处理

2. 招聘网站职位数据维度分析

2.1 职位薪资分析

2.2 职位区域分析

2.3 公司福利标签分析

2.4 职位技能标签分析

3. 总结

发表评论

最新留言

关于作者

推荐文章