项目实战从0到1之hive（23）企业级数据仓库构建（五）：数据仓库项目实战

发布日期：2021-05-14 00:17:05 浏览次数：12 分类：博客文章

本文共 24325 字，大约阅读时间需要 81 分钟。

一、电商业务简介

1.1 电商业务流程

1.2 电商常识（SKU、SPU）

SKU=Stock Keeping Unit（库存量基本单位）。现在已经被引申为产品统一编号的简称，每种产品均对应有唯一的 SKU 号

SPU（Standard Product Unit）：是商品信息聚合的最小单位，是一组可复用、易检索的标准化信息集合

例如：iPhoneX 手机就是 SPU。一台银色、128G 内存的、支持联通网络的 iPhoneX，就是 SKU

SPU 表示一类商品。好处就是：可以共用商品图片，海报、销售属性等

1.3 电商业务表结构

电商表结构

1.3.1 订单表（order_info）

1.3.2 订单详情表（order_detail）

1.3.3 SKU 商品表（sku_info）

1.3.4 用户表（user_info）

1.3.5 商品一级分类表（base_category1）

1.3.6 商品二级分类表（base_category2）

1.3.7 商品三级分类表（base_category3）

1.3.8 支付流水表（payment_info）

1.3.9 省份表（base_province）

1.3.10 地区表（base_region）

1.3.11 品牌表（base_trademark）

1.3.12 订单状态表（order_status_log）

1.3.13 SPU 商品表（spu_info）

1.3.14 商品评论表（comment_info）

1.3.15 退单表（order_refund_info）

1.3.16 加购表（cart_info）

1.3.17 商品收藏表（favor_info）

1.3.18 优惠券领用表（coupon_use）

1.3.19 优惠券表（coupon_info）

1.3.20 活动表（activity_info）

1.3.21 活动订单关联表（activity_order）

1.3.22 优惠规则表（activity_rule）

1.3.23 编码字典表（base_dic）

1.3.24 活动参与商品表（activity_sku）（暂不导入）

1.4 时间相关表

1.4.1 时间表（date_info）

1.4.2 假期表（holiday_info）

1.4.3 假期年表（holiday_year）

二、业务数据采集模块

2.1 MySQL 安装

MySQL详细安装步骤请点击博客

前提：务必使用root用户安装

2.1.1 安装包准备

需要使用的安装包为：mysql-libs.zip

1）查看 MySQL 是否安装，如果安装了，卸载 MySQL

[zsy@node01 ~]$ rpm -qa | grep mysqlmysql-libs-5.1.73-8.el6_8.x86_64[zsy@node01 ~]$ su root密码：[root@node01 zsy]# rpm -e --nodeps mysql-libs-5.1.73-8.el6_8.x86_64[root@node01 zsy]# rpm -qa | grep mysql[root@node01 zsy]#

2）解压 mysql-libs.zip 文件到当前目录

[root@node01 software]# unzip mysql-libs.zip Archive:  mysql-libs.zip   creating: mysql-libs/  inflating: mysql-libs/MySQL-client-5.6.24-1.el6.x86_64.rpm    inflating: mysql-libs/mysql-connector-java-5.1.27.tar.gz    inflating: mysql-libs/MySQL-server-5.6.24-1.el6.x86_64.rpm

3）进入到 mysql-libs 文件夹下

[root@node01 software]# ll总用量 75992drwxr-xr-x 2 root root     4096 6月  26 2015 mysql-libs-rw-rw-r-- 1 zsy  zsy  77807942 3月   3 2017 mysql-libs.zip[root@node01 software]# cd mysql-libs[root@node01 mysql-libs]# ll总用量 76048-rw-r--r-- 1 root root 18509960 3月  26 2015 MySQL-client-5.6.24-1.el6.x86_64.rpm-rw-r--r-- 1 root root  3575135 12月  1 2013 mysql-connector-java-5.1.27.tar.gz-rw-r--r-- 1 root root 55782196 3月  26 2015 MySQL-server-5.6.24-1.el6.x86_64.rpm

2.1.2 安装 MySql 服务器

1）安装 mysql 服务端

[root@node01 mysql-libs]# rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm

2）查看产生的随机密码

[root@node01 mysql-libs]# cat /root/.mysql_secret# The random password set for the root user at Wed Mar 11 12:27:14 2020 (local time): Ad8YjoCm9eRhdE6Y

3）查看 mysql 状态

[root@node01 mysql-libs]# service mysql statusMySQL is not running                                       [失败]

4）启动 mysql

[root@node01 mysql-libs]# service mysql startStarting MySQL..                                           [确定]

2.1.3 安装 MySql 客户端

1）安装 mysql 客户端

[root@node01 mysql-libs]# rpm -ivh MySQL-client-5.6.24-1.el6.x86_64.rpmPreparing...                ########################################### [100%]   1:MySQL-client           ########################################### [100%]

2）连接 mysql

[root@node01 mysql-libs]# mysql -uroot -pAd8YjoCm9eRhdE6Y

3）修改密码

mysql> SET PASSWORD=PASSWORD('hadoop');Query OK, 0 rows affected (0.00 sec)

4）退出 mysql

mysql> exit

2.1.4 MySql 中 user 表中主机配置

需求：配置只要是 root 用户+密码，在任何主机上都能登录 MySQL 数据库

1）进入 mysql

[root@node01 mysql-libs]# mysql -uroot -phadoop

2）显示数据库

mysql>show databases;

3）使用 mysql 数据库

mysql>use mysql;

4）展示 mysql 数据库中的所有表

mysql>show tables;

5）查询 user 表

mysql>select User, Host, Password from user;

6）修改 user 表，把 Host 表内容修改为%

mysql>update user set host='%' where host='localhost';

7）删除 root 用户的其他 host

mysql>delete from user where Host='hadoop102';delete from user where Host='127.0.0.1';delete from user where Host='::1';

8）刷新

mysql>flush privileges;

9）退出

mysql>quit;

2.2 Sqoop 安装

一、Sqoop概述

【1】简介

Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具，来自于Apache软件基金会提供

核心的功能有两个：
导入、迁入
导出、迁出
导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统
导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 MySQL等 Sqoop 的本质还是一个命令行工具，和 HDFS，Hive 相比，并没有什么高深的理论

Sqoop工作机制：
是将导入或导出命令翻译成MapReduce程序来实现，在翻译出的MapReduce中主要是对InputFormat和OutputFormat进行定制

Hadoop生态系统包括：HDFS、Hive、HBase等
RDBMS体系包括：Mysql、Oracle、DB2等
Sqoop可以理解为：“SQL 到 Hadoop 和 Hadoop 到SQL”

二、Sqoop安装

前提概述：将来Sqoop在使用的时候有可能会跟那些系统或者组件打交道？

HDFS， MapReduce， YARN， ZooKeeper， Hive， HBase， MySQL

Sqoop就是一个工具，只需要在一个节点上进行安装即可

1.上传Sqoop包和mysql驱动包

2.解压
tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C ../servers/
3.配置环境变量

vim /etc/profile/sqoop.sh

添加如下内容↓↓↓ （记得 source /etc/profile）
export SQOOP_HOME=/export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alphaexport PATH=$PATH:$SQOOP_HOME/bin
4.进入sqoop的conf目录，配置sqoop-env.sh
1.cp sqoop-env-template.sh sqoop-env.sh2.vim sqoop-env.shexport HADOOP_COMMON_HOME=/export/servers/hadoopexport HADOOP_MAPRED_HOME=/export/servers/hadoopexport HIVE_HOME=/export/servers/hiveexport ZOOKEEPER_HOME=/export/servers/zookeeperexport ZOOCFGDIR=/export/servers/zookeeperexport HBASE_HOME=/export/servers/hbase
5.加入mysql的jdbc驱动包
`cp /hive/lib/mysql-connector-java-5.1.32.jar $SQOOP_HOME/lib/`
6.验证安装是否成功

sqoop-version 或者 sqoop version

三、Sqoop使用场景及常用参数

业务需求分析

Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出，其中主要使用了import和export这两个工具。这两个工具非常强大，提供了很多选项帮助我们完成数据的迁移和同步。比如，下面两个潜在的需求：

业务数据存放在关系数据库中，如果数据量达到一定规模后需要对其进行分析或同统计，单纯使用关系数据库可能会成为瓶颈，这时可以将数据从业务数据库数据导入（import）到Hadoop平台进行离线分析

对大规模的数据在Hadoop平台上进行分析以后，可能需要将结果同步到关系数据库中作为业务的辅助数据，这时候需要将Hadoop平台分析后的数据导出（export）到关系数据库

这里，我们介绍Sqoop完成上述基本应用场景所使用的import和export工具，通过一些简单的例子来说明这两个工具是如何做到的

工具通用选项

import 和 export工具有些通用的选项，如下表所示：

选项	含义说明
`--connect <jdbc-uri>`	指定JDBC连接字符串
`--connection-manager <class-name>`	指定要使用的连接管理器类
`--driver <class-name>`	指定要使用的JDBC驱动类
`--hadoop-mapred-home <dir>`	指定$HADOOP_MAPRED_HOME路径
`--help`	打印用法帮助信息
`--password-file`	设置用于存放认证的密码信息文件的路径
`-P`	从控制台读取输入的密码
`--password <password>`	设置认证密码
`--username <username>`	设置认证用户名
`--verbose`	打印详细的运行信息
`--connection-param-file <filename>`	可选，指定存储数据库连接参数的属性文件

数据导入工具import

import工具，是将HDFS平台外部的结构化存储系统中的数据导入到Hadoop平台，便于后续分析；我们先看一下import工具的基本选项及其含义，如下表所示：

选项	含义说明
`--append`	将数据追加到HDFS上一个已存在的数据集上
`--as-avrodatafile`	将数据导入到Avro数据文件
`--as-sequencefile`	将数据导入到SequenceFile
`--as-textfile`	将数据导入到普通文本文件（默认）
`--boundary-query <statement>`	边界查询，用于创建分片（InputSplit）
`--columns <col,col,col…>`	从表中导出指定的一组列的数据
`--delete-target-dir`	如果指定目录存在，则先删除掉
`--direct`	使用直接导入模式（优化导入速度）
`--direct-split-size <n>`	分割输入stream的字节大小（在直接导入模式下）
`--fetch-size <n>`	从数据库中批量读取记录数
`--inline-lob-limit <n>`	设置内联的LOB对象的大小
`-m,--num-mappers <n>`	使用n个map任务并行导入数据
`-e,--query <statement>`	导入的查询语句
`--split-by <column-name>`	指定按照哪个列去分割数据
`--table <table-name>`	导入的源表表名
`--target-dir <dir>`	导入HDFS的目标路径
`--warehouse-dir <dir>`	HDFS存放表的根路径
`--where <where clause>`	指定导出时所使用的查询条件
`-z,--compress`	启用压缩
`--compression-codec <c>`	指定Hadoop的codec方式（默认gzip）
`--null-string <null-string>`	如果指定列为字符串类型，使用指定字符串替换值为null的该类列的值
`--null-non-string <null-string>`	如果指定列为非字符串类型，使用指定字符串替换值为null的该类列的值

下面，我们通过实例来说明，在实际中如何使用这些选项

【1】全量导入mysql表数据到HIVE

方式一：先复制表结构到hive中再导入数据

1.将关系型数据的表结构复制到hive中

将mysql中的emp_add表的结构复制到hive中sqoop create-hive-table \--connect jdbc:mysql://node01:3306/userdb \--table emp_add \--username root \--password hadoop \--hive-table hivedatabase.emp_add_sp注：  --table emp_add为mysql中的数据库userdb中的表。         --hive-table emp_add_sp为hive中hivedatabase库中新建的表名称

2.将MySQL数据库中整个表数据导入到Hive表

将MySQL数据库 userdb 中 emp_add 表的数据导入到Hive表中sqoop import \--connect jdbc:mysql://node01:3306/userdb \--table emp_add \--username root \--password hadoop \--hive-table emp_add \--hive-import

方式二：直接复制表结构数据到hive中

将MySQL数据库 userdb 中 emp_conn 表的结构以及数据导入到Hive的hivedatabase库中sqoop import \--connect jdbc:mysql://node01:3306/userdb \--username root \--password hadoop \--table emp_conn \--hive-import \--m 1 \--hive-database hivedatabase

2】导入表数据子集

导入表数据子集(where过滤)

--where可以指定从关系数据库导入数据时的查询条件；它执行在数据库服务器相应的SQL查询，并将结果存储在HDFS的目标目录sqoop import \--connect jdbc:mysql://node01:3306/userdb \--table emp_add --m 1 \--where "city ='sec-bad'" \--username root \--password hadoop \--target-dir /wherequery

导入表数据子集(query查询)

注意事项：使用query sql语句来进行查找不能加参数--table ;并且必须要添加where条件;并且where条件后面必须带一个$CONDITIONS 这个字符串;并且这个sql语句必须用单引号，不能用双引号;sqoop命令中，--split-by id 通常配合-m 10参数使用；用于指定根据哪个字段进行划分并启动多少个maptask。sqoop import \--connect jdbc:mysql://node01:3306/userdb \--username root \--password hadoop \--target-dir /wherequery2 \--query 'select id,name,deg from emp WHERE id>1203 and $CONDITIONS' \--split-by id \--fields-terminated-by '\t' \--m 2

Append模式增量导入

sqoop import \--connect jdbc:mysql://node01:3306/userdb \--table emp --m 1 \--username root \--password hadoop \--target-dir /appendresult \--incremental append \--check-column id \--last-value  1205注：--check-column (col)        用来指定一些列，这些列在增量导入时用来检查这些数据是否作为增量数据进行导入，和关系型数据库中的自增字段及时间戳类似这些被指定的列的类型不能使任意字符类型，如char、varchar等类型都是不可以的，同时-- check-column可以去指定多个列--incremental (mode)    append：追加，比如对大于last-value指定的值之后的记录进行追加导入；lastmodified：最后的修改时间，追加last-value指定的日期之后的记录--last-value (value)指定自从上次导入后列的最大值（大于该指定的值），也可以自己设定某一值

Lastmodified模式增量导入

append模式：sqoop import \--connect jdbc:mysql://node01:3306/userdb \--table customertest \--username root \--password hadoop \--target-dir /lastmodifiedresult \--check-column last_mod \--incremental lastmodified \--last-value "2019-05-28 18:42:06" \--m 1 \--appendmerge-key模式：sqoop import \--connect jdbc:mysql://node01:3306/userdb \--username root \--password hadoop \--table customertest \--target-dir /lastmodifiedresult \--check-column last_mod \--incremental lastmodified \--last-value "2019-05-28 18:42:06" \--m 1 \--merge-key id注:lastmodified模式去处理增量时，会将大于等于last-value值的数据当做增量插入

数据导出工具export

选项	含义说明
`--validate <class-name>`	启用数据副本验证功能，仅支持单表拷贝，可以指定验证使用的实现类
`--validation-threshold <class-name>`	指定验证门限所使用的类
`--direct`	使用直接导出模式（优化速度）
`--export-dir <dir>`	导出过程中HDFS源路径
`-m,--num-mappers <n>`	使用n个map任务并行导出
`--table <table-name>`	导出的目的表名称
`--call <stored-proc-name>`	导出数据调用的指定存储过程名
`--update-key <col-name>`	更新参考的列名称，多个列名使用逗号分隔
`--update-mode <mode>`	指定更新策略，包括：updateonly（默认）、allowinsert
`--input-null-string <null-string>`	使用指定字符串，替换字符串类型值为null的列
`--input-null-non-string <null-string>`	使用指定字符串，替换非字符串类型值为null的列
`--staging-table <staging-table-name`	在数据导出到数据库之前，数据临时存放的表名称
`--clear-staging-table>`	清除工作区中临时存放的数据
`--batch`	使用批量模式导出

默认模式导出HDFS数据到mysql

sqoop export \--connect jdbc:mysql://node01:3306/userdb \--username root \--password hadoop \--table employee \--export-dir /emp/emp_data--input-fields-terminated-by '\t'  注:--input-fields-terminated-by '\t'  指定文件中的分隔符--columns 选择列并控制它们的排序。当导出数据文件和目标表字段列顺序完全一致的时候可以不写;否则以逗号为间隔选择和排列各个列。没有被包含在–columns后面列名或字段要么具备默认值，要么就允许插入空值,否则数据库会拒绝接受sqoop导出的数据，导致Sqoop作业失败--export-dir 导出目录，在执行导出的时候，必须指定这个参数，同时需要具备--table或--call参数两者之一，--table是指的导出数据库当中对应的表，--call是指的某个存储过程--input-null-string --input-null-non-string如果没有指定第一个参数，对于字符串类型的列来说，“NULL”这个字符串就回被翻译成空值，如果没有使用第二个参数，无论是“NULL”字符串还是说空字符串也好，对于非字符串类型的字段来说，这两个类型的空串都会被翻译成空值;比如：--input-null-string "\\N" --input-null-non-string "\\N"

更新导出（updateonly模式）

-- update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔-- updatemod，指定updateonly（默认模式），仅仅更新已存在的数据记录，不会插入新纪录更新导出：sqoop export \--connect jdbc:mysql://node01:3306/userdb \--username root \--password hadoop \--table updateonly \--export-dir /updateonly_2/ \--update-key id \--update-mode updateonly

更新导出（allowinsert模式）

-- update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔-- updatemod，指定updateonly（默认模式），仅仅更新已存在的数据记录，不会插入新纪录更新导出：sqoop export \--connect jdbc:mysql://node01:3306/userdb \--username root --password hadoop \--table allowinsert \--export-dir /allowinsert_2/ \--update-key id \--update-mode allowinsert

2.3 业务数据生成

2.3.1 连接 MySQL

通过 MySQL 操作可视化工具 SQLyog 连接 MySQL

2.3.2 建表语句

1）通过 SQLyog 创建数据库 gmall

2）设置数据库编码

3）导入数据库结构脚本（gmall2020-03-16.sql）

2.3.3 生成业务数据

1）在 node01 的 /opt/modules/目录下创建 db_log 文件夹

2）把 gmall-mock-db-2020-03-16-SNAPSHOT.jar 和 application.properties 上传到 node01

的/opt/module/db_log 路径上

3）根据需求修改 application.properties 相关配置

logging.level.root=infospring.datasource.driver-class-name=com.mysql.jdbc.Driverspring.datasource.url=jdbc:mysql://node01:3306/gmall?characterEncoding=utf-8&useSSL=false&serverTimezone=GMT%2B8spring.datasource.username=rootspring.datasource.password=hadooplogging.pattern.console=%m%nmybatis-plus.global-config.db-config.field-strategy=not_null#业务日期mock.date=2020-03-10#是否重置mock.clear=1#是否生成新用户mock.user.count=50#男性比例mock.user.male-rate=20#收藏取消比例mock.favor.cancel-rate=10#收藏数量mock.favor.count=100#购物车数量mock.cart.count=10#每个商品最多购物个数mock.cart.sku-maxcount-per-cart=3#用户下单比例mock.order.user-rate=80#用户从购物中购买商品比例mock.order.sku-rate=70#是否参加活动mock.order.join-activity=1#是否使用购物券mock.order.use-coupon=1#购物券领取人数mock.coupon.user-count=10#支付比例mock.payment.rate=70#支付方式 支付宝：微信 ：银联mock.payment.payment-type=30:60:10#评价比例 好：中：差：自动mock.comment.appraise-rate=30:10:10:50#退款原因比例：质量问题 商品描述与实际描述不一致 缺货 号码不合适 拍错 不想买了 其他mock.refund.reason-rate=30:10:20:5:15:5:5

4）并在该目录下执行，如下命令，生成 2020-03-10 日期数据：

java -jar gmall-mock-db-2020-03-16-SNAPSHOT.jar

5）在配置文件 application.properties 中修改

mock.date=2020-03-11mock.clear=0

6）再次执行命令，生成 2020-03-11 日期数据：

java -jar gmall-mock-db-2020-03-16-SNAPSHOT.jar

2.4 同步策略

数据同步策略的类型包括：全量表、增量表、新增及变化表

全量表：存储完整的数据

增量表：存储新增加的数据

新增及变化表：存储新增加的数据和变化的数据

特殊表：只需要存储一次

2.4.1 全量同步策略

2.4.2 增量同步策略

2.4.3 新增及变化策略

每日新增及变化，就是存储创建时间和操作时间都是今天的数据

适用场景为，表的数据量大，既会有新增，又会有变化

例如：用户表、订单表、优惠卷领用表

2.4.4 特殊策略

某些特殊的维度表，可不必遵循上述同步策略

1）客观世界维度

没变化的客观世界的维度（比如性别，地区，民族，政治成分，鞋子尺码）可以只存一

份固定值。

2）日期维度

日期维度可以一次性导入一年或若干年的数据

3）地区维度

省份表、地区表

2.5 业务数据导入 HDFS

2.5.1 分析表同步策略

2.5.2 脚本编写

1）创建脚本

vim mysql_to_hdfs.sh

2）添加如下内容：

vim mysql_to_hdfs.sh

#! /bin/bashsqoop=/opt/modules/sqoop/bin/sqoopdo_date=`date -d '-1 day' +%F`if [[ -n "$2" ]]; thendo_date=$2fiimport_data(){$sqoop import \--connect jdbc:mysql://node01:3306/gmall \--username root \--password hadoop \--target-dir /origin_data/gmall/db/$1/$do_date \--delete-target-dir \--query "$2 and \$CONDITIONS" \--num-mappers 1 \--fields-terminated-by '\t' \--compress \--compression-codec lzop \--null-string '\\N' \--null-non-string '\\N'hadoop jar /opt/modules/hadoop/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /origin_data/gmall/db/$1/$do_date}import_order_info(){import_data order_info "selectid,final_total_amount,order_status,user_id,out_trade_no,create_time,operate_time,province_id,benefit_reduce_amount,original_total_amount,feight_feefrom order_infowhere (date_format(create_time,'%Y-%m-%d')='$do_date'or date_format(operate_time,'%Y-%m-%d')='$do_date')"}import_coupon_use(){import_data coupon_use "selectid,coupon_id,user_id,order_id,coupon_status,get_time,using_time,used_timefrom coupon_usewhere (date_format(get_time,'%Y-%m-%d')='$do_date'or date_format(using_time,'%Y-%m-%d')='$do_date'or date_format(used_time,'%Y-%m-%d')='$do_date')"}import_order_status_log(){import_data order_status_log "selectid,order_id,order_status,operate_timefrom order_status_logwheredate_format(operate_time,'%Y-%m-%d')='$do_date'"}import_activity_order(){import_data activity_order "selectid,activity_id,order_id,create_timefrom activity_orderwheredate_format(create_time,'%Y-%m-%d')='$do_date'"}import_user_info(){import_data "user_info" "selectid,name,birthday,gender,email,user_level,create_time,operate_timefrom user_infowhere (DATE_FORMAT(create_time,'%Y-%m-%d')='$do_date'or DATE_FORMAT(operate_time,'%Y-%m-%d')='$do_date')"}import_order_detail(){import_data order_detail "selectod.id,order_id,user_id,sku_id,sku_name,order_price,sku_num,od.create_timefrom order_detail odjoin order_info oion od.order_id=oi.idwhereDATE_FORMAT(od.create_time,'%Y-%m-%d')='$do_date'"}import_payment_info(){import_data "payment_info" "selectid,out_trade_no,order_id,user_id,alipay_trade_no,total_amount,subject,payment_type,payment_timefrom payment_infowhereDATE_FORMAT(payment_time,'%Y-%m-%d')='$do_date'"}import_comment_info(){import_data comment_info "selectid,user_id,sku_id,spu_id,order_id,appraise,comment_txt,create_timefrom comment_infowhere date_format(create_time,'%Y-%m-%d')='$do_date'"}import_order_refund_info(){import_data order_refund_info "selectid,user_id,order_id,sku_id,refund_type,refund_num,refund_amount,refund_reason_type,create_timefrom order_refund_infowheredate_format(create_time,'%Y-%m-%d')='$do_date'"}import_sku_info(){import_data sku_info "selectid,spu_id,price,sku_name,sku_desc,weight,tm_id,category3_id,create_timefrom sku_info where 1=1"}import_base_category1(){import_data "base_category1" "selectid,namefrom base_category1 where 1=1"}import_base_category2(){import_data "base_category2" "selectid,name,category1_idfrom base_category2 where 1=1"}import_base_category3(){import_data "base_category3" "selectid,name,category2_idfrom base_category3 where 1=1"}import_base_province(){import_data base_province "selectid,name,region_id,area_code,iso_codefrom base_provincewhere 1=1"}import_base_region(){import_data base_region "selectid,region_namefrom base_regionwhere 1=1"}import_base_trademark(){import_data base_trademark "selecttm_id,tm_namefrom base_trademarkwhere 1=1"}import_spu_info(){import_data spu_info "selectid,spu_name,category3_id,tm_idfrom spu_infowhere 1=1"}import_favor_info(){import_data favor_info "selectid,user_id,sku_id,spu_id,is_cancel,create_time,cancel_timefrom favor_infowhere 1=1"}import_cart_info(){import_data cart_info "selectid,user_id,sku_id,cart_price,sku_num,sku_name,create_time,operate_time,is_ordered,order_timefrom cart_infowhere 1=1"}import_coupon_info(){import_data coupon_info "selectid,coupon_name,coupon_type,condition_amount,condition_num,activity_id,benefit_amount,benefit_discount,create_time,range_type,spu_id,tm_id,category3_id,limit_num,operate_time,expire_timefrom coupon_infowhere 1=1"}import_activity_info(){import_data activity_info "selectid,activity_name,activity_type,start_time,end_time,create_timefrom activity_infowhere 1=1"}import_activity_rule(){import_data activity_rule "selectid,activity_id,condition_amount,condition_num,benefit_amount,benefit_discount,benefit_levelfrom activity_rulewhere 1=1"}import_base_dic(){import_data base_dic "selectdic_code,dic_name,parent_code,create_time,operate_timefrom base_dicwhere 1=1"}case $1 in"order_info")import_order_info;;"base_category1")import_base_category1;;"base_category2")import_base_category2;;"base_category3")import_base_category3;;"order_detail")import_order_detail;;"sku_info")import_sku_info;;"user_info")import_user_info;;"payment_info")import_payment_info;;"base_province")import_base_province;;"base_region")import_base_region;;"base_trademark")import_base_trademark;;"activity_info")import_activity_info;;"activity_order")import_activity_order;;"cart_info")import_cart_info;;"comment_info")import_comment_info;;"coupon_info")import_coupon_info;;"coupon_use")import_coupon_use;;"favor_info")import_favor_info;;"order_refund_info")import_order_refund_info;;"order_status_log")import_order_status_log;;"spu_info")import_spu_info;;"activity_rule")import_activity_rule;;"base_dic")import_base_dic;;"first")import_base_category1import_base_category2import_base_category3import_order_infoimport_order_detailimport_sku_infoimport_user_infoimport_payment_infoimport_base_provinceimport_base_regionimport_base_trademarkimport_activity_infoimport_activity_orderimport_cart_infoimport_comment_infoimport_coupon_useimport_coupon_infoimport_favor_infoimport_order_refund_infoimport_order_status_logimport_spu_infoimport_activity_ruleimport_base_dic;;"all")import_base_category1import_base_category2import_base_category3import_order_infoimport_order_detailimport_sku_infoimport_user_infoimport_payment_infoimport_base_trademarkimport_activity_infoimport_activity_orderimport_cart_infoimport_comment_infoimport_coupon_useimport_coupon_infoimport_favor_infoimport_order_refund_infoimport_order_status_logimport_spu_infoimport_activity_ruleimport_base_dic;;esac

说明 1：

[ -n 变量值 ] 判断变量的值，是否为空-- 变量的值，非空，返回 true-- 变量的值，为空，返回 false

说明 2：

查看 date 命令的使用，date --help

2）修改脚本权限

chmod 770 mysql2hdfs.sh

3）初次导入

mysql2hdfs.sh first 2020-03-10

4）每日导入

mysql2hdfs.sh all 2020-03-11

注意：此过程可能会执行10-20分钟左右，请耐心等待！

2.5.3 项目经验

Hive 中的 Null 在底层是以“\N”来存储，而 MySQL 中的 Null 在底层就是 Null，为了

保证数据两端的一致性。在导出数据时采用–input-null-string 和–input-null-non-string 两个参

数。导入数据时采用–null-string 和–null-non-string

三、数据环境准备

3.1 安装 Hive2.3

（PS：博主曾经安装过Hive，不过版本是Hive-1.1.0的，但是这次使用的是Hive2.3，配置稍有不同，所以就重新在这里写一遍配置！）

1）上传 apache-hive-2.3.0-bin.tar.gz 到/opt/software 目录下，并解压到/opt/modules

tar -zxf apache-hive-2.3.6-bin.tar.gz -C /opt/modules

2）修改 apache-hive-2.3.6-bin 名称为 hive

mv apache-hive-2.3.6-bin hive

3）将 Mysql 的 mysql-connector-java-5.1.27-bin.jar 拷贝到 /opt/modules/hive/lib

cp /opt/software/mysql-libs/mysql-connector-java-5.1.27/mysql-connector-java-5.1.27-bin.jar /opt/modules/hive/lib/

4）在/opt/modules/hive/conf 路径上，修改hive-env.sh，添加如下配置

5）在/opt/modules/hive/conf 路径上，创建 hive-site.xml 文件

vim hive-site.xml


    
    
            
                     
      
       javax.jdo.option.ConnectionURL
                      
      
       jdbc:mysql://node01:3306/hive?createDatabaseIfNotExist=true
              
             
                     
      
       javax.jdo.option.ConnectionDriverName
                      
      
       com.mysql.jdbc.Driver
              
             
                     
      
       javax.jdo.option.ConnectionUserName
                      
      
       root
              
             
                     
      
       javax.jdo.option.ConnectionPassword
                      
      
       hadoop
              
             
                     
      
       hive.metastore.warehouse.dir
                      
      
       /user/hive/warehouse
              
             
                     
      
       hive.cli.print.header
                      
      
       true
              
             
                     
      
       hive.cli.print.current.db
                      
      
       true
              
             
                     
      
       hive.metastore.schema.verification
                      
      
       false
              
             
                     
      
       datanucleus.schema.autoCreateAll
                      
      
       true
              
             
                     
      
       hive.server2.thrift.bind.host
                      
      
       node01
              
             
                     
      
       hive.metastore.uris
                      
      
       thrift://node01:9083

6）启动！

nohup ./bin/hive --service metastore &nohup ./bin/hiveserver2 &./bin/beeline!connect jdbc:hive2://node01:10000

3.2 Hive 集成引擎 Tez

Tez 是一个 Hive 的运行引擎，性能优于 MR。为什么优于 MR 呢？看下图

用 Hive 直接编写 MR 程序，假设有四个有依赖关系的 MR 作业，上图中，绿色是 ReduceTask，云状表示写屏蔽，需要将中间结果持久化写到 HDFS

Tez 可以将多个有依赖的作业转换为一个作业，这样只需写一次 HDFS，且中间节点较少，从而大大提升作业的计算性能

3.2.1 安装包准备

1）下载 tez 的依赖包：

2）将 apache-tez-0.9.1-bin.tar.gz 上传到 HDFS 的 /tez 目录下

hdfs dfs -mkdir /tezhdfs dfs -put /opt/software/apache-tez-0.9.1-bin.tar.gz /tez

3）解压缩 apache-tez-0.9.1-bin.tar.gz,并重命名为 tez

cd /opt/modules/hive/conf

2）在 Hive 的/opt/modules/hive/conf 下面创建一个 tez-site.xml 文件

vim tez-site.xml

添加如下内容


    
    
            
                     
      
       tez.lib.uris
                      
      
       ${fs.defaultFS}/tez/apache-tez-0.9.1-bin.tar.gz
              
             
                     
      
       tez.use.cluster.hadoop-libs
                      
      
       true
              
             
                     
      
       tez.history.logging.service.class
                      
      
       org.apache.tez.dag.history.logging.ats.ATSHistoryLoggin        gService

3）在 hive-site.xml 文件中添加如下配置，更改 hive 计算引擎


            
     
      hive.execution.engine
             
     
      tez

3.2.3 测试

1）启动 Hive

2）创建表

create table student(id int,name string);

3）向表中插入数据

insert into student values(1,"zhangsan");

4）如果没有报错就表示成功了

select * from student;

3.2.4 注意事项

1）运行 Tez 时检查到用过多内存而被 NodeManager 杀死进程问题：

Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSessionhas already shutdown. Application application_1546781144082_0005failed 2 times due to AM Container for appattempt_1546781144082_0005_000002 exited with exitCode: -103For more detailed output, check application trackingpage:http://hadoop103:8088/cluster/app/application_1546781144082_0005Then, click on links to logs of each attempt.Diagnostics: Container[pid=11116,containerID=container_1546781144082_0005_02_000001]is running beyond virtual memory limits. Current usage: 216.3 MBof 1 GB physical memory used; 2.6 GB of 2.1 GB virtual memory used.Killing container.

这种问题是从机上运行的 Container 试图使用过多的内存，而被 NodeManager kill 掉了

2）解决方法：

（1）关掉虚拟内存检查，修改 yarn-site.xml,添加如下配置


            
     
      yarn.nodemanager.vmem-check-enabled
             
     
      false

（2）修改后分发配置文件，并重新启动 hadoop 集群

上一篇：项目实战从0到1之hive（24）企业级数据仓库构建（六）：数仓理论及数仓搭建

下一篇：项目实战从0到1之hive（22）企业级数据仓库构建（四）：数据仓库项目实战

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！