谈笑间学会大数据-Hive设计模式-白红宇的个人博客

谈笑间学会大数据-Hive设计模式

发布日期：2021-05-15 07:12:03 浏览次数：19 分类：精选文章

本文共 4553 字，大约阅读时间需要 15 分钟。

#��-Hive��

��

��Hive��Hive��

��test_04_13��test_04_14��Hive��

Hive��

��PARTITION BY��

��test��day��

CREATE TABLE test (id INT, part STRING, quantity INT) PARTITIONED BY (day INT);
-- ������������������
ALTER TABLE test ADD PARTITION (day=20200413);
ALTER TABLE test ADD PARTITION (day=20200414);
ALTER TABLE test ADD PARTITION (day=20200415);

��

SELECT part, quantity FROM test WHERE day >='20200413' AND day <='20200415' AND quantity <4;

��

����HDFS brighter��NameNode��

����

����day��state��city��

��

��(CLUSTER BY)��

��user_id��

CREATE TABLE weblog (url STRING, source_ip STRING)
PARTITIONED BY (dt STRING)
CLUSTERED BY (user_id) INTO 96 BUCKETS;

��

��distinct_ip_in_logs��

CREATE TABLE distinct_ip_in_logs (hit_date STRING, ip STRING)
PARTITIONED BY (hit_date STRING);

��ETL��

��

Hive��array��map��struct��I/O��

��

Hive��INSERT OVERWRITE��

��

INSERT OVERWRITE table sales
SELECT * FROM history
WHERE action = 'purchased';
INSERT OVERWRITE table credits
SELECT * FROM history
WHERE action = 'returned';

��INSERT��

��

��Hive��

��

����weblogs��

����Multiple Grain��day��state��

����CLUSTER BY��Join��I/O��

��

��Hive��

上一篇：Mac 使用Eclipse老是闪退解决方案

下一篇：谈笑间学会大数据-Hive索引

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

��

Hive��

��

��

��

��

��

��

��

��

发表评论

最新留言

关于作者

推荐文章

������������������������������

Hive������������������

���������������������������

������������������

���������������������������

���������������������������

���������������������������

������������������������

���������������������

������

发表评论

最新留言

关于作者

推荐文章

��

Hive��

��

��

��

��

��

��

��

��