谈笑间学会大数据-Hive设计模式
发布日期:2021-05-15 07:12:03 浏览次数:19 分类:精选文章

本文共 4553 字,大约阅读时间需要 15 分钟。

#������������������������-Hive������������

������������������������������

���������������������������������Hive������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������Hive������������������������������������

������������������������������������������������������������test_04_13���test_04_14������������������������������������������������������������������������������������������������������������������������������������Hive���������������������������������������������������������

Hive������������������

���������������������PARTITION BY������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������test���������������������day���

CREATE TABLE test (id INT, part STRING, quantity INT) PARTITIONED BY (day INT);
-- ������������������
ALTER TABLE test ADD PARTITION (day=20200413);
ALTER TABLE test ADD PARTITION (day=20200414);
ALTER TABLE test ADD PARTITION (day=20200415);

������������������������������������������������������������

SELECT part, quantity FROM test WHERE day >='20200413' AND day <='20200415' AND quantity <4;

������������������������������������������������������������������������������������

���������������������������

  • ������������������������������������������������������������������������������������������������������������������HDFS brighter���������NameNode������������������������������������������������������������������������������������

  • ���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

  • ���������������������������������������������������������������������������������������������������������������������������������������

  • ������������������������������������������������������������������������������������������������������������������������day���������������������state���city���������������������

  • ������������������

    ������������������������������������������������������������������������������������(CLUSTER BY)������������������������������������������������������������������������������

    ���������������������user_id���������������������

    CREATE TABLE weblog (url STRING, source_ip STRING)
    PARTITIONED BY (dt STRING)
    CLUSTERED BY (user_id) INTO 96 BUCKETS;

    ���������������������������

    ������������������������������������������������������������������������������������������������������

    ������������������������������distinct_ip_in_logs������������������������������

    CREATE TABLE distinct_ip_in_logs (hit_date STRING, ip STRING)
    PARTITIONED BY (hit_date STRING);

    ������������ETL���������������������������������������������������������������

    ���������������������������

    Hive���������������������������������������������������������������������������������������������������������������������������������������������array���map���struct���������������������������������������������������������I/O���������

    ���������������������������������������������������������������������������������������������������

    ���������������������������

    Hive���������������������������������������������������������������������������������������������������������INSERT OVERWRITE������������������������������������������������������������

    ���������

    INSERT OVERWRITE table sales
    SELECT * FROM history
    WHERE action = 'purchased';
    INSERT OVERWRITE table credits
    SELECT * FROM history
    WHERE action = 'returned';

    ������������������������������������INSERT���������������������������������������

    ������������������������

    ������������������������������������������������������������������������������������������������������������������������������������������������������������Hive���������������������

    ���������������������

  • ���������������������������������weblogs������������������������������������������������������������������������

  • ���������������������������������Multiple Grain������������day���state������������������������������������������������������

  • ������������������������������������CLUSTER BY������������Join���������������������������������������������I/O���������

  • ������

    ���������������������������������������Hive���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

    上一篇:Mac 使用Eclipse老是闪退解决方案
    下一篇:谈笑间学会大数据-Hive索引

    发表评论

    最新留言

    第一次来,支持一个
    [***.219.124.196]2025年04月12日 06时55分30秒