
本文共 3342 字,大约阅读时间需要 11 分钟。
Spark������Resilient Distributed Dataset���RDD������������������������������RDD���������������������������������������������������������������parallelize������������������������������������HDFS���������������������������RDD������������������������������������������������������������������������������������������
RDD������
RDD������������������������������transformations���������������actions���������������������������������������������������������������������������������������������������map������������������������������������������������������������������������������������RDD������reduce���������������������������������������������������������������������������������������������������������������������������������parallel reduceByKey������������������������������������������
������������������Spark���������������������������������������������������������������������������������������������������������lazy evaluation������Spark���������������������������������������������������������������������������������������������map���������������reduce������Spark������������reduce������������������������������������map������������������
RDD���������
Spark���������������������������������������������������������������������������������������������������������������������������������������10���������������������������������������������������������������������������������
���������������������������������persist()���cache()���������������������������������������Spark������������������������������������������������������������������������������������������Spark������������������������������������������������������������������
���������������������������Spark������������������������������������������MEMORY_ONLY������JVM������������������������������������������������������������������������������������������������������������������������������������������������MEMORY_AND_DISK���MEMORY_ONLY_SER������������������������MEMORY_AND_DISK_SER������������������������DISK_ONLY������������������Python���������������������������������������������
������������
Spark���������������������������������������������������������������LRU������������������������������������������������������������RDD.unpersist()���������������������������������������������������������������������������������������������
������������
���������������������������Spark������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������Spark���������������������������������������������������������
���������������������������������������������������������������������Spark������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
���������������������������������������������������Spark���������������������������������������������������������������������������������������������������������������Spark���������������������������������������������������������������������������������������������������UT-ML���������������������������������������������������
���������������������������������������������������������������������������������������������Spark���������������������������������
发表评论
最新留言
关于作者
