Spark_RDD的持久化
发布日期:2021-05-04 13:33:16 浏览次数:52 分类:技术文章

本文共 227 字,大约阅读时间需要 1 分钟。

RDD的持久化方法:cache() 或者 persist()

做实验:

同一个160M文件进行计算它的行数:
在这里插入图片描述

文件小的时候没有差距,文件大的时候差距很明显

第一次计算两次(未持久化):时间差不多

第二次计算两次(持久化):时间第一次长,第二次却很短
这是因为第一次的时候进行持久化,而第二次的时候已经持久化过了直接计算就好了。

两个方法默认都为(持久化到内存):

在这里插入图片描述

其它的序列化方式:

在这里插入图片描述

序列化的选择优先:

在这里插入图片描述

为什么不用DISK ?

因为重新计算都比从新读快!

上一篇:JAVA_集合
下一篇:进制之间的转换

发表评论

最新留言

很好
[***.229.124.182]2025年03月22日 01时39分32秒