cache
預設是將資料存放到記憶體中,懶執行
def cache(): this。type = persist()
persist
可以指定持久化的級別。
最常用的是MEMORY_ONLY和MEMORY_AND_DISK。
”_2”表示有副本數。儘量避免使用_2和DISK_ONLY級別
cache和persist的注意點
1。都是懶執行(有的叫延遲執行),需要action觸發執行,最小單位是partition
2。對一個RDD進行cache或者persist之後,下次直接使用這個變數,就是使用持久化的資料
3。如果使用第二種方式,不能緊跟action運算元