RDD由以下几个主要部分组成:
partitions --- partition集合,一个RDD中有多少data partition。
dependencies --- RDD依赖关系,即对其他RDD的依赖列表。
compute(partition) --- 对于给定的数据集,需要做哪些计算,针对每个partition的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数。
perferredLocations --- 对于 data partiton的位置偏好。
本文共 284 字,大约阅读时间需要 1 分钟。
RDD由以下几个主要部分组成:
partitions --- partition集合,一个RDD中有多少data partition。
dependencies --- RDD依赖关系,即对其他RDD的依赖列表。
compute(partition) --- 对于给定的数据集,需要做哪些计算,针对每个partition的计算函数,即同一个RDD的每个切片的数据使用相同的计算函数。
perferredLocations --- 对于 data partiton的位置偏好。
转载于:https://my.oschina.net/134596/blog/1807432