Trong RDD viết tắt bởi Resilient Distributed Dataset pyspark có một số operation chú ý và RDDs là những thành phần không thể thay đổi được, chúng được thực thi trên đa node và thực thi một cách song song parrallel. 1. Count() - đếm. - Số lượng đơn vị element trong RDD trả về. Ví dụ: ----------------------------------------count.py--------------------------------------- from pyspark import SparkContext sc = SparkContext("local", "count app") words = sc.parallelize ( ["scala", "java", "hadoop", "spark", "akka", "spark vs hadoop", "pyspark", "pyspark and spark"] ) counts = words.count() print "Number of elements in RDD -> %i" % (counts) ----------------------------------------count.py--------------------------------------- và khi chaỵ thì output ra: Number of elements in RDD → 8. 2. Collect() - Tất cả các thành phần trong RDD được trả về