Chuyển đến nội dung chính

Bài đăng

Hiển thị các bài đăng có nhãn pyspark

Môt số operation trong pyspark RDD

 Trong RDD viết tắt bởi  Resilient Distributed Dataset  pyspark có một số operation chú ý và RDDs là những thành phần không thể thay đổi được, chúng được thực thi trên đa node và thực thi một cách song song parrallel.  1. Count() - đếm.  - Số lượng đơn vị element trong RDD trả về. Ví dụ:  ----------------------------------------count.py--------------------------------------- from pyspark import SparkContext sc = SparkContext("local", "count app") words = sc.parallelize ( ["scala", "java", "hadoop", "spark", "akka", "spark vs hadoop", "pyspark", "pyspark and spark"] ) counts = words.count() print "Number of elements in RDD -> %i" % (counts) ----------------------------------------count.py--------------------------------------- và khi chaỵ thì output ra:  Number of elements in RDD → 8.   2. Collect() - Tất cả các thành phần trong RDD được trả về