Chuyển đến nội dung chính

Bài đăng

Hiển thị các bài đăng có nhãn spark API

Ví dụ đơn giản về Spark script

 Hôm này đụng lại Spark trong việc xử lý data transformation.  Bài này nói về  tổng quan về Spark API, spark được xây dựng trên nền tảng distributed datasets. Nó chứa đựng các đối tượng tùy ý. Bạn tạo một dataset từ dữ liệu ngoài, rồi áp nó vào xử lý theo chế độ đồng thời nhiều luồng parallel. Các block của Spark được gọi là RDD(Resilient Distributed Datasets) API, trong RDD API có 2 kiểu xử lý là : transformations và actions  - Transformations: là những dataset được định nghĩa dựa trên các dataset trước đó. Một vài transformation trên RDD là : flatMap(), map(), reduceKey(), filter() và sortByKey() - Actions: là khởi đầu thực thi 1 job trong cluster. Một vài actions trên RDD là:   count(), collect(), first(), max(), reduce() và ... Ở high-level RDD API nó cung cấp : DataFrame API và Machine Learning API.  Sử dụng hàm createDataFrame() val data = Seq ( ( 'James' , '' , 'Smith' , '1991-04-01' , 'M' , 3000 ) , ( 'Michael' , 'Rose