“映射分區”是唯一的狹窄轉換,由 Apache Spark 框架提供,以實現分區處理,即整個處理數據分區。?所有其他狹窄的變換(如地圖、平面圖等)都按記錄處理分區。”地圖部分”,如果使用明智,可以加快底層 Spark 作業歧管的性能和效率。

“映射分區”為計算函數提供了分區數據的索引器,并期望一個數據器作為計算函數的返回值來表示新的數據收集。下面是適用于類型 <T> 的數據集上的”映射部分 “API, 它期待一個類型為”MapPartctions 功能”的功能接口作為一個整體處理每個數據分區,以及一個表示返回的數據集中返回的數據類型的編碼器。

公共 <U> Dataset數據集 <U> 地圖部分(地圖部分功能 <T,U>f,編碼器<U> 編碼器)

在實現自定義的 “MapPartions 功能” 時,必須提供以下類型的分區處理例程

Java

 

x
1
Comments are closed.