elt 定義

elt 代表提取、加載、轉換。elt 是傳統系統的一個演變, 您可以在傳統系統中提取、轉換, 然后加載數據 (etl)。從歷史上看, etl一直是將數據從一個地方移動到另一個地方的最佳且最可靠的方式。但是, 隨著現代數據存儲系統的計算能力不斷增強, 有時在轉換加載數據會更有效。

這也不是一刀切的情況, 因為有些轉換在數據存儲中執行得更好, 有些轉換在數據管道中執行得更好。我們稍后再討論這個問題。

有關移動數據的兩種方法之間的詳細比較, 請參閱etl 與 elt: 說明的差異。

elt 的優點

以下是 elt 的一些好處:

  • 高效。elt 可以利用現有硬件的計算能力來執行轉換。
  • 靈活生成的數據集。使用 elt 時, 可以將整個數據集移動到目標。如果您不想在移動數據之前對其進行轉換, 或者希望目標數據的架構具有靈活性, 這將非常有用。

下面是一些受益于 elt 的常見用例:

  • 數據相對簡單, 但質量龐大,如日志文件和傳感器數據。在這種情況下, 在目標中發生的轉換可能相對簡單, 其好處來自于目標數據存儲快速加載海量數據的能力。
  • 這些數據是非結構化的, 它不需要大量的初始轉換, 因為您計劃使用機器學習工具或數據挖掘進行分析, 而不是像 sql 這樣的標準結構化查詢。在此用例中執行 elt 時, 數據分析人員使用 “讀取時的架構” 定義其架構, 這意味著架構是在將數據寫入目標存儲區后開發的。傳統的 etl 使用 “寫時的架構”, 其中架構被定義為將數據寫入目標數據存儲區之前 etl 進程的一部分。此用例的好處是, 您不需要提前規劃架構, 并且可以利用目標數據存儲的移動大量非結構化數據的能力。

當你可能更喜歡使用 etl

雖然 elt 在某些情況下可能非常棒, 但仍有 etl 工具是您的最佳選擇。現代 etl 工具可能是以下情況的最佳選擇:

  • 當您想要在加載到目標存儲之前進行大量的數據清理時.etl 是一個更好的解決方案, 因為您不會將不需要的數據移動到目標。
  • 當您想要執行復雜的計算時。傳統上, etl 工具在這方面比數據倉庫或數據湖更高效。
  • 當您只使用結構化數據或傳統結構化數據倉庫時。etl 工具通常是將結構化數據從一個環境移動到另一個環境的最有效方法。
  • 當您想要豐富數據時。如果要在數據移動到目標存儲區時豐富數據, 則需要使用 etl 工具。例如, 您可能需要添加地理位置信息或時間戳。
Comments are closed.