數據集成解決方案通常主張一種方法(ETL 或 ELT)優于另一種方法。實際上,ETL(提取、轉換、加載)和ELT(提取、加載、轉換)在數據集成領域都扮演著不可或缺的角色:

  • ETL在數據質量、數據安全性和數據合規性方面很有價值。它還可以節省數據倉庫成本。但是,ETL 在攝入非結構化數據時速度很慢,而且可能缺乏靈活性。
  • ELT在攝入大量原始非結構化數據時非??焖?。它還為您的數據集成和數據分析策略帶來了靈活性。但是,ELT 在許多情況下犧牲了數據質量、安全性和合規性。

由于 ETL 和 ELT 具有不同的優勢和劣勢,因此許多組織都使用混合 的”ETLT” 方法來充分利用兩種優勢。在本指南中,我們將幫助您了解 ETLT 的”原因、原因和方法”,以便確定它是否適合您的用例。

ETL 和 ELT 概述

本節回顧 ETL 和 ELT 背后的歷史和目的。

什么是 ETL?

從歷史上看,數據倉庫經過優化,可快速查詢和讀取大型數據集,以實現準確的商業智能。這使得數據倉庫擅長處理讀取操作(選擇、WHERE 等)。然而,在購買硬件、許可軟件以及開發和維護系統方面,建立和建立數據倉庫的成本是一項耗資數百萬美元的工程。為了節省成本,開發人員只會將清理、轉換和聚合的數據加載到倉庫中,并且為了提高效率,他們將刪除分析不需要的任何數據。

若要準備這樣的數據,組織需要 從不同的 數據庫中提取數據, 將其轉換為統一格式,并在將不必要的信息加載 倉庫之前將其刪除。這就產生 ETL(提取、轉換、加載)工具,這些工具按以下順序準備和處理數據:

  1. 源應用程序和數據庫中提取原始、未準備的數據到暫存區域。來自不同來源的數據有其自己的
  2. 數據位于暫存區域時,使用 SORT、JOIN 和其他操作轉換和聚合數據。
  3. 將數據 加載到倉庫中。

根據此工作流,當數據加載到倉庫時,ETL 已構建成數據倉庫可以高效讀取的關系格式,因此商業智能工具可以處理數據以生成有價值的報告。

什么是 ELT?

大多數組織繼續依賴 ETL 進行數據集成,但隨著高性能基于云的數據倉庫(如 、Azure、BigQuery 和Azure雪花)。 BigQuery

現代云數據倉庫具有高效管理大型數據集上的寫入操作的處理能力。事實上,云數據倉庫在處理數據時速度非???,因此對于許多用例來說,它們已經使 ETL 變得沒有必要。這最終導致了新的數據集成策略 ELT,它跳過 ETL 暫存區域,從而加快數據引入和更高的敏捷性。ELT 將原始、未準備的數據直接發送到倉庫,并依靠數據倉庫執行裝貨后轉換。

ELT 工具按以下順序準備和處理數據:

  1. 源應用程序和數據庫提取原始、未準備的數據。
  2. 未準備的數據加載到倉庫中。
  3. 使用數據倉庫處理 所需的 轉換。

使用 ELT 需要記住的要點是數據轉換發生在數據倉庫本身中,這通常繞過了對暫存服務器的需要。在這方面,數據倉庫中同時包含原始數據和轉換數據。

ELT 提供了收集和存儲大量原始非結構化數據的出色方式。同時,ELT 不為您提供在將數據加載到數據倉庫之前刪除 PHI、PII 和其他敏感數據的選項。因此,從數據安全性、合規性和數據質量的角度看,它并不完美。簡單地說,以速度和靈活性的名義犧牲安全性和合規性對許多企業來說并不是一個選擇,這就是為什么大多數企業繼續依賴 ETL 或選擇 ETLT 的混合方法(稍后將對此進行更多操作)。

ETL 與 ELT:優勢和用例

ETL 和 ELT 都提供了特定的優勢,使它們適合不同的用例,有時,正如您在 ETLT 的以下一節中看到的,您確實需要兩者的混合。

ETL 優勢和用例

ETL 的優點適用于以下情況:

  • 數據合規性和安全性:無論您的組織遵守行業特定的數據合規性標準(如 SOC 2、GDPR、CCPA 和 HIPAA),還是您自己的數據合規性標準,在將數據移動到數據倉庫之前,都可能需要刪除、屏蔽或加密 PHI(受保護的健康信息)、PII(個人身份信息)和其他數據。在加載之前轉換數據的 ETL策略可以實現此目的,但 ELT 策略不能實現。例如,使用 ELT 時,SysAdmins 可以訪問日志中的敏感信息,即使數據倉庫在加載后轉換了這些信息
  • 管理大型數據集:即使現代云數據倉庫幾乎可以處理任何大小的數據集,您可能不希望為此服務支付額外的數據倉庫費用。相反,您可以使用 ETL 解決方案刪除管道中不必要的或冗余的數據,以減少數據存儲費用。相比之下,ELT 解決方案可能會將大量不必要的數據加載到數據倉庫中。
  • 數據倉庫處理費:許多 ELT 工具提供較低的前期價格,但這只是因為 ELT 將數據處理成本轉移到數據倉庫。最后,ELT 不會繞過處理數據轉換的成本。因此,許多組織選擇 ETL 作為執行數據轉換的更具成本效益的方法。例如 ,Xplenty 使用 ETL 定價模型,該模型對每個連接器收取固定費用,并且不按處理收費。因此,組織可以通過允許 Xplenty 在加載階段之前在管道中執行轉換來節省資金。
  • 數據質量: ETL 通過批量管理數據轉換和標準化數據格式以防止意外數據損壞來確保數據質量。
  • ELT 優勢和用例

    ELT 的優勢適用于以下用例:

    • 快速數據引入:ELT 允許您快速添加新數據源并立即輸入任何類型的原始數據,而無需數據通過暫存服務器。這些優勢使 ELT 成為需要實時流式處理和快速數據引入的用例的的理想之選。
    • 收集并保存以后可能需要的數據:傳統的 ETL 涉及以某種方式聚合數據,這要求您拋出數據。但是,ELT 允許您將數據倉庫中的所有數據保存起來,即使是您目前沒有使用的數據,以后也可能有用。
    • 僅轉換特定分析所需的數據:ELT 允許您將原始數據加載到倉庫中以用于存儲目的,并且僅以最支持特定類型分析的方式轉換特定數據。這會減慢讀取和分析信息的過程,因為每個分析都從頭開始轉換數據。但是,對于某些用例,它提供了靈活性,可隨著需求的變化或對數據了解的詳細了解而輕松更改數據的業務邏輯。
    • 更多的人具備編碼倉庫內轉換的技能:倉庫內轉換通常用基本 SQL 進行編碼。SQL 知識的普及使更多的開發人員更容易訪問編碼 ELT 轉換的過程,即查找能夠管理此任務的開發人員更容易且成本更低。

    什么是 Etlt?ETLT 如何合并最好的 ETL 和 ELT

    在大數據分析時代,ELT 具有巨大的優勢,因為快速引入使 BI 解決方案能夠更快地訪問更多數據,包括原始和非結構化信息 但是,僅 ELT 策略的局限性是,它不能始終滿足數據安全和合規性要求,尤其是那些要求您在將數據移動到數據倉庫之前屏蔽、刪除或加密 PHI 和 PII 數據的要求。

    無論您是需要遵守國家或行業數據合規性標準,還是您自己的安全標準,您的組織都可能無法以更快的分析為名犧牲任何程度的安全性和合規性。因此,我們來到需要ETLT(提取,轉換,加載,轉換)。

    ETLT 是一種”兩個世界最好的”數據集成方法,(1) 可加快數據引入速度,而 (2) 根據行業標準確保數據質量和保護敏感數據。ETLT 使用以下數據集成模式:

    1. 源應用程序和數據庫中提取原始、未準備的數據,然后加載到暫存區域中。
    2. 暫存區域中”輕”轉換數據(通常刪除/屏蔽/加密 PHI、PII 或其他敏感數據)。第一個轉換階段一次只應用于一個數據源。這些轉換是快速和簡單的,因為它們轉換每個源獨立于其他源。在加載之前,不會嘗試將兩個數據源集成到一個數據源中。第一階段的轉換涉及數據格式、數據清理和屏蔽/刪除敏感數據以用于合規性目的。
    3. 準備好的數據加載到數據倉庫中。
    4. 使用數據倉庫處理這些事務,在數據倉庫中更徹底地轉換和集成數據。第二個轉換階段涉及集成多個數據源和同時應用于來自多個源的數據的其他轉換。

    ETLT 允許您更快地從不同源中的數據進行數據,因為預加載轉換階段只執行輕型轉換。這些輕型轉換快速設置和快速處理,它們通過滿足基本數據合規性要求和保持數據質量來克服 ELT 的風險。同時,您可以將復雜的多源轉換留到數據倉庫以后處理。

    ETLT:優勢和用例

    在一天結束的時候,ETLT 最重要的用例是您需要在加載之前屏蔽、刪除或加密 PII 和 PHI 數據 以符合性 。如果您的行業合規性標準(或區域數據安全法)需要預加載轉換,ETLT 允許您滿足這些要求,同時仍然獲得 ELT 優勢,如快速數據引入和業務邏輯靈活性。

    ETLT 用例示例涉及通過 預加載數據掩蔽 將數據化為假名 假名最重要的一個方面是使用數據 掩蔽來 編輯或加密任何 PII 或 PHI 數據,然后再將數據加載到目標數據倉庫中。使用 ETLT,您可以將預加載轉換限制為簡單的數據屏蔽操作,這些操作在 PII/PHI 數據到達數據倉庫之前對其進行加密或刪除。稍后,您可以根據要求在數據倉庫中執行更復雜的轉換。

    使用 ETLT 執行這樣的簡單預加載轉換,用于合規性目的,然后為以后保存更復雜的轉換,具有以下優勢:

    • 滿足數據安全性和合規性要求
    • 促進客戶信任
    • 限制侵犯隱私的可能性
    • 加快數據引入
    • 提供轉換數據的靈活性,因為您可以輕松地更改加載后轉換,以適應不同類型的分析
    Comments are closed.