最初,許多數據科學家和相關專業的專家對大數據非常熱心。幾年后,他們中的大多數變得更加懷疑,大數據這個詞本身就變成了流行語。為什么大數據不是一個值,為什么甚至必要的數據的質量比數量更重要?

大數據并不總是有用的

很多時候,大數據被視為一種財富,一種寶貴的資源,使得創建有效的戰略、優化流程等成為可能。但是,分析師的經驗越豐富,他們提出的問題也越具體。我們到底可以從這些數據中學到什么?我們現在需要這些信息嗎?如果我們現在不需要數據,存儲數據的成本是多少?

使用大數據需要相當的計算能力。隨著云存儲的發展,計算能力變得更加經濟實惠,但其維護仍需要資源。同樣的數據對一家公司來說非常有價值,對另一家公司來說完全毫無用處。在后一種情況下,它只會成為一種責任。為了避免這種情況,有必要在收集并發送到存儲庫之前分析其有用性。

目前,世界上絕大多數的大數據都是垃圾。這些數據要么對于目前擁有它的人完全沒用,要么它包含的有用信息太少,甚至無法支付其處理成本。根據 Forrester 的研究 ,公司實際使用的數據不超過 40%。

越大越好

“將盡可能多的數據投入 AI”策略不再有效。數據科學家明白,并不是每個函數都很有用,數據的質量比數量更重要。只需要數據,幫助分析什么是重要的給定時刻。只有使用高質量的數據,AI 才能提供有用的結果。

除了數據本身,基礎設施需要安全地分析、使用和傳輸數據,并分離有用的信息和垃圾。不是每個人都意識到這一點,但數據不僅應該很大,而且應該很聰明。

為什么數據應該智能

大數據有五個關鍵參數:

  • 體積
  • 速度
  • 品種
  • 準確性
  • 價值

數據的值并不總是取決于其體積或速度,但它確實會影響其他參數。如果數據不是各種的,不是荒謬的,現在不有價值,那么收集它就沒有意義了。

有線門戶定義智能數據如下:

“智能數據”是指真正有意義的信息 確定一段時間銷售量的高峰和低谷。

實際上,智能數據是一組數據,可以在給定時刻使用,以滿足公司的特定需求。智能數據也是大數據中的一部分,用于演示,并基于決策。

為什么非智能數據是無用的,甚至破壞性的

想象一下,兩位數據科學家正在他們工作的公司中致力于實現大數據和機器學習工具,但他們選擇了不同的方法。其中一個使用現成的工具來節省時間,并立即開始收集數據。此專家將收集到的所有內容轉移到數據基礎架構中,并使用 ML 算法優化結果。

第二位專家希望對數據結構進行更多控制,因此他們開始編寫模塊。這需要大量的時間,但最終,專家會接收更緊湊、更準確的數據。該公司通過不存儲數 TB 的不必要信息節省了數千美元,但仍擁有與前專家一樣多的有用數據。這筆資金可以再投資到創建新模塊,以取得更好的效果。

公司已經試圖以減少不必要的數據的收集的方式組織這個過程,但是,他們的算法仍然繼續處理大量的垃圾。如果沒有有用的內容,數據仍然是一種需要額外資源來處理的責任。關注智能數據可能是解決方案,但這只是向正確數據技術過渡的開始。

安徒生數據科學主管詹恩·丘布科夫:

專業社區即將得出合理和合乎邏輯的結論,即大數據只是一個吞咽金錢和提供低回報的流行語。因此,在構建數據湖和數據倉庫之前,有必要弄清楚這些事情必須解決的業務問題,以便數據不僅很大,而且可靠和智能。收集數據本身并不是一個目標;目標是從這些數據中賺錢,同時降低運營成本,最大限度地減少”倉庫”(數據存儲)。

Comments are closed.