現時大家都在談論大數據,通過對不同數據的分析,將可讓企業決策者獲取未來發展趨勢的啟示。不過面對大量數據,一般無法 100% 將所有數據完全運用,更甚者是未能取得 100% 數據,因為數據每秒都在產生。在一家企業當中,不同部門都會產生數據,數量之多單靠 IT 部門的處理,總會出現漏網之魚;這些被遺忘的數據,企業仍需要花上一定的資金去進行儲存,換句話說,數據儘管已被遺忘,但企業仍需無限期地付出金錢去處理這些數據。
上述提到的「被遺忘數據」被稱為「暗數據(Dark Data)」。Gartner 於早前的一份報告之中亦有提到暗數據,其中他們將暗數據定義為:「企業在正常營運過程期間所收集、處理和儲存的數據,但通常無法用於其他目的,例如作為分析的數據源及無法讓企業獲得利益的數據」。
面對暗數據別愛理不理
暗數據對企業來說,起初可能沒甚麼大不了,不過當時間久了,積存下來的體積將會對企業產生直接影響。早前有報告指出,原來現正被全球企業所儲存的資訊,有 52% 被視為「暗數據」,即這些數據是無法得悉箇中價值的;此外,33% 的數據被視為「冗餘、過時或瑣碎」(ROT),甚至沒有任何商業價值。預計到了 2020 年,要管理這些數據所花的成本,將累計達 3.3 兆美元。
由於機構充斥著「數據囤積」文化,並對數據保留政策漠不關心,他們所產生及儲存的數據正以驚人速度增長。這類數據包括業務關鍵資訊及和不符合規定的資訊。報告亦指出,IT 領袖只將所有已儲存數據中的 15% 視為業務關鍵資訊。對平均儲存 1,000TB 數據的中型企業而言,儲存這些非關鍵資訊的成本,預計每年超過 65 萬美元。所以大家不要少看這些數據,其實能有效處理這些數據,將可直接為公司節省支出。
如何避免暗數據囤積?
1. 建立有效的管理系統 – 其實要有效避免暗數據囤積,我們少不免要採用上一些數據管理系統,這些系統能讓管理員建立儲存策略,例如那些類型的數據會被儲存;然後系統便會根據管理員所制定的策略自動將數據進行儲存或刪除。
2. 歸檔的重要性 – 定時進行歸檔亦十分重要。由於現時雲端加上流動裝置所產生出來的數據,其價值亦十分之高!因此管理者亦要設法將數據收集並作中央化儲存,這樣才不會出現遺漏的情況,同時亦可便於日後進行搜尋及其他用途。
3. 數據的生命週期 – 下一步就是管理好數據的生命週期。例如數據儲存了 8 年後便自動刪除,這樣將可有效避免暗數據囤積的情況出現,對於減少相關的管理費用支出有很大幫助。
4. 由 IT 部門主導變成各部門各自主導 – 除了 IT 部門之外,其實企業亦應該建立一些系統,讓企業之中的不同部門都可同時進行搜尋及使用大數據分析,事關 IT 部門不代表整家公司,有時候有些資料在 IT 部門的角度看來是沒有用處的,然而對其他部門卻十分有用;能讓不同部門直接參與、搜尋及分析數據,將有助減少暗數據的出現及囤積。
總結
其實暗數據的出現,除了上面提到的,還有很多其他原因,例如因法規而無法公開的數據;企業因處理暗數據的成本考慮而選擇放棄等等;儘管如此,但很遺憾地現時仍未有十分標準的暗數據處理程序以及簡易部署的管理方案;現今在數據處理、發掘、分析等方面仍處於起步階段,但相信隨著技術成熟,不久將來將會出現更完整及更易於進行部署的管理方案。
稍後我們將會分享更多災難復原的策略及實戰,請繼續留意我們的文章。