ITValue社區(qū)

信息爆炸后,如何收拾大數(shù)據(jù)殘局?┃轉(zhuǎn)型方法論

作者:吳寧川 / 日期:2016-04-14

隨著云計(jì)算在2008年前后的興起,DevOps開發(fā)者文化盛行一時(shí),加上近年來(lái)企業(yè)加速向互聯(lián)網(wǎng)轉(zhuǎn)型,造成開發(fā)者文件激增。云計(jì)算又促使了商業(yè)模式的巨大變革,大量的公司并購(gòu)、合并、裁員以及創(chuàng)業(yè)公司的興起,導(dǎo)致人員流動(dòng)加劇、“遺留”數(shù)據(jù)暴漲。此外,隨著智能手機(jī)的興起,視頻與圖像文件的爆發(fā),也成為企業(yè)的沉重負(fù)擔(dān)。

一份由信息管理解決方案商VeritasTechnologies日前發(fā)布的公益性報(bào)告《數(shù)據(jù)基因指數(shù)》(DataGenomics Index)稱,開發(fā)者文件是當(dāng)前全球企業(yè)數(shù)據(jù)環(huán)境中數(shù)量最多的文件類型,占整體文件總量的20.13%及存儲(chǔ)總量的9.17%。該報(bào)告還指出,當(dāng)員工職位變更或離職后,其遺留的文件往往成為孤立數(shù)據(jù),不僅造成安全隱患而且長(zhǎng)期耗費(fèi)企業(yè)存儲(chǔ)成本。

開發(fā)者文件、未知文件(包括孤立數(shù)據(jù))和圖像文件已經(jīng)成為企業(yè)轉(zhuǎn)型的數(shù)據(jù)殘局主體。《數(shù)據(jù)基因指數(shù)》稱,過(guò)去三年中有41%的企業(yè)數(shù)據(jù)從未被修改過(guò)。現(xiàn)在,企業(yè)越來(lái)越“養(yǎng)不起”數(shù)據(jù)了。

企業(yè)轉(zhuǎn)型的迷茫與失控

當(dāng)前企業(yè)IT基礎(chǔ)架構(gòu)發(fā)生了重大改變,這種改變已經(jīng)深入到企業(yè)的日常運(yùn)營(yíng)中。特別在國(guó)內(nèi)大力發(fā)展互聯(lián)網(wǎng)+、企業(yè)著重向互聯(lián)網(wǎng)轉(zhuǎn)型,互聯(lián)網(wǎng)技術(shù)全面滲透到了傳統(tǒng)企業(yè)IT中,“軟件定義”的概念鋪天蓋地,“這讓大多數(shù)企業(yè)對(duì)IT整體環(huán)境感到既興奮又迷茫”。


41%企業(yè)數(shù)據(jù)文件在過(guò)去三年都無(wú)人訪問(wèn)過(guò)

Veritas公司大中華區(qū)技術(shù)支持部高級(jí)總監(jiān)李剛分享了這兩年接觸國(guó)內(nèi)企業(yè)的情況:
“企業(yè)不了解如何實(shí)現(xiàn)軟件定義,不清楚如何在IT規(guī)劃中構(gòu)建混合云模式,不明白要怎樣應(yīng)用知識(shí)儲(chǔ)備和技能儲(chǔ)備來(lái)應(yīng)對(duì)挑戰(zhàn),也不知道什么樣的合作伙伴能夠幫助企業(yè)發(fā)展。”
這些問(wèn)題如今都尖銳地?cái)[在CIO和IT主管面前,讓企業(yè)感到迷茫。

而企業(yè)感到興奮的原因在于,他們又看到了IT驅(qū)動(dòng)業(yè)務(wù)成功的案例。“這種興奮與迷茫,使企業(yè)產(chǎn)生了無(wú)力感和失控感。”

一方面,企業(yè)正在經(jīng)歷行業(yè)轉(zhuǎn)型,另一方面又無(wú)力掌控企業(yè)IT的發(fā)展方向。與此同時(shí),業(yè)務(wù)部門和企業(yè)高層對(duì)IT的期望越來(lái)越高,而IT管理者對(duì)IT方向的把握和管控能力卻越來(lái)越弱,這是當(dāng)前很多中國(guó)企業(yè)的普遍狀態(tài)。

“我們?cè)谂c客戶交流中發(fā)現(xiàn),企業(yè)IT管理者始終通過(guò)基礎(chǔ)架構(gòu)來(lái)管控IT。基礎(chǔ)架構(gòu)是過(guò)去企業(yè)IT建設(shè)過(guò)程中最能夠掌控的部分。而‘軟件定義’后,所有的硬件變成了‘大宗商品’。混合云時(shí)代,企業(yè)的應(yīng)用程序可以在‘云’中來(lái)回漂移。因此,企業(yè)的失控,實(shí)際上是對(duì)IT基礎(chǔ)架構(gòu)管控層面的失控。”

李剛表示,Veritas認(rèn)為企業(yè)需要轉(zhuǎn)換思路,不應(yīng)該執(zhí)著于IT基礎(chǔ)架構(gòu),而應(yīng)該更多關(guān)注數(shù)據(jù)本身。未來(lái)的企業(yè)都將是軟件企業(yè)和數(shù)據(jù)企業(yè),所以,企業(yè)IT決策者們真正應(yīng)該關(guān)注的是對(duì)數(shù)據(jù)的管控。企業(yè)IT如果要重新掌控核心能力,就應(yīng)該加強(qiáng)數(shù)據(jù)掌控,數(shù)據(jù)才是企業(yè)的核心資產(chǎn)。

如何轉(zhuǎn)換數(shù)據(jù)管理思維?

Veritas服務(wù)于全球5萬(wàn)多家企業(yè)的信息與數(shù)據(jù)管理需求,其中86%的企業(yè)為全球財(cái)富500強(qiáng)。《數(shù)據(jù)基因指數(shù)》是Veritas自1989年成立以來(lái),首次通過(guò)對(duì)數(shù)百億文件深入分析而得。這份報(bào)告的起因,正是企業(yè)近年來(lái)數(shù)據(jù)大爆炸與有限存儲(chǔ)資源之間矛盾直接導(dǎo)致的產(chǎn)物。

2012年的一項(xiàng)Gartner研究稱,企業(yè)存儲(chǔ)1PB數(shù)據(jù)的成本在500萬(wàn)美元左右。近幾年隨著技術(shù)的發(fā)展這一成本可降至50萬(wàn)美元左右,而目前1PB數(shù)據(jù)在云上一年的存儲(chǔ)成本最低也在250萬(wàn)到300萬(wàn)人民幣之間。大數(shù)據(jù)還沒(méi)來(lái)得及產(chǎn)生價(jià)值,就已經(jīng)成為企業(yè)的大負(fù)擔(dān),而且數(shù)據(jù)還在不斷增長(zhǎng)中。Veritas首席信息治理專家徐晨說(shuō),他曾遇到剛成立的公司,總存儲(chǔ)空間只有幾個(gè)TB,但業(yè)務(wù)部門上來(lái)便提出PB級(jí)的需求。

企業(yè)的數(shù)據(jù)在不斷膨脹,如何盡早轉(zhuǎn)換數(shù)據(jù)管理思維?李剛認(rèn)為這有幾個(gè)前提。首先要關(guān)注數(shù)據(jù)可用性,企業(yè)要能夠隨時(shí)隨地訪問(wèn)所需數(shù)據(jù);其次是數(shù)據(jù)的生命周期管理,企業(yè)需要有完整工具來(lái)完成數(shù)據(jù)的生成、處理、歸檔、刪除、銷毀等一系列步驟;第三是要關(guān)注數(shù)據(jù)的復(fù)用和挖掘;最后是制定對(duì)不同云環(huán)境的數(shù)據(jù)訪問(wèn)策略。

針對(duì)數(shù)據(jù)存儲(chǔ)環(huán)境的變化,李剛認(rèn)為如今處于混合云環(huán)境中的企業(yè)數(shù)據(jù)分散存儲(chǔ)在私有云以及不同的公有云中,這種復(fù)雜的環(huán)境對(duì)數(shù)據(jù)管理構(gòu)成了極大的挑戰(zhàn)。實(shí)際上,由于IT的云化和虛擬化后,數(shù)據(jù)并不固定存在,企業(yè)關(guān)心的是隨時(shí)訪問(wèn)數(shù)據(jù),而不是具體存儲(chǔ)位置,這帶來(lái)了全新的觀點(diǎn)。

從了解數(shù)據(jù)基因入手

為了“收拾”數(shù)據(jù)殘局,需要對(duì)數(shù)據(jù)有本質(zhì)上的認(rèn)識(shí)與了解,這就是《數(shù)據(jù)基因指數(shù)》的目的與意義所在。任何企業(yè)、行業(yè)專家、咨詢?nèi)藛T、終端用戶、技術(shù)人員以及其他相關(guān)人士,都可以通過(guò)datagenomicsproject.org了解全球企業(yè)的數(shù)據(jù)基因。

根據(jù)首份《數(shù)據(jù)基因指數(shù)》報(bào)告,企業(yè)創(chuàng)建數(shù)據(jù)的增長(zhǎng)速度非常快,年均增長(zhǎng)率達(dá)到39%。而且企業(yè)在不同季節(jié)的數(shù)據(jù)增長(zhǎng)情況各不相同:超過(guò)68%的視頻文件創(chuàng)建于夏天,這有可能是因?yàn)閱T工把度假視頻放在了企業(yè)服務(wù)器上;很多企業(yè)都實(shí)施了年度備份政策,所以10月、11月、12月的備份數(shù)據(jù)增長(zhǎng)率大幅提升達(dá)756%。


當(dāng)前企業(yè)的整體數(shù)據(jù)環(huán)境

而根據(jù)合規(guī)要求,數(shù)據(jù)通常在3年后會(huì)從“可能相關(guān)”變?yōu)椤斑^(guò)期”狀態(tài)。在企業(yè)中,平均41%的企業(yè)數(shù)據(jù)已經(jīng)過(guò)期,或者是連續(xù)3年沒(méi)有任何用戶進(jìn)行過(guò)修改操作。此外,孤立數(shù)據(jù)占企業(yè)整個(gè)數(shù)據(jù)環(huán)境的5%,不僅占比非常大,而且很容易成為過(guò)期數(shù)據(jù)。孤立數(shù)據(jù)多為內(nèi)容豐富的文件類型,如視頻、圖片和演示文稿等。

《數(shù)據(jù)基因指數(shù)》指出,演示文稿、電子表格和文檔等傳統(tǒng)Office格式文件所占據(jù)的空間遠(yuǎn)遠(yuǎn)超出合理值,為企業(yè)造成不必要的成本負(fù)擔(dān),視頻和圖片等視覺(jué)格式文件也是企業(yè)的另一負(fù)擔(dān)。以10PB為普通環(huán)境舉例,如果展開專門處理過(guò)期演示文稿、文檔、電子表格和文本文件的歸檔項(xiàng)目,能為企業(yè)每年節(jié)省大約200萬(wàn)美元的存儲(chǔ)成本。

除了Veritas外,另一家企業(yè)業(yè)務(wù)可用性解決方案提供商Veeam Software(衛(wèi)盟軟件)也首次在今年倡導(dǎo)把每年的3月30日定為世界可用性日(WorldAvailability Day)。根據(jù)Veeam委托進(jìn)行的一項(xiàng)最新行業(yè)調(diào)查,84%的CIO承認(rèn)無(wú)法滿足企業(yè)員工、客戶和合作伙伴對(duì)數(shù)據(jù)可用性的預(yù)期,而且每年為此損失達(dá)1,600萬(wàn)美元。

目前由于IT基礎(chǔ)架構(gòu)的巨大變化,類似于Veritas這樣的數(shù)據(jù)治理與管理技術(shù)專業(yè)供應(yīng)商和Veeam這樣的企業(yè)業(yè)務(wù)可用性技術(shù)供應(yīng)商都在市場(chǎng)中有獨(dú)特的定位與位置,也是企業(yè)在轉(zhuǎn)型過(guò)程中需要了解的供應(yīng)商。當(dāng)然,現(xiàn)在還沒(méi)有供應(yīng)商能夠整合所有的數(shù)據(jù)管理及業(yè)務(wù)可用性工具。Veritas計(jì)劃推出類似“數(shù)據(jù)中間件”的產(chǎn)品,整合、協(xié)同更多解決方案廠商的產(chǎn)品,幫助企業(yè)獲得全面的數(shù)據(jù)掌控能力。

總體來(lái)說(shuō),大數(shù)據(jù)爆炸時(shí)代,企業(yè)需要提前準(zhǔn)備好應(yīng)對(duì)“大數(shù)據(jù)殘局”。在制定數(shù)據(jù)可用性技術(shù)、全數(shù)據(jù)生命周期管理方案、數(shù)據(jù)利用和數(shù)據(jù)挖掘以及數(shù)據(jù)訪問(wèn)策略的前提下,要充分了解和認(rèn)知企業(yè)數(shù)據(jù)的產(chǎn)生特點(diǎn)、規(guī)律和本質(zhì),然后選用獨(dú)特而專業(yè)的供應(yīng)商解決具體的問(wèn)題,同時(shí)注意不同工具之間的兼容性和通用性,致力于最終形成一個(gè)“數(shù)據(jù)中間件”層。

從數(shù)據(jù)本身出發(fā),重新思考企業(yè)的整體IT策略與架構(gòu),這是轉(zhuǎn)型期的重要方法論之一。

推薦閱讀