作者:ITValue / 日期:2013-09-12
現在熱議的大數據可以做的事情很多,但對于企業來說,大數據并不一定是一座金山,它可能是一座垃圾山。數據分析可以給企業提供很多有意思的新業務模式,但做得不好,也同樣可能誤導企業做出錯誤的判斷。
數據挖掘史上一個最大的騙局是啤酒和尿布的故事,大家都覺得買尿布的人也會買啤酒這個結論是出自于數據挖掘的結果。這里的算法似乎很復雜,但其實上它是一個比較簡單的算法,就是在一張購物單里發現兩個產品出現的概率最高。這個結論在中國可能不會出現,因為中國的家庭購物以女性為主,大多不會買啤酒,這個結論成立的條件是在美國;男性;有一定的經濟能力;剛生了孩子,并且喜歡喝酒. 這些都是數據的維度,發現這個有價值的結果,是把這些條件一一進行剖析的結果。
我們可以試想一下, 如果一個經濟壓力山大的男人, 這個時候是否還有錢買啤酒? 這里并不是為了抨擊數據挖掘, 只是說明挖掘其實也有難易之分, 同時這個案例說明了大數據不一定是做金山,有可能它是一座垃圾山,要從里面發現金子,必須一步步把垃圾剖開。難點是誰能挖到金子?這需要是一種既懂得數據,又是懂業務的有復合能力的人,需要將業務帶入到數據剖析過程中,需要將技術傳遞給業務人員。
作為一家專業做數據的公司,Informatica認為,企業內的數據孤島現象會一直存在,這來源于企業不斷發展業務,開拓市場,這些都需要新的IT系統的支持,新的系統在不斷制造新的數據孤島。而數據被集成之后各種大數據應用才有實現的基礎。
數據集成可以幫助企業溝通各種各樣的數據,溝通各種各樣不同的業務,使數據在企業中流動起來,支持業務當中數據所需的交換,溝通業務當中所需的數據分析。其價值體現在三點:共享、交換和標準。
在中國,很多IT人員都需要并且有能力去做一些跟業務相關的工作,到企業真正沉下心來發展大數據業務的時候,IT人員也需要向數據分析員的角色進行轉換。我們也可以說IT承擔業務分析員的角色才能真正為企業開啟大數據應用。
在《大數據時代》這本書中,一個基本的觀點是,在數據領域,相關關系比因果關系更重要;數據量的重要程度也在超越算法的復雜性。其實在所有數據當中,可以通過數據挖掘來解決問題的通常只有20%~30%,甚至更少,這只是冰山一角,真正復雜的、重要的東西是通過數據處理、數據集成或數據質量來解決的。
關注數據的過程是集成的過程而不是挖掘的過程,集成商跟企業內部的IT人員的區別在于對業務的了解程度,關注大數據是關注數據質量或者數據集成的過程而非采到金子的結果。大數據生態就像一個動物園,各種動物都有,卻未必人人都可駕馭,或是這種駕馭會需要很高的成本。Informatica為專業的數據處理提供了一個基于圖形化開發平臺,通過圖形化的簡單直觀的方式來幫助業務人員或IT人員快速的上手使用。這也是整個大數據生態鏈的一部分,我們提供了數據加工的工具。
大數據一定概念上是使用全量數據的能力和意愿,并不僅僅是數據量的大小的區別。但從目前的應用案例來看,個人認為大數據不是某個特定的技術而是一個思路、想法,它也不是某種特定的架構,但是我相信隨著技術的成熟,這個架構會越來越清晰,但當前狀態下通過統一架構來解決大數據的問題相對還比較困難。
大數據的第一步是要有數據的思維,第二步是從身邊結構化的數據分析開始做起,再下一步就是從可能拿到的跟業務相關的外部數據做起,然后再把復雜的非結構化數據加進來。因此Informatica建議大家從數據集成做起,給企業帶來數據思維。
(本文由ITValue周應根據Informatica公司中國區首席技術顧問杜紹森在2013IT價值峰會上的演講內容整理而成)