大數(shù)據(jù)和數(shù)據(jù)科學(xué)的定義在今后幾年也許仍然不會確定下來,但是可以肯定的是,人們在2013年消費的數(shù)據(jù)量超過了2012年所消費的數(shù)據(jù)量。
從大數(shù)據(jù)的出現(xiàn)開始,對大數(shù)據(jù)的爭議似乎就一直未斷過,似乎每家軟件廠商、每家咨詢公司,以及每個思想領(lǐng)袖都在嘗試著對“大數(shù)據(jù)”做出準(zhǔn)確的定義。盡管目前還沒有出現(xiàn)這樣的定義,但是打破關(guān)于大數(shù)據(jù)的神話將有助于我們認(rèn)識大數(shù)據(jù)。
你能夠獲得所有的數(shù)據(jù)
我們從來都沒有像現(xiàn)在這樣能夠獲得如此多的數(shù)據(jù)。此前一直被人們所忽視的兆字節(jié)、拍字節(jié)和艾字節(jié)數(shù)據(jù)如今已經(jīng)出現(xiàn)了。在如今的工業(yè)化社會中,平均每個人一天所消費的信息量超過了生活在十五世紀(jì)的人一生所消費的信息量。目前還沒有一個人或一家公司能夠存儲和檢索關(guān)于某一特定主題的全部數(shù)據(jù),更不要說是所有數(shù)據(jù)了,包括谷歌在內(nèi)。谷歌索引的只是表層網(wǎng)中的信息,而不是深層網(wǎng)中的信息。專家估測,后者的規(guī)模是前者的25倍。因此,在我們進行搜索時,我們所獲得的信息量僅僅是互聯(lián)網(wǎng)信息量中的4%~6%.
你需要所有的數(shù)據(jù)
雖然數(shù)據(jù)越多幫助越大,但這并不意味著在做商業(yè)決策時你需要所有的數(shù)據(jù)。正在高效利用大數(shù)據(jù)的公司已經(jīng)認(rèn)識到,他們不需要獲得所有的相關(guān)信息。幾乎每天都會涌現(xiàn)出大量新的數(shù)據(jù)源,但是并不是所有的數(shù)據(jù)都有價值。例如,電子郵件信息常常為我們提供了洞察企業(yè)狀況的寶貴信息。精明的公司正在挖掘個人信息,以評估員工的情緒,以及誰可能會辭職。但這并不是說所有的電子郵件都具有相同的價值。因為分析垃圾郵件沒有任何意義。你并不需要所有的數(shù)據(jù)。數(shù)據(jù)當(dāng)然是越多越好,但是請不要浪費時間嘗試做這一不可能實現(xiàn)的事情。
大數(shù)據(jù)會給我們明確的答案
經(jīng)常聽到這樣一句商業(yè)格言:“處理你能夠處理的數(shù)據(jù),并從中獲得更多信息。”我們在利用所獲信息做商業(yè)決策時會遇到許多問題。而事實上,我們根本無法利用這些信息完全準(zhǔn)確地預(yù)測出公司的并購、產(chǎn)品的發(fā)布、新的風(fēng)險投資,以及員工入職等情況。但這并不是說,存在不確定性,大數(shù)據(jù)就不能為我們提供幫助了。請不要將減少不確定性和消除不確定性混為一談。大數(shù)據(jù)能夠幫助我們消除不確定性的這一天還沒有到來,可能這一天永遠(yuǎn)也不會到來。對海量非結(jié)構(gòu)性數(shù)據(jù)進行分析或許能夠幫助公司更好的理解客戶的情緒。但是請不要誤認(rèn)為大數(shù)據(jù)能夠為我們排除所有的可能性。生命的無常和業(yè)務(wù)的起伏將會破壞我們制訂出的完美計劃。
大數(shù)據(jù)只是曇花一現(xiàn)
2012年的美國總統(tǒng)大選,盡管許多人預(yù)測奧巴馬和羅姆尼在得票率方面將旗鼓相當(dāng),但是身為統(tǒng)計學(xué)家的Silver卻預(yù)測,奧巴馬將以90%的選舉人票贏得2012年的美國總統(tǒng)大選。由于Silver的預(yù)測模型極為精準(zhǔn),以至于如今許多人在遇到事情后都來向他尋求幫助。
大數(shù)據(jù)和數(shù)據(jù)科學(xué)的定義在今后幾年也許仍然不會確定下來,但是可以肯定的是,人們在2013年消費的數(shù)據(jù)量超過了2012年所消費的數(shù)據(jù)量。許多公司已經(jīng)認(rèn)識到了大數(shù)據(jù)的重要性,拒絕大數(shù)據(jù)可能將會導(dǎo)致公司在競爭中被淘汰出局。
周威,1978年9月出生,畢業(yè)于香港理工大學(xué),軟件工程碩士,高級工程師。中電企協(xié)信息監(jiān)詳細(xì)>
北京中百信軟件技術(shù)有限公司是一家專業(yè)從事權(quán)益交易行業(yè)信息技術(shù)咨詢、軟件設(shè)計研發(fā)、及詳細(xì)>