對話人:
英特爾中國研究院首席工程師:吳甘沙
微軟亞太研發集團主席:張亞勤
微軟雷德蒙研究院聯席院長:埃里克·霍維茲
緊跟著物聯網、云計算,大數據裹挾著各種版本的概念呼嘯而來,短短時間內引領了新技術熱點話題的關注度。
大數據究竟是什么新玩意?大數據真正的魅力體現在哪里?本報記者約請幾位專家進行了對話。
大數據有多大
記者:對于大數據,有一個形象的說法:現在即使是一個孩子,也可以把一個小小的存儲器放入書包,隨身攜帶TB級的數據去學校上課,甚至把整個人類文明背上都不是問題。經過大量數據的訓練和裝備,未來的電子產品或者機器可以成為“大有裨益的終身數碼伴侶”:它可以預測你是想要一包方便面還是一顆感冒藥,你想去旅游還是選擇最不堵車的路線去看球賽,甚至還能以你的名義飽蘸激情投入工作。大數據這個概念看似從字面就能理解,但確實以前沒有這么火過。首先我們想知道的是,大數據到底有多大?
吳甘沙:互聯網搜索、電子商務交易平臺和微博等社交網站產生的各種數據內容,經常被用來證明大數據之大。其實在傳統產業和我們的生活中,大數據也比比皆是。
以北京交通為例,北京市的交通智能化分析平臺,它的數據源來自路網攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業等:4萬輛浮動車每天產生2000萬條記錄;交通卡刷卡記錄每天1900萬條;手機定位數據每天1800萬條;出租車運營數據每天100萬條;高速ETC數據每天50萬條……這些,從數據體量和速度上也達到了大數據的規模。
發掘這些形態各異、快慢不一的數據流之間的相關性,是大數據做前人之未做、前人所不能的機會。也正是大數據最主要的特點。
比如,交通狀況與其它領域的數據都存在較強的關聯性:有研究發現,可以從供水系統數據中發現晨洗的高峰時間,加上一個偏移量,通常是40—45分鐘,就是交通早高峰時間。同樣可以從電網數據中統計出傍晚辦公樓集中關燈的時間,加上偏移量來估計出晚上的堵車時點。國外的研究甚至發現了交通事故率與睡眠質量的關聯,以及與社交網絡情感波動的相關性。
記者:IT業界所指的數據,誕生不過60多年。而一直到個人電腦普及前,由于存儲、計算和分析工具的技術和成本限制,許多自然界和人類社會值得記錄的信號,并未形成數據。大數據有沒有一個“門檻”?一些定義準確嗎?
吳甘沙:國際數據統計機構IDC對全世界每年創建和復制的信息的體量做了估計和預測:2011年1.8ZB,2012年2.8ZB,按照每兩年翻一番的速度,2020年達到40ZB。這個數據怎么算出來的?IDC秘而不宣。1.8ZB什么概念?相當于4500億張DVD,或6500萬年的高清視頻,或是1130億臺裝滿數據的iPad。如果把這些iPad覆蓋到足球場,并往上堆疊,高度將達到10.3公里,比珠穆朗瑪峰還高。思科公司也有一個類似的預測:2016年數據移動的總量達到1.3ZB。其實所有這些數據加起來都不如谷歌的前CEO施密特說法有感染力:從人類文明曙光到2003年數以萬年計的時間長河里人類一共產生了5EB(天知道他怎么算出來的),而到2010年每兩天人類就能產生5EB的數據。
這類數據的預測,對于存儲和網絡企業的投資者來說,無疑能提升信心,但對其他人來說沒有太大意義。他們更關心的是個體行業、企業和個人數據的狀況。
美國咨詢公司麥肯錫對大數據的定義就是從個體數據集的大體量入手的:大數據是指那些很大的數據集,大到傳統的數據庫軟件工具已經無法采集、存儲、管理和分析。傳統數據庫有效工作的數據上限一般來說在10—100TB,因此10—100TB通常成為大數據的門檻。
無獨有偶,IDC在給大數據做定義時也設在100TB。其實這種方法未必科學,不管怎樣,有一個簡單明晰的數值來指導企業大數據的判斷,總是好事。
大數據如何誕生
記者:大數據現在是個時髦的詞匯,但和云計算一樣,似乎很多人還沒有了解大數據是什么?或者說,因為大數據太熱了,各種各樣的說法都有。從我個人的理解,大數據應該是和云計算一樣,是隨著IT計算能力、資源和網絡、服務器等硬件設施的發展自然而然誕生的,它應該是被看作一種能力,而不是數據本身。
埃里克·霍維茲:時髦詞匯的產生有各種各樣的原因。對于大數據而言,我認為是幾個因素共同導致了這一朗朗上口的詞匯的流行。其中之一是人們在不同領域采集到的數據量之大,達到了前所未有的程度,而傳感、存儲和網絡等計算機科學領域也在不斷前行。人們需要收集大量數據,一部分原因在于許多人類活動已經轉向了網絡,各種交易和事件數據的收集變得十分容易,而且能夠實時同步收集。這些活動包括電子商務、通過道路上的傳感器記錄汽車行駛狀況、利用位置數據提供智能手機服務等。而在醫療領域,基因組研究的突飛猛進和醫院臨床數據捕獲,將越來越多的GB級乃至TB級患者數據輸送到數據庫中。
吳甘沙:數據總量的增長主要歸功于非結構化數據的增長,目前普遍被認為占到85%以上,而且增速比結構化數據快得多,有種說法是快10—50倍。
早期的非結構化數據,主要是文本,如電子郵件、文檔等。隨著互聯網和物聯網的發展,又擴展到網頁、社交媒體、感知數據,涵蓋音頻、圖片、視頻、模擬信號等等,真正詮釋了數據的多樣性。但同時,低信息密度的非結構化數據是大數據的一大挑戰。
從具體內容上,大數據通常分為四類:科研數據、互聯網數據、企業數據、感知數據。
科研數據屬于大數據時代前很久就存在的“史前生物”,可能來自生物工程、天文望遠鏡或粒子對撞機,不一而足。這些數據存在于封閉系統中,玩家都是傳統上做高性能計算的企業或機構。最著名的是歐洲核子研究中心的大型強子對撞機,此機不撞則已,一撞驚人,工作狀態下每秒產生PB級的數據。
互聯網大數據是目前這個時代的主流,尤其社交媒體被認為是大數據的爆發點。幾乎所有的大數據技術都起源于互聯網企業。所有這些企業當中,做搜索的最大,百度達到了千PB的規模,谷歌更大一些。臉譜網、雅虎等都在數百PB,亞馬遜、阿里巴巴應該也同在此列。
進入移動互聯網時代后,移動平臺的感知功能和LBS(基于位置的服務)的普及,使得互聯網數據與感知數據產生了重疊。同樣,企業數據和感知數據也有重合,如企業會部署物聯網收集感知數據。但感知數據的體量要大得多,甚至有預測感知數據的總量在2015年超過社交媒體,并達到后者的10—20倍。企業自身的數據比起十年前雖然沒有數量級的提升,但也得到了有機的增長:一方面,內部數據從結構化數據擴展到非結構化的數據,另一方面,更強調與新的外部數據源如社交媒體數據的融合。
大數據的價值在于獲得洞察力
記者:雖然有多種解讀,但業界一般認為,大數據有四個“V”字開頭的特征:Volume(體量), Velocity(速度), Variety(種類),Value(價值)。這其實也是大數據概念的組成。Volume是指大數據巨大的數據量與數據完整性;Velocity可以理解為更快地滿足實時性需求;Variety則意味著要在海量、種類繁多的數據間發現其內在關聯;Value最重要,它是大數據的最終意義——獲得洞察力和價值。簡單說,大數據4個V:就是體量大,快速化,類型雜,價值大。
張亞勤:體量容易理解。速度可以理解為更快地滿足實時性需求。數據的實時化需求正越來越清晰。對普通人而言,開車去吃飯,會先用移動終端中的地圖查詢餐廳的位置,預計行車路線的擁堵情況,了解停車場信息甚至是其他用戶對餐廳的評論。吃飯時,會用手機拍攝食物的照片,編輯簡短評論發布到微博或者微信上,還可以用LBS應用查找在同一間餐廳吃飯的人,看有沒有好友在附近……
通過各種有線和無線網絡,人和人、人和各種機器、機器和機器之間產生無處不在的連接,這些連接不可避免地帶來數據交換。而數據交換的關鍵是降低延遲,以近乎實時——意味著小于250毫秒的方式呈獻給用戶。
類型雜必然促使我們對海量數據進行分析、處理和集成,找出原本看來毫無關系的那些數據的關聯性,把似乎沒有用的數據變成有用的信息,以支持我們做出的判斷,最終形成大數據的價值——獲得洞察力和價值。
大數據的崛起,正是在人工智能、機器學習和數據挖掘等技術的迅速發展驅動下,呈現這么一個過程:將信號轉化為數據,將數據分析為信息,將信息提煉為知識,以知識促成決策和行動。所以真正好的大數據系統,重要的不是越多越好,其實越少越好,最終變成一個決策,這才是最關鍵的。
大數據開啟了一個新的世界,人們的認知必須主動求變
記者:現在看來,有很多大數據園區、聯盟的出現和成立,但是大數據熱似乎還缺少明確的產業支撐。美國政府投了2億美金支持大數據發展,但這種投入也不是特別大。如您所說,從賺錢機會上來看,大數據還沒到“滿地是沙子、滿地是金子”的時候。對于大數據技術和服務公司而言,中小互聯網公司有現成的機會,而最大的蛋糕——企業數據和感知數據,目前只是聞到香味而已。
吳甘沙:不能神化大數據是萬靈藥,也不能矮化大數據就是包裝舊概念。大數據是一種新的數據形態和實踐,它與當前主流的數據應用實踐并存,而非取代。而且,它在相當長的時間內仍然是個新鮮事物,即使IDC在2012年底預測,年復合增長率高達32%,到2016年全球大數據技術和服務市場總額也就是240億美元左右。不切實際、一窩蜂地上大數據項目不應鼓勵。
對一部分人來說,大數據已經是個客觀存在和競爭優勢;對絕大多數人來說,大數據可以是一種“從現在做起”的世界觀,和未雨綢繆、決戰未來的戰略。可以說,大數據開啟了一個新的世界,我們對這個世界的認知必須主動求變。
舊的認識是“數據是稀缺資源”,這種認識直接導致“數據小農”心態。大數據開始于數據測量,而“數據小農”揀著測、挑著存、采著樣來處理,總是幻想能夠從最少的數據壓榨出最多的信息。
新的認識是,要參與大數據的游戲并且制勝,必須產生大數據。在大數據時代,擁有大數據是一種幸福和特權。因此,每一個個體、企業和政府需要自覺、客觀、全面地去測量世界,并且把數據存下來。決策者需要具備的大數據觀很簡單:數據不是累贅,數據里有很多價值,數據的存儲和搬運會越來越便宜。
因此,大數據也是一種戰略、世界觀和習慣。即使今天沒有大體量的數據,還是可以盡可能自覺、客觀、全面地測量世界,為未來的大數據實踐做準備。對于一個企業或系統來說,挑戰在數據采集,而非存儲。微信在設計之初就把數據監控精細化,并納入基礎框架,這是意識和實力的體現。