世界的本質就是數據,大數據將開啟一次重大的時代轉型。
什么是大數據時代?簡單的說,就是運用大量數據改變人們的生活和思維。舉個例子,2009年出現了H1N1流行病毒,傳播迅速,醫生都被要求及時報告病例。但美國科學家發現,很多患者在患病直到病情發展到無法控制時才去就診,因此通報新病例總有一兩周延遲。
有趣的是,谷歌在此前曾通過搜集網絡上類似于“哪些是治療咳嗽發熱的藥物”等大量數據,建立起特定的數學模型,及時推算出流感傳播的區域。公共衛生管理部門求之不得的疫情預測被看上去毫不相干的IT部門通過分析雜亂無章的信息而得到了。
這就是大數據的作用。這是當今社會所獨有的新型能力,以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務。
那么,氣象部門怎樣迎接大數據時代?氣象業務又會發生哪些變革?存在哪些困境?
20年氣象數據增長數千倍
與世界大數據時代的進程相同,氣象數據量不斷翻番。
上世紀90年代及之前,氣象資料大部分局限于地面及高空觀測。當時,2000多個地面站以小時為單位收集氣象信息;120多個高空站每天觀測最多不超過4次。從數據量上看不算太多,即便考慮到衛星和雷達資料,其總體日增量也局限在GB量級。
現在,地面觀測站大約有4萬個,每10分鐘觀測一次,未來還將加密至分鐘級;在空間密度上,至少增加20倍,頻度將增加60倍,地面及高空觀測信息總量增加了1200倍。
而這些只占整個氣象數據的30%,雷達、衛星以及數值預報數據占到了70%。目前,每年的氣象數據已接近PB量級(1000GB=1TB,1000TB=1PB)。
這也正是大數據規律的體現,即對大數據進行相對簡單的運算永遠比對小數據進行復雜運算得出的結果準確。觀測信息量越大,所蘊藏的真實信息越多,就更能做好預報。
國家氣象信息中心副總工沈文海總結氣象部門大數據特征:從某種程度上說,氣象部門一直在運用大數據方法,例如,氣候因子“正相關”“遙相關”以及一些統計學方法。
業界定義的“大數據”特點除了大容量、多種類型、高速增長,還有價值稀缺,即在龐大的數據中找出所需要的有價值數據如同大海撈針,需要通過相應的數學模型進行計算。反觀氣象行業,盡管數據量逐步變大,但每個數據都有特定的價值,因此氣象行業的數據不完全符合業界所定義的“大數據”特征。
中國科學院院士倪光南分析,到目前為止,“大數據”主要運用對象是社會科學部門,例如政府、公共衛生、社會安全等部門,而運用在自然科學界的案例很少。
氣象服務盤活數據
海量氣象數據怎么用?這是大數據時代亟待考慮的問題。就現有情況看,數據在氣象預報、氣候預測診斷方面運用得比較充分;而在氣象服務領域,大量實況觀測數據往往被擱置。
目前的實況數據氣象服務主要基于單要素單一站點的形式。這意味著,人們收到的氣象服務只是周邊氣象站點的天氣情況,并且總有延遲。
為此,科研人員正在引進國際先進的空間數據融合數值模式方法,即將周邊幾個站點的數據以及其他傳感器所獲得的數據融合進模式中,反演出整個區域的天氣情況。從試驗結果看,運算速度達到分鐘級,小區域可達到秒級。
“這些工作都是在大數據的基礎上才能夠進行,無論模式如何先進,沒有海量的數據進入,都不能達到很好的效果。”中國氣象局公共氣象服務中心高級工程師唐千紅說。
讓科研人員欣喜的是,在大數據時代,數據并非單純指人們在互聯網上發布的信息。全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、溫度、濕度乃至空氣中化學物質的變化。可以設想,這些信息都可以被氣象部門所用。
大數據時代下的氣象服務是什么樣子?唐千紅認為,在看得見的未來,融入了地理信息、社會經濟數據的氣象服務,能夠讓人們知道任意時間地點可能會發生什么,例如這陣風是否會吹翻門口的廣告牌,前面一個高速路口是不是在下雨、會不會發生山洪。
云計算搭載大數據
海量數據涌入,傳統的處理設備難以滿足大數據處理的功能和性能要求,因此需要超大規模的計算。
但由于大數據處理的非常態性,單為處理大數據而配置大規模計算資源,那么當處理完成后,計算資源很可能被閑置,從而造成浪費。
而云計算很好地解決了這一問題。寬帶資本董事長田溯寧說,大數據與云計算是一個問題的兩面,一個是問題,一個是解決問題的方法。
云計算是大數據時代的基礎。當浪涌式的需求出現時,向“云端”提出申請,“云端”為該需求迅速組織計算資源,而在計算結束并將結果反饋后,“云端”又可將這些臨時組織起來的資源快速釋放,以做他用。“這樣不僅提高了資源利用率,還使得很多科研人員不需要為了復雜的運算購買昂貴的超級計算機,大大降低了使用者的準入門檻。”沈文海解釋道。
反觀氣象行業,一些調研數據顯示,很多省級氣象信息中心計算機平均CPU使用率不到5%,最低者低于0.04%。此外,一些縣級氣象部門規劃建設數據中心,而一個縣級平臺70%的數據都從省級平臺調集而來,如果采用云計算手段,在省級氣象信息中心運算后得出結果,就可避免再建設的高投入以及后期的維護成本。
云計算改變了人們的思維和工作模式。今年,IT行業出現了基于云計算的BYOD概念,即帶著自己的IPAD、手機或者智能電視,接入網絡進行辦公。“一些省級氣象信息部門做了相關嘗試。今后,預報員也許可以拿著IPAD,出差在外也能做預報。”沈文海說。
靠誰打破數據壁壘
并不是僅靠硬件就能在大數據時代站穩腳跟。
“沿著氣象服務社會化方向,光靠氣象部門的數據很難滿足各行各業及公眾對氣象服務的需求。” 中國氣象局公共氣象服務中心系統開發運行室主任惠建忠看到了大數據時代中氣象部門的困境。
氣象數據要和行業數據、地理信息數據結合起來才更能發揮作用。例如,預報降雨對大壩的影響,就必須了解當地地形、周邊設施、上下游情況等。
然而,數據不能充分共享以及共享渠道阻塞成為大數據時代下不可忽視的難題。“氣象信息、高精度的地理信息是受到法律保護的具有較高機密級別的信息。除此之外,各行各業都握有大量的行業數據,但這些數據往往局限在部門內部,很難流通。” 唐千紅說。
在一些西方國家,氣象觀測數據在進行融合處理后會進入信息數據庫,使用者可以根據自身的安全等級獲得相應安全等級的數據,進行延伸使用。
“由此可見,將信息交予虛無縹緲的‘云’端,如何令有關管理部門和責任人確信這些數據是安全的,是打通數據孤島的必要科學性問題。” 惠建忠說。在大數據時代的推動下,各部門終將走上互惠共贏、數據共享之路。