根據有關學者的研究,數據密集型科學將成為繼實驗科學、理論科學、計算機科學之后,人類科學研究的第四個范式。以大數據為代表的數據密集型科學將成為新一次技術變革的基石。隨著數據的進一步集中和數據量的增大,對海量數據進行安全防護變得更加困難,數據的分布式處理也加大了數據泄露的風險,信息安全正成為制約大數據技術發展的瓶頸。
大數據時代已經到來
物聯網、云計算、移動互聯網等新技術的發展,使得手機、平板電腦、PC及遍布地球各個角落的傳感器,成為數據來源和承載方式。據估計,互聯網上的數據量每兩年會翻一番,到2013年,互聯網上的數據量將達到每年667EB(1EB=230GB)。這些數據絕大多數是“非結構化數據”,通常不能為傳統的數據庫所用,但這些龐大的數據“寶藏”將成為“未來的新石油”。
1.大數據具有四個典型特征
大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合”。業界通常用四個V來概括大數據的特征。
——數據體量巨大(Volume)。到目前為止,人類生產的所有印刷材料的數據量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數據量大約5EB(1EB=210PB)。當前,典型個人計算機硬盤的容量為TB量級,而一些大企業的數據量已經接近EB量級。
——數據類型繁多(Variety)。這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
——價值密度低(Value)。價值密度的高低與數據總量的大小成反比。以視頻為例,一部1小時的視頻,在連續不間斷的監控中,有用數據可能僅有一兩秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”,成為目前大數據背景下亟待解決的難題。
——處理速度快(Velocity)。這是大數據區分于傳統數據挖掘的最顯著特征。根據IDC的“數字宇宙”報告,預計到2020年,全球數據使用量將達到35.2ZB(1ZB=210EB)。在如此海量的數據面前,處理數據的效率就是企業的生命。
2.大數據成為國家和企業的核心資產
2012年瑞士達沃斯論壇上發布的《大數據大影響》報告稱,數據已成為一種新的經濟資產類別,就像貨幣或黃金一樣。奧巴馬政府已把“大數據”上升到國家戰略層面,2012年3月,美國宣布投資2億美元啟動“大數據研究和發展計劃”,借以增強收集海量數據、分析萃取信息的能力。美國政府認為,大數據是“未來的新石油”,一個國家擁有數據的規模、活性及解釋運用的能力將成為綜合國力的重要組成部分,未來對數據的占有和控制甚至將成為繼陸權、海權、空權之外國家的另一個核心資產。
對企業來說,數據正在取代人才成為企業的核心競爭力。在大數據時代,數據資產取代人才成為企業智商最重要的載體。這些能夠被企業隨時獲取的數據,可以幫助和指導企業對全業務流程進行有效運營和優化,幫助企業做出最明智的決策。此時,企業智商的基礎就是形形色色的數據。
大數據在重新定義企業智商的同時,對企業核心資產也進行了重塑,數據資產當仁不讓地成為現代商業社會的核心競爭力。在大數據時代,企業必須熟悉和用好海量的數據,而互聯網行業已提早感受到了大數據帶來的深切變化。一些互聯網企業已經完成了核心競爭力的重新定義。
3.大數據“藍海”成為競爭的新焦點
大數據所能帶來的巨大商業價值,被認為將引領一場足以與20世紀計算機革命匹敵的巨大變革。大數據正在對每個領域造成影響,在商業、經濟和其他領域中,決策行為將日益基于數據分析,而不再是憑借經驗和直覺。大數據正在成為政府和企業競爭的新焦點。各大企業正紛紛投向大數據促生的新藍海。甲骨文、IBM、微軟和SAP共投入超過15億美元成立各自的軟件智能數據管理和分析專業公司。在大數據時代,商業生態環境在不經意間發生了巨大變化:無處不在的智能終端、隨時在線的網絡傳輸、互動頻繁的社交網絡,讓以往只是網頁瀏覽者的網民的面孔從模糊變得清晰,企業也有機會進行大規模的精準化的消費者行為研究。大數據藍海將成為未來競爭的制高點。
大數據給信息安全帶來了新的挑戰與機遇
大數據在成為競爭新焦點的同時,不僅帶來了更多安全風險,同時也帶來了新機遇。
一是大數據成為網絡攻擊的顯著目標。在網絡空間,大數據是更容易被“發現”的大目標。一方面,大數據意味著海量的數據,也意味著更復雜、更敏感的數據,這些數據會吸引更多的潛在攻擊者。另一方面,數據的大量匯集,使得黑客成功攻擊一次就能獲得更多數據,無形中降低了黑客的進攻成本,增加了“收益率”。
二是大數據加大隱私泄露風險。大量數據的匯集不可避免地加大了用戶隱私泄露的風險。一方面,數據集中存儲增加了泄露風險;而這些數據不被濫用,也成為人身安全的一部分;另一方面,一些敏感數據的所有權和使用權并沒有明確界定,很多基于大數據的分析都未考慮到其中涉及的個體隱私問題。
三是大數據威脅現有的存儲和安防措施。大數據存儲帶來新的安全問題。數據大集中的后果是復雜多樣的數據存儲在一起,很可能會出現將某些生產數據放在經營數據存儲位置的情況,致使企業安全管理不合規。大數據的大小也影響到安全控制措施能否正確運行。安全防護手段的更新升級速度無法跟上數據量非線性增長的步伐,就會暴露大數據安全防護的漏洞。
四是大數據技術成為黑客的攻擊手段。在企業用數據挖掘和數據分析等大數據技術獲取商業價值的同時,黑客也在利用這些大數據技術向企業發起攻擊。黑客會最大限度地收集更多有用信息,比如社交網絡、郵件、微博、電子商務、電話和家庭住址等信息,大數據分析使黑客的攻擊更加精準。此外,大數據也為黑客發起攻擊提供了更多機會。黑客利用大數據發起僵尸網絡攻擊,可能會同時控制上百萬臺傀儡機并發起攻擊。
五是大數據成為高級可持續攻擊的載體。傳統的檢測是基于單個時間點進行的基于威脅特征的實時匹配檢測,而高級可持續攻擊(APT)是一個實施過程,無法被實時檢測。此外,大數據的價值低密度性,使得安全分析工具很難聚焦在價值點上,黑客可以將攻擊隱藏在大數據中,給安全服務提供商的分析制造很大困難。黑客設置的任何一個會誤導安全廠商目標信息提取和檢索的攻擊,都會導致安全監測偏離應有方向。
六是大數據技術為信息安全提供新支撐。當然,大數據也為信息安全的發展提供了新機遇。大數據正在為安全分析提供新的可能性,對于海量數據的分析有助于信息安全服務提供商更好地刻畫網絡異常行為,從而找出數據中的風險點。對實時安全和商務數據結合在一起的數據進行預防性分析,可識別釣魚攻擊,防止詐騙和阻止黑客入侵。網絡攻擊行為總會留下蛛絲馬跡,這些痕跡都以數據的形式隱藏在大數據中,利用大數據技術整合計算和處理資源有助于更有針對性地應對信息安全威脅,有助于找到攻擊的源頭。
保障我國大數據信息安全的建議
一是重視大數據及其信息安全體系建設。大數據作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。在物聯網“十二五”規劃中,信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。在對大數據發展進行規劃時,建議加大對大數據信息安全形勢的宣傳力度,明確大數據的重點保障對象,加強對敏感和要害數據的監管,加快面向大數據的信息安全技術的研究,培養大數據安全的專業人才,建立并完善大數據信息安全體系。
二是加快大數據安全技術研發。云計算、物聯網、移動互聯網等新技術的快速發展,為大數據的收集、處理和應用提出了新的安全挑戰。建議加大對大數據安全保障關鍵技術研發的資金投入,提高我國大數據安全技術產品水平。推動基于大數據的安全技術研發,研究基于大數據的網絡攻擊追蹤方法,搶占發展基于大數據的安全技術的先機。
三是加強對重點領域敏感數據的監管。海量數據的匯集加大了敏感數據暴露的可能性,對大數據的無序使用也增加了要害信息泄露的危險。在政府層面,建議明確重點領域數據庫范圍,制定完善的重點領域數據庫管理和安全操作制度,加強日常監管。在企業層面,建議加強企業內部管理,制定設備特別是移動設備安全使用規程,規范大數據的使用方法和流程。
四是運用大數據技術應對高級可持續攻擊。傳統安全防御措施很難檢測出高級持續性攻擊。安全廠商要利用大數據技術對事件的模式、攻擊的模式、時間和空間上的特征進行處理,總結抽象出一些模型,變成大數據安全工具。為了精準地描述威脅特征,建模過程可能會耗費幾個月甚至幾年,并耗費大量人力、物力、財力。建議整合大數據處理資源,協調大數據處理和分析機制,推動重點數據庫之間的數據共享,加快對高級可持續攻擊的建模進程,消除和控制高級可持續攻擊的危害。