又做又爱高清免费观看-又粗又大又爽真人一级毛片-又粗又硬的aaaaaaa毛片-又硬又大又湿又紧a视频-国产精品亚洲精品一区二区三区-国产精品亚洲精品日韩己满十八小

首頁信息中心名人堂評選產品案例庫政策法規知識庫

綜合行業制造業房產建筑公共事業金融服務能源礦產互聯網信息化工材料教育科研醫療衛生商貿流通現代農業節能環保文化娛樂商務服務公共事業

大數據業務成功需完成七步

日期：2013-07-16 來源：比特網作者：
關鍵字：

對于大數據，有三個重要的事實。首先，它并不是新趨勢。亞馬遜、微軟和谷歌自上世紀90年代就開始進行大數據工作。事實上，幾十年來，很多公司都一直在挖掘數據。可能由于當時只有資金雄厚的大型公司才能夠進行大數據研究，但大數據確實早已存在。現在，基于廉價的計算和存儲能力以及新工具和技術，幾乎每個人都可以使用高級數據挖掘技術和算法了。

關于大數據的定義

很多人認為大數據只是商業智能(BI)的新名稱，雖然這兩者有相似之處，但大數據超出了BI的范疇。

第二個事實：“大”是相對的。現在各行業各組織確實正面對創紀錄水平的數據增長。據IDC稱，我們每秒創造超過58TB數據，到2020年，將擁有超過35ZB的存儲數據。然而，大數據并不一定是巨大的，大數據并不在于其規模，而在于你需要如何處理它。擁有100TB的小公司可能也存在大數據問題，因為他們需要提取、分析數據，并作出決策。

第三，大數據處理中使用的數據的定義是廣泛的，它可以包含結構化和非結構化數據。對于一些公司來說，最重要的是大數據的元數據，或者關于數據的數據。

麥肯錫將大數據定義為“其規模超出傳統數據庫軟件的捕捉、存儲、管理和分析能力的數據集”，筆者補充了這一點：“這些數據集需要大量運行在數百甚至數千臺服務器(云)的并行軟件(系統)來處理。”

大數據成功的7個步驟

第1步：承認存在問題。這往往是最難的一步。10年前，我們拒絕承認我們的網絡已不再受防火墻和代理服務器設置的保護，而我們不得不為員工遠程訪問開放基礎設施并擁抱互聯網。對于大數據，IT領導者需要評估其數據情況：

● 你的數據集讓你不堪重負嗎?

● 你不知道所有數據的位置?

● 你(或者企業領導者)沒有從你的數據中得到所需的信息?

● 企業領導沒有基于數據來做決策?

● 有可能提高IT在企業政策和戰略決策中的相關性嗎?

如果你像大多數公司一樣，部分或者所有這些問題的答案都是肯定的，那么是時候控制你的數據，并從中挖掘出情報以提供給領導層做決定。

第2步：認識到大數據帶來的大機會。我們總是被告知要緊密聯系業務，“業務技術”這一說法已存在多年，但我們總是很難看到最新的軟件和流程如何直接影響收入或者全球經濟增長。而大數據卻可以。為什么?因為信息就是力量，企業領導需要數據中挖掘出的信息來幫助企業競爭和發展。員工、客戶和市場產生的大量數據讓整個企業(從銷售到營銷部門)都不堪重負。而大數據能夠為你提供簡潔且實時的價值信息，幫助增加收入。

第3步：制定大數據計劃。與任何計劃一樣，你開始就應該想到結果。企業需要知道什么?他們需要回答的問題是什么?在你開始使用Hadoop前，解決這些問題，并簽訂聯合協議。然后按照下列步驟操作(每個步驟可能需要數周或者數月)：

1、隔離屬于“大數據”的部分數據

2、分離“產品”大數據和“公司”大數據，例如人力資源分析需要的員工數據和電子商務平臺的客戶或產品搜索數據需要分離

3、認識和了解你的數據的波峰和波谷

4、了解哪些技術允許實時(或接近實時)大數據處理

5、確定關鍵的解決方案/供應商

6、從小事做起，評估與發展—先做一個項目，讓你可以快速展示成果和ROI，然后轉移到下一個大數據項目

7、繼續分析、調整和輸入—大數據是靈活的，需要隨著數據、情報和企業要求的變化進行調整

第4步：利用分布式系統。大數據要求我們轉換對系統和基礎設施的想法。正如虛擬化從根本上改變了我們利用服務器和應用程序的方式，分布式系統和處理使我們能夠管理大數據，因為分布式架構允許我們將問題分解成很多小任務，然后將這些任務分配到多個系統。好消息是，我們擁有了越來越多的攻擊和架構框架可以利用，包括Cassandra、Hadoop、VMware、Red Hat等。分布式系統并不新鮮，但大數據將其帶入到全新的水平，分布式方法包括：

● 多租戶架構

● 分布式數據庫

● 虛擬化

● 多線程

● 多核心CPU

● 并行處理

● 分布式文件系統

● 分布式負載平衡

● RAID算法

第5步：從分布式到分散式。對大多數公司來說，這是真正的范式轉變，這也是大數據和云計算結合的地方，鑒于互聯網是世界上最大的分布式和分散的系統，我們應該更加充分地利用互聯網來實現大數據。

我們很喜歡分布式實例或者計算處理，但分散式往往有種失去控制的感覺。這有必要嗎?對于大數據，采用分散式做法是必要的，因為由于過度和孤立的服務，所有未使用的實例和存儲容量都將浪費。

更重要的是，單靠分布式組件無法讓我們跟上數據增長的步伐。IDC估計，到2020年，產生的數據和數據中心容量之間的差距將達到60%。