IT與華爾街(代表金融行業)的相生相長有兩層含義:一是IT企業所需要發展壯大的資金,由華爾街幫助它們融資獲得;二是華爾街對IT的需求往往高而超前,這加速了IT的進化。在大數據成為IT熱點的時候,金融行業何以應對?
從來都不缺數據、一向以“高富帥”形象出現的金融行業被認為有足夠實力玩轉數據。那數據帶來的苦和甜、喜與憂是否真如外界所假想?要找到答案,需要與從業者們進行一場坦率的交流。“以前走過彎路,現在意識覺醒,未來需依循章法”,在達成共識后,金融業里有志發揮大數據威力的IT、業務決策者們已經揚帆起航。
領悟數據標準
國家開發銀行營運中心前處長、中經安信息科技公司現任總經理邱勝利在銀行核心業務系統建設領域有超過16年的經驗,他主持建成了國內第一個銀行業務系統。邱勝利承認,在銀行業中,對數據的利用存在“調子定得較高,實際使用還有一定差距”的痛處。
在系統建設過程中,邱勝利感受到的挑戰很多:“數據亂象,缺乏數據標準,導致單純的數據集中意義不大,即使系統建成,數據仍然無法得到有效利用。”
數據應用的瓶頸在于數據采集標準不規范,導致無法互聯互通的數據孤島遍地皆是。為此,國家開發銀行特意成立了一個數據標準部門,按照真實的業務格式設定標準,對舊的數據進行移植和清洗,新的數據則搭建數據采集平臺,底部打通,各個業務部門統一獲取數據。
“一個大型集團的IT主管曾向我訴苦,數據根本沒法統一采集。試想,一個規模較大的銀行會有上百個業務系統,如果這些系統不統一按照標準采集數據那將多么可怕,數據的完整性、可靠性、安全性更是空中樓閣。”邱勝利指出,數據清洗和系統的靈活性也很重要。由于行業規則的頻繁變動和嚴格的合規性要求,銀行數據系統需要及時調整,“一個有威信的數據平臺就像一棵樹的主干,新老業務系統就像這棵樹上的枝葉,可以不斷分杈生長”。
證券行業同樣經歷過數據標準的陣痛。首創證券有限責任公司技術總監伏勁松感慨道:“以前受帶寬和處理能力所限,證券行業采取多種數據描述語言,各顯神通,接口互不兼容。”所幸的是,現在這些限制被打破,數據描述語言也因此通用。“目前,所有上市公司的財務報表都要求用XBRL(可擴展商業報告語言)語言編寫,金融行業的數據通用標準基本成型。”
大數據應用的層次感
回顧以結構化數據為主導的數據利用過程,不難發現數據讓金融業痛并快樂著。時間的步伐往前走,數據的表象也在發生變化。
正如英特爾中國研究院首席工程師吳甘沙所形容的,舊認識是“數據是稀缺資源”,這直接導致“數據小農”心態,即揀著測、挑著存、采著樣來處理。大數據觀是數據沒有累贅,應具備全樣性和全量性。這種急劇的變化使得大數據的利用更為復雜和艱難。
來自用戶的聲音表明,金融業各個細分領域對大數據的駕馭能力已現差距——賽迪顧問調查結果顯示:銀行對于數據的管理、應用、安全方面的需求迫切,現階段數據起輔助性作用;保險行業對數據的利用程度較高,由“集約化使用”向“智慧使用”邁進;證券業和期貨業數據利用力度不斷加大,將從客戶服務滲透至業務層面;支付行業困惑于如何使用數據。
在中國民生銀行電子銀行部北京運營中心總經理馬景麗看來,銀行追求標準化和規模化的經營模式。這其中,數據的應用發揮了重要作用,數據營銷和事件營銷已不神秘。但“我們應用的數據和事件還局限于內部的存量數據。應用場景比較簡單:在數據倉庫里定義一些規則,客戶有大額支出,或理財產品到期,這些事件都會讓資料信息彈出來,我們就跟蹤做二次營銷;中國人民銀行通知超級網銀要停兩天,我們會通知客戶提前處理資金”。
她意識到,這些跟大數據差距甚遠,銀行業務發展的數據,目前主要基于結構化數據,“我理解的大數據應該是除了財務數據以外,增加客戶的行為數據”。領導關注大數據,但對“大數據對業務的支撐效果”不明確,不懂怎么投入,不懂怎么引進技術。“數據仍只是一種輔助工具,不是決定成敗的關鍵內容。”馬景麗認為,要解決這個問題,必須讓決策人員明確回報,能規避什么風險,也需要教會業務人員如何使用新系統,畢竟在銀行業,大家是很愿意投資和應用新技術的。
國內保險行業最早的大數據掘金者之一、德華安顧保險董辦主任王洪濤表達了對國內保險行業對大數據集約化使用向前再跨一步的希望:“集約化使用是把客戶數據、交易數據和接觸數據進行邏輯歸并,消除信息孤島,從而提高業務處理效率,更好地控制風險。在這方面,保險行業內的認識已經比較深刻,都已有所行動。2009年,我在陽光保險集團主持的客戶信息基礎庫建設,建立了跨產壽險的客戶統一視圖;我現在參與籌建德華安顧人壽保險公司,在系統開始搭建時就做到數據的集中。”
下一個階段是智慧地用,這意味著“利用數據挖掘,發現保險行業內的新知識,從而將保險行業的數據墳墓轉變為金礦,形成獨特的核心競爭力。在這方面,保險行業仍然處于開拓期。”
王洪濤介紹,國際上,保險行業的大數據智慧應用集中于以下方面:客戶細分、代理人甄選、營銷響應、交叉銷售和二次銷售、欺詐監測、流失預警、客戶挽留等。在國內保險行業,他已主持了一些保險大數據智慧應用的項目,主要集中在客戶細分、代理人甄選、交叉銷售、客戶體驗等方面。他從2010年開始,在陽光保險集團主持建成了數據挖掘系統,這在保險行業是創先河的,并開展了許多保險大數據智慧應用的項目,培養出了國內保險行業的第一批數據挖掘師。他希望自己的成功經驗可以在同行業內復制和推廣。
銀河證券信息中心主任技術總監唐沛來剛剛從華爾街歸來,通過實地考察,他感受到了國內外證券行業在大數據應用上的差距。
“國內證券行業的大數據應用目前更多地針對結構化數據,主要應用于客戶服務,比如我們根據客戶的買賣信息來分析他的投資偏好,從而推送不同的投資建議。而國外對沖基金的量化交易已經充分將數據利用起來。”唐沛來詳細介紹了量化交易是如何將數據與交易指令的生成和執行緊密關聯起來的——量化交易把注意力從大勢的漲跌上移開,將某只股票近十年的行情數據調出來,結合最新的財務報表,當下的新聞事件、政策這些包含結構化數據和非結構化數據的信息,進行計算,并根據預先設定好的數學模型判斷是買入還是賣出。
“由于外界數據的波動性,量化交易需要隨時抓取最新數據,數據模型會根據交易狀況不斷進行調整和完善。”唐沛來認為國外量化交易已經實現了大數據對業務的驅動,“數據模型的準確性和速度都至關重要。為了追求3ms的數據傳輸時間的改進,有對沖基金專門在紐約和芝加哥之間架起了微波衛星。誰先完成數據的處理過程,誰就占有先機。”
唐沛來表示,銀河證券也在嘗試深化大數據的應用,“以發送給股民的預測報告為例,我們會使用更多的數據來支持該報告,不光是行情數據、財務報表數據,還有從社交媒體,如QQ、微信那里獲取并經過處理的數據,分析大眾的情緒,獲悉哪些詞代表正面,支持上漲,哪些詞代表消極”。
至于以散戶為主且風險較大的期貨行業,數據的利用更直接地表現為CRM和個性化服務。“期貨公司會建立客戶服務中心,進行客戶數據分析和數據挖掘。對客戶進行分類,并確定新開發客戶的目標,還會根據現有客戶的盈利率進行分析,為客戶提供不同的投資服務。”中國期貨業協會信息部主任劉鐵斌指出,目前國內期貨業利用數據在客戶開發方面的力度較大,但后續的客戶服務沒有跟上。
在業務層面,劉鐵斌認為,客戶數據對業務的推進,以及量化和高頻交易在期貨市場的應用都將是大數據價值在期貨行業的重要體現。
第三方支付是金融業的新興勢力。來自快錢支付和拉卡拉支付的業務人員表達了希望將自有的大數據與實際業務結合起來的愿望:“支付公司擁有真實的海量交易數據,完全可以在將數據清洗后,為銀行提供金融服務參考,比如根據企業的進出賬,進行信用評級,作為發放貸款的依據。根據個人的消費活躍度,推薦理財服務等。”但支付行業對半結構化數據和非結構化數據還沒有形成系統認識,商業模式也沒有明確,“我們會給用過拉卡拉終端的客戶打電話或者發短信,介紹促銷活動,或者給商家打電話,聯合開展促銷活動,以促進刷卡量,而拉卡拉的收益就是手續費。這是一種低層次的數據應用,我們希望能找到更聰明地應用數據的方法。此外,我們還頭疼于哪些數據是有效的,如何將這些有效數據過濾出來”。
平臺上的雙贏
“從使用方的角度來說,大數據的集中、清洗、管理,尤其是如何通過分析與業務結合起來,是我們對大數據的迫切需求。”劉鐵斌代表應用方將用戶需求擺了出來。這些需求明確指向“技術廠商應深刻理解大數據的內涵,提供具有說服力的整體解決方案”。
作為一家端到端大數據解決方案的提供商,英特爾從兩個層面理解大數據:一個是廣義層面的,一個是狹義層面的。“從廣義層面來講,大數據是一個通過數據驅動業務發展的理念,比傳統的BI更加強化這種理念。對企業來講就是開源節流,開源指的是怎么用數據創建新的業務,獲得更多的收入,節流指的是怎樣管理好企業內部的運營流程,節約成本。金融業屬于服務行業,在服務行業里面最關鍵的是大數據的價值杠桿,即怎么樣去做好客戶的精細化管理和精細化刻畫。”英特爾數據中心軟件部大數據產品技術顧問黎超闡述了英特爾心目中的大數據涵義,“從狹義層面來講,大數據并不是一個新概念,它的復興受到兩方面因素的影響:一是獲取收集數據的成本大幅降低,二是企業深刻認識到數據是一種資產,以前在數據清洗的過程中,限于持有成本,對數據的屬性有所取舍,但新形勢下的新挖掘和分析可能會需要那些被舍去的屬性。長期保留原始數據格式的重要性已得到公認,因為一旦有新的業務需求,可以利用原始數據再次進行數據加工和數據分析。”
大數據的意義和它的關鍵屬性直接對數據平臺的建設提出了更高的要求。英特爾將這些挑戰進行總結,以期為行業發展提供借鑒。
“第一個是數據持有成本,這主要是硬件成本。就算是金融行業這樣的資金大戶,在遭遇PB級數據量所需的數億元投資時,仍會‘一身冷汗’,因此要堅持大數據的持有成本可控,尤其是低價值密度數據持有成本要可控。”黎超指出,企業運營數據,價值密度相對較高,但伴隨著互聯網對傳統行業的改造,越來越多的企業導入來自互聯網的相關數據,這些數據大部分屬于低價值密度的數據,單看某一個網頁或者單看用戶某一次點擊行為沒有任何意義,只有把數據積累到一定程度分析才有結果,此時就應該在盡可能滿足分析的前提條件下,盡量去降低硬件成本。
第二個是軟件成本。“很多企業感嘆,我們被軟件廠商綁架了,因為要不停地進行巨額的軟件投資以跟上新技術的發展步伐。從互聯網行業的成功范例來看,可推廣的模式是開源與商業化相結合。”黎超表示,開放可以讓用戶能夠建立完整的知識體系,商業化則能引入競爭,在開放與商業化結合的平臺上,新技術的發展會讓用戶和解決方案提供商實現雙贏。
第三個是系統必須在最初就具備彈性。大數據的增長速度之快,使得企業無法在部署之初就做好宏大的規劃,也無法一次性投入巨大的建設成本。“用與時俱進、按需分配來形容系統的不斷擴容很合適,大數據系統的建設與數據的增長匹配,成比例發展,這是大數據與云計算結合的體現。”
第四個是統一不同來源數據的物理存放和數據的再加工。前者是為了方便數據的讀取,形成對數據的完整視圖。后者指的是業務發展要求不停地把不同來源的數據進行重新組合,生成新的數據模型,來反映經營狀態,指導經營需求,這就意味著大數據平臺要能夠把異構的數據統一,長期存放在一起。
英特爾所提供的解決方案體現了其對大數據平臺挑戰的深刻理解。“英特爾在企業應用大數據應用的角色上,對自己的定位是企業大數據端到端的軟硬件基礎平臺層的供應商。傳統意義上,英特爾是芯片廠商,主要提供硬件。英特爾逐漸發現一個問題,單單提供硬件離客戶太遠,很多情況下解決不了用戶的實際需求,因此英特爾調整了自己的思路和做法——建立生態體系,靠近用戶,提供軟件平臺。英特爾發行版Hadoop軟件就是一個很好的例子,它結合了商業化技術和開源技術,足以支撐企業的大數據應用。” 黎超強調在英特爾為大數據提供的強大硬件支撐,如芯片、服務器、存儲和網絡之外,英特爾的軟實力也嶄露頭角。
找到好的數據工程師
賽迪顧問指出,如果利用得當,大數據可在加強風險管控、精細化管理、業務創新等業務轉型中起到重要作用。首先,大數據能夠加強風險的可審性和管理力度,支持業務的精細化管理。其次,大數據支持服務創新,能夠更好地實現“以客戶為中心”理念,通過分析客戶消費行為模式,提高客戶轉化率,開發出不同的產品以滿足不同客戶的市場需求,實現差異化競爭。
“大數據應用的最終決定因素是人,數據科學家的重要性浮出水面,其價值在于在標準層面理解所在行業的業務和具備一定的IT技能,利用好大數據工具。”黎超表示,大家對數據科學家這個角色的期望較高。
“數據工程師所要求的職業技能,計算機技能逃不掉,第二個是統計分析,第三個是機器學習。大數據模型中的發散分析超越了統計專業人員的計算機應用能力,必須由數據工程師來完成。”伏勁松對金融行業的數據工程師求賢若渴,但從人才培養的角度來看,歐美國家數據工程師人才缺口很大,中國這方面的人才儲備充足,但實際應用少,沒有用好這些人才。
從業務的層面來看,伏勁松希望大數據可以超越客戶服務的范疇延伸到產品設計。他從Twitter美國白宮發言人賬號被盜發布假消息導致美國股市巨幅波動中看到了大數據對金融交易的深層次影響。“美國聯邦調查局、SEC和美國期貨監會對這個事件節點前后5分鐘的24個品種的遠期合約聯合展開了調查。”伏勁松饒有興致地講道,從社交網絡出發進行個人或集體行為分析,再與投資關聯。三大監管部門之所以調查,是因為這也算一種事件驅動投資策略的表現,不排除某些金融機構在利益的驅使下,故意而為。“我的想法是,反過來講,社交媒體也會為金融行業帶來高額的利潤,關鍵看如何根據社交媒體數據來提取產品特征,進入金融行業的核心業務。”
此外,風險管控也能體現大數據對金融業務的影響。“以量化投資為例,競價、風險管理、優化都離不開利用數據挖掘信息,而分散風險和對沖風險則體現在找到數據之間的正相關和負相關性。”伏勁松總結道,“大數據在金融行業的應用大有可為。”