微票兒技術VP楊森淼這一連串的數據背后,有著什么樣的支撐技術?日前,微影時代研發(fā)中心技術副總裁楊森淼做客“騰訊云會客廳”,對話騰訊云副總裁曾佳欣,解讀了微票兒年增長4000%背后的大數據和云計算技術體系楊森淼表示,微票兒的核心在于利用大數據做精準營銷及服務,通過卷積神經網絡(CNN)、奇異值分解(SVD)等算法對 200TB 用戶數據和行業(yè)數據進行分析,微票兒得以精準地把握用戶需求,提升了票房轉化率;同時,面對用戶量高速增長時期高峰值、大流量的挑戰(zhàn),云計算資源的高伸縮性、安全性也是支撐不間斷運營的必備條件微票兒會根據用戶熱度建議影院優(yōu)化排片,首先通過數據分析用戶位置和用戶附近的影院,然后反哺上游,并為影院經理也開發(fā)微票專業(yè)版,幫助他們了解到自身影院數據,以確定排期和行業(yè)大盤。可以說我們的核心競爭力就是利用整個大數據來為電影行業(yè)、演出及體育行業(yè)去做服務、公司宣傳片拍攝連接和營銷目前微票兒產生的日志條目數上百億條,業(yè)務累計的數據量不少于千萬量級,之巧用對比拍風光,行業(yè)大數據則是以爆炸性的速度不斷擴展,目前微票兒的大數據的數據存儲總量已達200T算法從邏輯上來看,這個過程又包含了兩個部分的算法1. 特征工程算法 特征工程是指為了提高算法準確性,對數據做的一系列數學變換。這部分工程尤為重要,不光考驗算法工程師的數學能力,同樣考驗工程能力巨大的數據集合無法在單機上進行特征抽取的時候,就需要工程人員需要從單機算法設計成為并行特征抽取算法。微票兒特征抽取工程上多采用深度學習(Deep Learning)技術,這是因為深度學習天然的網絡拓補結構更容易并行,并行存儲也可以滿足龐大數據量的存儲需求當然,這些算法更多的是要去迎合使用場景。比如CNN(Convolutional Neural Network)和SVD(Singular Value Decomposition),這兩種降維方法會因為業(yè)務場景不同而區(qū)分使用2. 目標結果算法通過特征工程算法得到的重要維度,交給“目標結果算法”來處理除了常規(guī)機器學習/深度學習算法以外,微票兒對于不確定數學的相關算法也有一些應用。因為許多場景下,精確估計表現(xiàn)并不是很理想,尤其當自變量解釋能力不強的時候比如常用的 Regression 算法對于確定信息有著極高的預測能力,但是對于不確定信息來說顯得比較無力。針對這類場景,微票兒采用了不確定信息的描述,諸如“Entrop(熵)”和“lyapunov”。因此,除了日常所需的數據存儲和抽取集群以外,微票兒把算法重點放在更遠的并行內存計算技術上楊森淼希望可以把深度學習計算并行在造價低廉的內存計算平臺上(如Spark集群),可以在不減少輸入參數和神經網絡規(guī)模的前提下,更優(yōu)地完成任務。為了抵消與高速“GPU”的速度差,微票兒使用了眾多集群,并采用“伸縮”模式,訓練過程結束之后,集群自動伸縮為一般模式,這樣避免了與“GPU”集群一樣的硬件必須消耗問題很容易看到,影視視頻制作大數據平臺不完全在云上。楊森淼比較了自建大數據平臺和云大數據平臺的優(yōu)劣: 1. 自建大數據平臺的優(yōu)點用戶根據自身需求規(guī)劃建設完全貼合業(yè)務需求的大數據平臺,暫且踢出了這一腳影視視頻制作且平臺建設與業(yè)務發(fā)展相互促進。影評動畫片灌籃高手評論7,技術機構版本的升級、新技術的引入,資產管理、自動化運維、權限認證等系統(tǒng)研發(fā)完全由用戶自己決定,可控性強。大數據平臺技術團隊對架構中每項技術都會有持續(xù)深入的研究,保障了平臺的穩(wěn)定及不斷創(chuàng)新,增強了公司的技術影響力2. 自建大數據平臺的缺點對平臺技術團隊成員的綜合能力(學習能力、創(chuàng)新能力)要求較高。IT行業(yè)的特殊性、對團隊成員的穩(wěn)定性要求較高3云大數據平臺的優(yōu)點服務商有完善的解決方案體系,根據用戶的具體需求及應用場景為用戶提供合適的技術架構。每套技術架構又是一套完整的生態(tài)系統(tǒng),除了大數據平臺本身,還附有資產管理系統(tǒng)、自動化運維系統(tǒng)、監(jiān)控報警系統(tǒng)、權限認證系統(tǒng)、安全保障系統(tǒng)、各層面HA等4. 云大數據平臺的缺點提供給客戶的每套解決方案往往不能完全貼合用戶需求,加上技術架構各個組件及環(huán)節(jié)的定制封裝,為用戶增加了不同程度的學習及維護成本。當用戶需要將一些前沿技術或第三方組件整合到云大數據平臺時,服務商往往需要很長的時間甚至直接告訴用戶暫沒有這方面的研發(fā)計劃微票兒根據業(yè)務場景選擇自建平臺或者云平臺:業(yè)務數據倉庫的建立目前還在本地物理集群,因為涉及業(yè)務數據量大,且計算及配置環(huán)節(jié)較多,對數據準確度要求較高。一些競品分析預測、票房預測、輿情預測及用戶行為分析等方面的分析、預測類計算,則是在云上完成的。一些實時計算及準實時業(yè)務服務,也大都在云上進行,這樣可以最大程度的縮短由于網絡或數據交互帶來的時延。數據傳輸方面,關系數據T+1與T+0數據批量同步,百萬級數據同步基本在1分鐘內完成,流數據實時接收處理,秒級響應后續(xù)努力的方向,楊森淼表示,是如何發(fā)揮好在“大數據和社交”兩個方面的核心優(yōu)勢,用“懂社交的大數據”把電影演出等娛樂產業(yè)和觀眾更好的連接在一起,比如騰訊云的優(yōu)圖人臉識別有效幫助了微票兒的數據采集,而這個能夠更加豐富自身大數據,實現(xiàn)更好的洞察。