ITValue社區

揭秘阿里巴巴雙十一IT部署

作者:張宇婷 / 日期:2013-11-13

2013年11月11日,13:04分,天貓交易額已經打破去年191億元的紀錄。
2013年阿里云開發者大會上,阿里云業務總經理陳金培表態:無論是O2O還是線上或線下業務,很多商家都搬到了聚石塔,今年將有大部分參與的廠商都會把他們的系統遷移到云上面來。為了解決每年雙十一帶來的巨額購物狂歡節的壓力,一方面是來自于商家的壓力,在淘寶或者是天貓開店的賣家,雙十一這一天業務量非常大,為防止本地數據中心無法承受巨額訂單量,發貨系統和訂單系統癱瘓,或出現丟單情況,會將把系統搬到云上,即“聚石塔”。與此相似,阿里也對銀行推出了“聚寶盆”,讓更多銀行上云,解決支付貫通問題。
今年8月15日,阿里巴巴飛天云計算平臺的單集群的服務器規模達到了5000臺,這是中國互聯網公司首次向外公布單集群規模達到了5000臺。阿里用飛天平臺調度5000臺服務器。在這一平臺上,有服務淘寶的數據開放平臺,包括阿里金融所有的數據處理業務也都在這一平臺上。2013年雙十一前,阿里巴巴CTO王堅也詳細闡述了淘寶順利挺過“雙十一”的,需要攻克的技術難題。
  
支付問題
支付的問題難點在銀行,2012年淘寶和天貓的總交易額有191億,交易筆數是1億零280萬筆,對于淘寶來說,一共有多少筆結算是非常重要的,因為在銀行承擔不了的前提下,需要盡可能在支付寶完成交易,支付寶的技術能力決定了系統的承載能力。
以前,交易量過大時銀行支持會出現問題,支付寶就會對交易進行排隊,延遲交易。但雙十一的交易量太大,延遲時間太長會產生很大的用戶體驗問題,所以支付寶提前做了鼓勵用戶先充值進支付寶的活動,這筆錢的規模當時達到了幾十億,一定程度上緩解了銀行的壓力,把對銀行系統的壓力直接轉嫁到了支付寶系統上,使得雙十一當天的交易順利進行。

淘寶自身挑戰
淘寶自身的挑戰在于面對突然出現的并發流量和意外情況發生時,如何保持系統的穩定性并完成天文數字的交易量。就像電影院雖然修了安全通道,但有意外觀眾仍然可能不按緊急通道的提示行動,而傷到人,緊急情況下用戶的行為是沒有辦法預測的。淘寶也是一樣,在意外情況下,任然無法預測用戶行為,本來沒有流量的地方,可能會突然跑出一個嚇人的流量,任何一個局部的問題都有可能演變成為一個全局的問題,這個就是困難的地方。“雙十一”當天阿里巴巴集團近千名技術和業務人員坐在一層,用一個指揮體系處理問題,準備了近幾百種預案,因為現場出現問題再去解決肯定來不及,一個回車鍵敲錯了,可能那個系統就癱瘓了。

客戶問題
解決淘寶客戶的問題主要是通過阿里自身的技術力量去解決客戶面臨的問題,比如 “聚石塔”項目,將天貓和淘寶賣家的全部交易流程都部署在阿里云計算平臺上,保證他們交易系統的穩定性,從而保證他們的交易順利完成。
過去,交易從淘寶鏈接到賣家后臺系統的過程中,如果賣家IT基礎設施薄弱,系統交換數據會因為網絡等各種原因不通都可能會使交易失敗。2012年“雙十一”有一句話是說“20%的交易量是在云上完成”,這其實是說有20%交易量其賣家的后臺系統是部署在阿里云上的。以往買家買一個東西只需要點擊購買,然后進行支付,這個動作會指向兩條IT路徑:一是連接支付寶,保證有錢可以完成支付;另一條則是進入賣家的ERP,賣家需要知道自己是否有庫存,并減掉相應的貨品數量。把賣家的ERP系統完全架設在云上,這件事的難度和意義比只解決網站流量擴容要大,因為從發票打印到發貨都要通過這個系統,不同的ISV(獨立軟件開發商)也在其中起了關健的作用,讓人們體會到一個生態的價值。2013年,淘寶的目標是讓70%~80%的交易在云上完成。

推薦閱讀