目前,Facebook 已經憑借它在網絡基礎建設上的可擴展能力成為了行業的領軍者。Facebook 數據中心運維主管 Delfina Eberly(下圖人物) 在“7x24 Exchange 2013 秋季會議”上的演講中為我們透露了 Facebook 部分內部運維數據,下面我們來具體了解下。
服務器數量驚人,一人管理 2 萬臺
Facebook 服務器數量驚人,其硬件方面的工作重點主要放在“可服務性”上,內容也涉及服務器的初期設計,一系列工作的目標就是為了保證數據機房的設備維修最簡單、最 省時。她介紹說,每個 Facebook 數據中心的運維工作人員管理了至少 20,000 臺服務器,其中部分員工會管理數量高達 26,000 多個的系統。
近期 Facebook 的服務器與管理人數比又創下了新高,目前已經超過 10000:1,可以查看文章高擴展性對此進行更加詳細的了解。
大數據洶涌,運維工作不輕松
在 Facebook 數據中心做運維工作并不輕松,對工作人員的能力要求很高。他們每天面對的是海量數據。
據統計,Facebook 目前擁有 11.5 億用戶,日常登錄用戶約 7.2 億。每天 Facebook 用戶分享的內容達到 47.5 億條,“贊”按鈕點擊次數近 45 億次。Facebook 目前存儲了 2400 億張照片,每月照片存儲容量約增加 7 PB(注,單位換算:1PB=1024TB)。
自動故障診斷系統:原為留住人才
為了管理運維工作,Facebook 已經開發了相應軟件來自動化處理日常運維任務,如 CYBORG 可自動檢測服務器問題并進行修復。如果 CYBORG 無法自動修復檢查出的問題,系統將自動給訂單系統發送警告,并分派給數據中心工作人員,以對相應問題進行詳細追蹤與分析。
Eberly 提到,自動化工作的目標是盡量避免將技術人員派往現場解決問題,除非必須對服務器進行現場處理。強調自動化不是因為 Facebook 對打造無人數據中心感興趣,原因在于 Facebook 重視自己的員工。
Eberly 解釋說:我們要留住人才,因為大家更喜歡高水平的任務,公司希望讓他們留下來與我們一起進步成長,這對 Facebook 來說至關重要。
“可服務性”主導服務器設計:節時 54%
在 Facebook,運維團隊的時間與工作量是根據 Facebook 硬件設計來安排的。比方說,全部服務器從頭開始就堅持“可服務性”這一原則來進行設計,那么數據中心的工作人員就沒有必要老鉆機房了;服務器被設計成無需 工具就可以對磁盤和組件進行替換。這樣做的結果就是:Facebook 用來修理服務器的時間減少了 54%。
Eberly 介紹說,Facebook 運維團隊會仔細跟蹤設備故障率,這一數據會為公司的采購提供參考。公司的財產管理和訂單系統用序列號來跟蹤硬盤和其他組件,這方便完整了解每個硬件的生命周期。
Eberly 還提到,雖然這些系統很復雜,但并不需要太多開發者。Facebook 的運維團隊僅有 3 名軟件工程師,但他們對數據中心的工作來講至關重要。
最后
從 Eberly 的介紹中,我們可以看到 Facebook 在可擴展性網絡建設上的實力。同時,這也為行業提供了一些可參考的經驗,如:開發自動故障系統,根據“可服務性”設計基礎架構。同時,運維也是一個系統工程,需要得到其他部門的配合支持才行。
隨著技術不斷升級變革,IDE-RAID逐漸淘汰,以LSI公司為主導的RAID硬件廠商,推出新型6Gb/...
北京,2013年11月25日——ITbrand第35次發布數據庫品牌排行榜。微軟的SQL Server排名第...
本人驗證可以完美越獄。但是越獄嚴重警告: 越獄有風險需謹慎 sn0wbreeze官方地址http:...
蘋果電腦在Leopard操作系統中自帶了一個叫時間機器(Time Machine)的軟件,用于數據備份...
主要介紹了硬盤的內部構造,主要由盤片、磁頭、馬達等部件構成,那么今天筆者著重介紹一...
品牌之王希捷硬盤 例如: ST31000528AS ST = Seagate(希捷 3 = 3.5英寸(1=3.5英...
硬盤是計算機中最重要的存儲介質,關于硬盤的維護保養,相信每個電腦用戶都有所了解。不...