筆者多年同服務(wù)器陣列打交道,在服務(wù)器陣列方面積累了豐富實(shí)戰(zhàn)經(jīng)驗(yàn),今天在此就磁盤陣列常見(jiàn)故障類型進(jìn)行歸納。
磁盤陣列是把多個(gè)小型廉價(jià)的磁盤驅(qū)動(dòng)器合并成一組陣列,來(lái)達(dá)到大型昂貴的驅(qū)動(dòng)器所無(wú)法達(dá)到的性能或冗余性。這個(gè)驅(qū)動(dòng)器陣列在計(jì)算機(jī)眼中就如同一個(gè)單一的邏輯貯存單元或驅(qū)動(dòng)器。
磁盤陣列是一種在多個(gè)磁盤上分散信息的方法。它使用磁盤分條(diskstriping,RAID0)、磁盤鏡像(diskmirroring,RAID1)、和帶有奇偶校驗(yàn)的磁盤分條(disk striping with parity,RAID5)之類的技術(shù)來(lái)達(dá)到冗余性,減低潛伏時(shí)間,并且(或者)增加磁盤讀寫的帶寬,提高從硬盤崩潰中恢復(fù)的能力。
一般常見(jiàn)故障類型有以下幾種情況,當(dāng)發(fā)生以下情況,數(shù)據(jù)會(huì)發(fā)生丟失:
磁盤陣列出錯(cuò)
具體原因有,陣列卡損壞、陣列卡電池電力耗盡、槽口控制芯片損壞等。這類情況的數(shù)據(jù)恢復(fù)率相當(dāng)高,但也有失敗的案例。比如板載的控制程序出錯(cuò),發(fā)生大規(guī)模混亂的數(shù)據(jù)讀寫(誤Rebuild等操作)是相當(dāng)危險(xiǎn)的。
建議當(dāng)遇到陣列出錯(cuò),數(shù)據(jù)丟失時(shí),不要做任何操作,第一時(shí)間與華軍深圳數(shù)據(jù)恢復(fù)中心聯(lián)系。
注意:當(dāng)發(fā)生陣列卡損壞時(shí),隨意更換新的陣列卡極易造成磁盤ID號(hào)紊亂。
系統(tǒng)故障
當(dāng)發(fā)生系統(tǒng)故障甚至是系統(tǒng)崩潰時(shí),一些用系統(tǒng)自帶功能(Ms windows,Unix,Linux,Sun solaris等)創(chuàng)建的磁盤陣列或者用第三方軟件(Diskmanagement,Veritas disk management等)組建的磁盤陣列會(huì)發(fā)生數(shù)據(jù)丟失。這時(shí),陣列日志和相關(guān)記錄是相當(dāng)重要的,如果您有詳細(xì)的系統(tǒng)日志甚至是陣列組合信息備份,您可撥打華軍深圳數(shù)據(jù)恢復(fù)中心熱線為您解決問(wèn)題。當(dāng)然萬(wàn)一您沒(méi)有相關(guān)的信息,也請(qǐng)您不要著急,華軍深圳數(shù)據(jù)恢復(fù)中心多年經(jīng)驗(yàn)的數(shù)據(jù)恢復(fù)工程師會(huì)幫您渡過(guò)難關(guān)。
磁盤故障
雖然有的磁盤陣列容許1-2塊硬盤故障而數(shù)據(jù)不丟失。然而由于管理不善和服務(wù)器相對(duì)穩(wěn)定的特性對(duì)管理者造成麻痹,發(fā)生超出允許數(shù)量壞硬盤的事故屢屢發(fā)生(RAID-5損壞兩塊硬盤)。
提高管理質(zhì)量和重視程度是解決此類問(wèn)題的根本方法。
當(dāng)然,萬(wàn)一您的身邊有此類事件發(fā)生時(shí),請(qǐng)及時(shí)和我們聯(lián)系。
一旦RAID陣列出現(xiàn)故障,硬件服務(wù)商只能給客戶重新初始化或者REBUILD,這樣客戶數(shù)據(jù)就會(huì)無(wú)法挽回。我們對(duì)RAID0、RAID1、RAID5以及組合型的RAID系列磁盤陣列數(shù)據(jù)恢復(fù)具有豐富的實(shí)踐經(jīng)驗(yàn),出現(xiàn)故障以后只要不對(duì)陣列作初始化操作,我們就有能力恢復(fù)出故障陣列的數(shù)據(jù)。
磁盤陣列其他故障:
系統(tǒng)不能啟動(dòng)
RAID信息破壞
由于某塊硬盤掉線,替換后重建失敗,系統(tǒng)崩潰
RAID信息丟失
硬盤(單塊或多塊)掉線
RAID卡損壞,更換后系統(tǒng)崩潰
分區(qū)信息丟失
硬盤壞道(物理、邏輯)
重新配置RAID陣列信息
磁盤順序出錯(cuò)
動(dòng)態(tài)磁盤數(shù)據(jù)庫(kù)丟失或損壞
LINUX、UNIX系統(tǒng)啟動(dòng)不成功,或者分區(qū)不能mount,找不到分區(qū)
rebuild中途失敗
rebuild成功后,分區(qū)找不到或者系統(tǒng)不能啟動(dòng)
紅燈不停閃,或者黃燈不停閃(有的黃燈閃表示正在讀取,有的是錯(cuò)誤指示)
MBR損壞
DBR損壞
磁盤單塊壞道
磁盤多塊壞道