在許多行業中,成功企業都是那些能運用客戶與商業數據來支持實時決策的公司。分析數據所獲得的洞見是商業智能的基礎,而商業智能則是競爭力的來源。
以金融及保險服務業為例,其將歷史性與外部數據整合在一起,能立即評估出客戶的終生價值;無線通訊業,則運用詳細的客戶通話紀錄,來評估新的計費方案;零售業使用客戶與存貨數據,達到更有效的行銷、交叉銷售,且讓貨架上擺滿客戶所要的貨品。這類相關的例子可以說是不勝枚舉。
近來,因為存儲設備成本降低,企業開始考慮永久儲存其所有數據,認為深度的歷史數據,在時機來臨時,可產生前所未有的商業智能與其它益處。
但如果企業未仔細思考數據儲存容量的選擇,將可能導致系統運算效能降低,進而影響實時決策的制定以及策略方案的推行。然而,策略行動也許會失敗,其原因可能是決策不夠實時,或是管理階層錯認為自己對外部挑戰與公司的能力有完整的了解。既使策略行動勉強持續,往往需要花費眾多人力,來調整容量不適合公司商業需求的系統,這樣不僅成本高昂也會令人感到挫敗。
錯以每個Megabyte的成本為重心
由于詳細通聯記錄、交易數據與網絡點選流等數據的快速增加,企業的數據每8個月就增加一倍。可想而知,采用數據倉庫的企業會以每Megabyte的成本作為比較標準,選擇成本最低的數據儲存系統。廠商也提供超高容量的硬盤,滿足企業日漸增加的數據需求,進一步刺激了此方式的發展。
但是,如果I/O的速度固定----I/O速度的增加不像儲存容量提升一樣快,增加硬盤的容量,只會讓極需實時決策的企業難以快速存取數據。在這樣的情況下,選擇大容量所節省的成本則失去其意義,因為花了數百萬美元的新系統無法快速存取數據,便無法達到原有的功效。
當然,除了磁盤容量之外,企業還有其它方式來解決效能的問題,例如分割、壓縮、先后順序排程、查詢最佳化與進階索引(advancedindexing)等,都能提供有效的協助。但若能搭配符合企業策略目標、運算能力與數據溫度的儲存功能,上述技術便能發揮更大的效力。
多重溫度的數據倉儲
要了解數據倉庫的儲存需求,必須先了解多溫度數據倉庫的概念。幾乎在所有數據倉庫系統中,數據具有不同的溫度。溫度高的數據是最近、最常用的數據,同時擁有許多使用者及應用程序進行存取多種應用。
隨著需求降低,數據的溫度也降低。溫度較低的數據是歷史數據,占據的數據倉庫容量比較熱的數據還大。但溫度低的數據偶爾會回溫。例如,健康保險公司也許需要產生好幾年的紀錄,證實公司如何保護病人的隱私。
考量數據溫度的容量規劃
在了解多重溫度數據后,企業可以進行容量的規劃,其中要測量的項目包含:數據的匯總溫度、系統容量、系統效能的需求與能力。此規劃過程需要商業與IT專業人員緊密合作,確保IT人員了解各種數據日后可能的使用方式。
第一步是依據數據的存取頻率與大小,將數據分類。企業一開始可將數據分類為主要策略數據、目前決策支持數據或歷史性決策支持數據,最后再決定各類別的數據溫度(測量數據溫度的公式也包含了數據查詢、更新與維護的效能需求)。
接下來,企業必須決定各類別數據的容量與效能需求,進而決定系統的需求。若采用較小的數據倉庫來儲存溫度高的數據,目標則是兼顧成本與效能,讓系統能提供支持重要決策的實時商業智能。大多數的企業會采用目前市場上最小的磁盤(如36GB,15KRPMdisks)與RAID-1備份系統。
相對地,如果大部分儲存溫度低數據的數據倉庫,就比較不需要高效能,企業可以選擇更高的單位容量(如73GB或146GB磁盤)。也有些數據倉庫所儲存的數據在溫度上較平均,但不論是何種情形,在選擇磁盤容量大小時,必須先測量各類數據的溫度,并且找到一個匯總溫度。
做個有數據智能的人
總而言之,數據倉庫所含的數據,其價值在于其可支持決策的功能,特別是現今商業環境中重要的實時決策。商業與技術的合作,再加上了解多重溫度數據倉庫的概念,是數據倉庫是否能發揮應有功效的關鍵所在。