高可用性軟件架構設計和實現論文
摘要:硬件冗余可以極大地提高計算機應用系統的可用性,然而,一旦關鍵硬件出現故障或數據庫宕機,正在進行中的業務流程通常會中斷。探討了一種如何實現應用系統高可用性的軟件架構的設計方案,以彌補純硬件冗余應用系統的不足。
關鍵詞:高可用性;軟件容錯;分布式數據庫
在業內,計算機應用系統的可用性定義為計算機應用系統保持正常運行時間的百分比,通常用表1所示的“9”的個數來劃分可用性的類型。
通常,硬件冗余(容錯計算機、雙機或多機集群、磁盤陣列、SAN等)、數據復制、合理的災難備份和恢復策略都可以極大地提高計算機應用系統的可用性。正因為如此,當前,對于計算機應用系統的高可用性、業務的可持續性要求,業內通常以硬件系統的高可用性來應對或代替。常見的解決方案是雙機(或多機)集群方案或直接采用容錯計算機來保障系統的高可用性,應用軟件的設計和開發往往僅注重業務流程的分析和過程控制。在這種完全依賴硬件來保障整個系統的可用性的系統里,一旦關鍵硬件出現故障或數據庫宕機,正在進行中的業務流程(如需較長執行時間的事務處理、后臺批處理過程等)必然會中斷,這是因為雙機切換也需要時間。對此,應用軟件本身并無多少作為,該類業務必須等待系統重新恢復后全部或部分重做。
本文以基于大型數據庫的應用系統為例,從“軟件容錯”設計的概念出發,參考“分布式”數據庫結構設計,以“系統服務總線”為核心,給出了一種可行的高可用性軟件架構的設計方案,可以極大地提高應用軟件的可用性和業務系統的可持續性。無論是傳統的C/S架構,還是近年來流行的B/S架構,本文中給出的設計方案都有一定的參考意義。
1軟件結構模型
任何基于大型數據庫的應用系統,都可以抽象為對數據的“讀”和“寫”操作。至于客戶端如何展現“讀”到的數據,以及“客戶端”與“服務端”基于何種通信協議通信,不在本文討論之列。
軟件結構的設計其實就是針對“讀”和“寫”的一系列流程的設計。如何最大限度地保證系統中的所有“硬件”和“軟件”協同工作,正確完成每一次“讀”和“寫”的操作,也就是對系統“高可靠性”和“高可用性”的要求。
圖1是基于“軟件容錯”和“分布式數據庫系統”的原理,并參照了計算機“總線”的工作原理給出的一種基于分布式數據庫或文件系統的高可用性的軟件架構設計方案。系統采用3層架構:客戶端、中間應用層和數據庫層。
2系統設計
2.1數據庫配置為了更清楚地闡述本文的設計方案,先對數據庫的配置及其功能進行描述。本系統中,數據庫按角色可劃分為如下三類數據庫:控制數據庫(COTROLL DB)、日志數據庫(LOG DB)、業務數據庫(BUS DB_N)。
2.1.1控制數據庫
控制數據庫也可以是一個或多個系統控制(參數)文件。它存放要訪問的目標數據庫的節點(N)、端口、用戶、文件頭、表、視圖等信息;存放對節點、業務數據庫、表或視圖的授權或訪問控制信息;目標數據庫(或文件)的當前狀態(聯機/脫機、忙/空閑等);目標數據庫中的表或視圖的當前狀態(聯機/脫機、忙/空閑、加鎖/解鎖等)。
2.1.2日志數據庫
日志數據庫獨立于業務數據庫之外,用于記錄客戶端節點信息、請求時刻和發來的'所有請求的原始內容,但不做業務流程相關的處理、運算等。記錄每次數據操作分配的唯一的“事件號”(EVENT_ID)。對每一次客戶端的“請求”,“系統服務總線”(SYSSRV)會分配唯一的標識符號,可以定義為有一定意義的字符串,比如,“當前時刻+流水號”。以上信息可以被壓縮、打包、加密后存放,以記錄格式保存于數據庫的表或文件中。它可以設計為數據庫中的一個或多個表,也可以是文件格式。
2.1.3業務數據庫
業務數據庫記錄所有業務相關的數據信息。所有業務數據庫的相關業務邏輯的數據結構相同,即,N個節點的業務數據庫中與業務模式相關的表、視圖、過程或其他程序設置相同。
需要特別指出的是:
(1)控制數據庫、日志數據庫和業務數據庫可以是不同數據庫廠家或品牌的產品。比如,日志數據庫可以采用低端的數據庫產品或開源數據庫系統,業務數據庫可以采用高端的大型數據庫產品。
(2)控制數據庫、日志數據庫和業務數據庫在物理上和邏輯上是可以相互隔離的,這可以極大地提高系統的整體安全性。目標數據庫和要訪問的表或視圖對客戶端來說是“不可見”的,由控制數據庫動態定義和控制。
(3)所有類別的數據庫在物理上位于一個或多個節點上,即節點N>=1;任意一個節點N上建有一個或多個業務數據庫(邏輯數據庫>=1);任意一個節點是一個完整的、可獨立工作的計算機。根據性能要求,可以是高性能PC機、PC服務器、小型機、集群或超級計算機,或是它們的“混合體”;任意一個節點是指定網絡中的一個指定節點。
2.2應用層設計
中間應用層由5個后臺進程構成:(1)系統服務總線(SYSSRV);(2)數據庫寫進程(DBWRT_N);(3)數據庫讀進程(DBRED_N);(4)數據庫在線恢復進程(DBRCY);(5)日志檢查進程(LOGCHK)。
2.2.1系統服務總線
這是一個后臺監聽、分發、調度總進程。設計目標具有一定的“自我修復”和“自我復制”動能。它可以根據負載情況,自我復制或開啟子進程響應新的負載;可以動態配置可服務的節點或客戶端;可以為特定節點或客戶端指定專用進程;它通過“DBWRT”和“DBRED”“讀/寫”日志數據庫或日志文件。
2.2.2寫進程
寫進程負責向所有節點寫數據。它可以配置成多進程/單進程模式;多進程模式,指對應每個業務數據庫N都有獨立的“寫”進程;單進程模式,指對應多個業務數據庫只有一個主進程,主進程開啟多個線程提供“寫”服務。
2.2.3讀進程
讀進程負責向所有節點讀數據,它可以配置成多進程/單進程模式。多進程模式指對應每個業務數據庫N都有獨立的“讀”進程,單進程模式指對應多個業務數據庫只有一個主進程,主進程開啟多個線程提供“讀”服務。
根據需要,讀進程可以配置成:向所有在線節點并發讀數據,返回最快的結果集,拋棄其他的結果集,并中斷其他讀進程;也可以配置成:隨機讀某個節點的數據,如果失敗或超時,則再隨機讀余下的在線節點,直到“讀”成功或失敗;還可以配置成向所有節點順序讀數據,過程類似上面“隨機讀”。
以上“讀寫”業務數據庫的進程,設計上支持多種數據庫訪問接口,針對“表”或“視圖”提供統一格式的、標準的、動態的SQL數據操作接口和方法,完成對數據庫中表或視圖的增、刪、改、查和批處理操作。它們可以設計為數據庫中的存儲過程,也可以是C++,Java程序的API或混合體。
2.2.4數據庫在線恢復進程
該進程負責檢查全部或部分節點數據庫(包括所有授權控制數據庫、業務數據庫和日志數據庫)或文件的工作狀態;檢查數據庫或文件表中數據的一致性;將以上檢查結果寫入日志數據庫(或日志文件)。
當某個業務數據庫中的表寫入失敗時,它負責從“日志數據庫”的表或日志文件中讀出原始數據,接著寫入出現問題的業務數據庫的表中,并檢查結果。或從其他節點的數據庫中讀相關數據并寫入到出現問題的業務數據庫的表中。
接收外部命令,根據“時間點”或“事件號”從特定時刻、特定數據庫(包括日志數據庫)、特定表恢復數據到特定目標數據庫的表或文件。
2.2.5日志檢查進程
該進程負責讀、寫日志文件,檢查數據操作結果的一致性。如果不一致,則報告給“系統服務總線”,將問題數據庫或數據庫中的表、視圖設置為“離線”狀態。
本文來源:http://www.nvnqwx.com/shiyongwen/2303677.htm