在大數(shù)據(jù)時(shí)代,為了更好地管理和利用科學(xué)數(shù)據(jù),計(jì)算機(jī)圖靈獎(jiǎng)獲得者Jim Gray于2002年提出了數(shù)據(jù)監(jiān)護(hù)(Data Curation)的概念。十余年來,數(shù)據(jù)監(jiān)護(hù)一直是國(guó)內(nèi)外信息資源管理領(lǐng)域的熱點(diǎn)議題,研究主題集中在數(shù)據(jù)監(jiān)護(hù)的內(nèi)容、發(fā)展策略、合作模式、職業(yè)教育、成功實(shí)踐等領(lǐng)域。111鑒于云計(jì)算能夠?yàn)閿?shù)據(jù)監(jiān)護(hù)提供強(qiáng)有力的技術(shù)支撐,如云計(jì)算快速提供資源的能力有助于輔助完成資源密集型數(shù)據(jù)監(jiān)護(hù)任務(wù),網(wǎng)絡(luò)化云服務(wù)有利于實(shí)現(xiàn)數(shù)據(jù)監(jiān)護(hù)的協(xié)同工作,基于云計(jì)算開展數(shù)據(jù)監(jiān)護(hù)引起了國(guó)外信息資源管理學(xué)界和業(yè)界的廣泛關(guān)注。本文對(duì)基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)問題進(jìn)行探討,希望對(duì)我國(guó)的數(shù)據(jù)監(jiān)護(hù)工作有所借鑒。

一、數(shù)據(jù)監(jiān)護(hù)工作流程
數(shù)據(jù)監(jiān)護(hù)是為了確保數(shù)據(jù)當(dāng)前的使用目的,并能用于未來再發(fā)現(xiàn)及再利用,從數(shù)據(jù)產(chǎn)生伊始即對(duì)其進(jìn)行管理和完善的活動(dòng)。121為了有效指導(dǎo)數(shù)據(jù)監(jiān)護(hù)實(shí)踐,提高數(shù)據(jù)監(jiān)護(hù)效率,一些數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)和研究者對(duì)數(shù)據(jù)監(jiān)護(hù)過程進(jìn)行了概念化,提出了相應(yīng)的數(shù)據(jù)監(jiān)護(hù)生命周期模型。本文基于英國(guó)數(shù)據(jù)監(jiān)護(hù)中心的DCC數(shù)據(jù)監(jiān)護(hù)生命周期模型13與王芳和慎金花提出的細(xì)化的數(shù)據(jù)監(jiān)護(hù)生命周期模型,梳理出了數(shù)據(jù)監(jiān)護(hù)工作流程,見圖1。數(shù)據(jù)監(jiān)護(hù)工作流程由4個(gè)階段、11個(gè)業(yè)務(wù)環(huán)節(jié)組成,涵蓋了數(shù)據(jù)監(jiān)護(hù)的所有必要階段和核心工作。
數(shù)據(jù)收集階段:數(shù)據(jù)采集。數(shù)據(jù)采集是數(shù)據(jù)監(jiān)護(hù)活動(dòng)的起點(diǎn),指根據(jù)采集政策,從數(shù)據(jù)創(chuàng)建者、檔案館、知識(shí)庫或數(shù)據(jù)中心等接收數(shù)據(jù)。元數(shù)據(jù)創(chuàng)建。為采集到的數(shù)據(jù)創(chuàng)建管理、描述、結(jié)構(gòu)和技術(shù)元數(shù)據(jù),以便進(jìn)行數(shù)據(jù)管理和數(shù)據(jù)維護(hù),以及實(shí)現(xiàn)數(shù)據(jù)共享。
數(shù)據(jù)處理階段:數(shù)據(jù)評(píng)價(jià)和選擇。評(píng)估數(shù)據(jù)并為長(zhǎng)期監(jiān)護(hù)和保存選擇數(shù)據(jù)。數(shù)據(jù)評(píng)價(jià)和選擇直接關(guān)系到科學(xué)數(shù)據(jù)庫的質(zhì)量,并且?guī)в幸欢ǖ闹饔^性。數(shù)據(jù)剔除。根據(jù)成文的政策、指引或法律要求,處理未成為長(zhǎng)期監(jiān)護(hù)和保存對(duì)象的數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)移到其他檔案館、知識(shí)庫、數(shù)據(jù)中心或其他保管機(jī)構(gòu)。根據(jù)法律要求,有些數(shù)據(jù)會(huì)被安全銷毀。數(shù)據(jù)導(dǎo)入。將經(jīng)過選擇的數(shù)據(jù)傳送至檔案館、知識(shí)庫、數(shù)據(jù)中心或其他數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)。為保證數(shù)據(jù)的可用性,在導(dǎo)入數(shù)據(jù)之前,應(yīng)進(jìn)行去重、交叉注釋、格式認(rèn)證等。數(shù)據(jù)遷移。根據(jù)存儲(chǔ)環(huán)境的需求,或者為了確保數(shù)據(jù)對(duì)硬件和軟件退化的抗擾性,改換數(shù)據(jù)的格式、存儲(chǔ)系統(tǒng)、存儲(chǔ)類型。
數(shù)據(jù)保存階段:數(shù)據(jù)長(zhǎng)期保存。長(zhǎng)期保存須確保數(shù)據(jù)的可信性、可靠性、可用性和完整性。長(zhǎng)期保存包括數(shù)據(jù)清洗、數(shù)據(jù)驗(yàn)證、分配保存元數(shù)據(jù)、分配表征信息,保證數(shù)據(jù)具備可接受的數(shù)據(jù)結(jié)構(gòu)和文件格式。數(shù)據(jù)存儲(chǔ)。遵守相關(guān)標(biāo)準(zhǔn),選擇科學(xué)的組織方式和安全的存儲(chǔ)介質(zhì)組織并存儲(chǔ)數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)既可以保證數(shù)據(jù)的安全性,又便于數(shù)據(jù)被隨時(shí)使用和加工處理。
數(shù)據(jù)利用階段:數(shù)據(jù)獲取。采用適當(dāng)?shù)臉?biāo)準(zhǔn)發(fā)布數(shù)據(jù),并執(zhí)行嚴(yán)格的訪問控制和驗(yàn)證程序,保證用戶安全、準(zhǔn)確的訪問和獲取數(shù)據(jù)。數(shù)據(jù)復(fù)用。制訂數(shù)據(jù)復(fù)用規(guī)則,在不違反知識(shí)產(chǎn)權(quán)的前提下,提供數(shù)據(jù)復(fù)制、鏈接、引用等服務(wù)。數(shù)據(jù)轉(zhuǎn)換。根據(jù)原始數(shù)據(jù)創(chuàng)建新數(shù)據(jù)。例如,通過轉(zhuǎn)換格式、建立子集等途徑,創(chuàng)建新數(shù)據(jù)。
二、云計(jì)算為數(shù)據(jù)監(jiān)護(hù)提供支撐
云計(jì)算作為分布式計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、負(fù)載均衡、熱備份冗余等計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)融合的產(chǎn)物,具有超大規(guī)模、虛擬化、通用性、高可擴(kuò)展性等諸多特點(diǎn)。云計(jì)算的特點(diǎn)與數(shù)據(jù)監(jiān)護(hù)的需求非常契合,可以為數(shù)據(jù)監(jiān)護(hù)提供強(qiáng)有力的技術(shù)支撐。
彈性服務(wù):云計(jì)算服務(wù)的規(guī)模可快速伸縮,以自動(dòng)適應(yīng)業(yè)務(wù)負(fù)載的動(dòng)態(tài)變化。用戶使用的云計(jì)算資源與業(yè)務(wù)的實(shí)際需求相一致,避免了因?yàn)橘Y源供需不匹配而導(dǎo)致的服務(wù)質(zhì)量下降或資源浪費(fèi)。161數(shù)據(jù)監(jiān)護(hù)的數(shù)據(jù)剔除和數(shù)據(jù)遷移等任務(wù)不需要持續(xù)不斷的執(zhí)行,屬偶發(fā)性活動(dòng)。云計(jì)算的彈性服務(wù)能夠很好地滿足偶發(fā)性數(shù)據(jù)監(jiān)護(hù)活動(dòng)的資源調(diào)用需求。
按需服務(wù):云計(jì)算以服務(wù)的形式為用戶提供基礎(chǔ)設(shè)施、存儲(chǔ)空間、應(yīng)用程序等,并能夠根據(jù)用戶的需求,自動(dòng)分配各種資源。17用戶也可以根據(jù)需要在云中部署所需的應(yīng)用程序。云計(jì)算的按需服務(wù)為數(shù)據(jù)監(jiān)護(hù)中需要依賴主觀意識(shí)完成的任務(wù),如元數(shù)據(jù)創(chuàng)建、數(shù)據(jù)評(píng)價(jià)和選擇提供了極大的便利。
泛在接入:用戶通過互聯(lián)網(wǎng)可以隨時(shí)隨地利用云計(jì)算服務(wù)。數(shù)據(jù)用戶越來越多的使用筆記本電腦、智能手機(jī)、平板電腦,將數(shù)據(jù)監(jiān)護(hù)業(yè)務(wù)流程轉(zhuǎn)移至云,能夠極大地方便用戶上傳、訪問和下載數(shù)據(jù)。數(shù)據(jù)監(jiān)護(hù)的數(shù)據(jù)采集、數(shù)據(jù)獲取和數(shù)據(jù)復(fù)用等業(yè)務(wù)環(huán)節(jié),可以從云計(jì)算的這一特點(diǎn)中受益。
服務(wù)外包:用戶進(jìn)行數(shù)據(jù)處理所需的計(jì)算資源價(jià)格昂貴,將提供計(jì)算資源的業(yè)務(wù)委托給云服務(wù)商,既能夠節(jié)省開支,又能夠使用戶專注于自己的核心工作。云服務(wù)商為了利益最大化,保持最優(yōu)競(jìng)爭(zhēng)力,都會(huì)迅速應(yīng)對(duì)技術(shù)變革,以更低的價(jià)格提供更快的處理器和更大的存儲(chǔ)空間。云計(jì)算服務(wù)外包的特點(diǎn)使數(shù)據(jù)監(jiān)護(hù)機(jī)構(gòu)將部分信息技術(shù)支持業(yè)務(wù)委托給云服務(wù)商,以獲得更低廉的價(jià)格和更優(yōu)質(zhì)的服務(wù)成為可能。
三、基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型
云計(jì)算提供從硬件設(shè)施到應(yīng)用軟件的多層次服務(wù)。根據(jù)服務(wù)的對(duì)象和功能差異可以將云計(jì)算劃分為三種服務(wù)模式:基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)、軟件即服務(wù)(SaaS);根據(jù)租用云計(jì)算的.用戶對(duì)數(shù)據(jù)和環(huán)境的控制權(quán),可以將云計(jì)算劃分為公有云、私有云和混合云等部署模型。本文根據(jù)數(shù)據(jù)監(jiān)護(hù)不同業(yè)務(wù)階段的工作內(nèi)容和技術(shù)需求,并結(jié)合云計(jì)算的服務(wù)模式和部署模型,構(gòu)建了基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型,見圖2。下面分別從數(shù)據(jù)監(jiān)護(hù)的云計(jì)算服務(wù)模式和部署模型兩個(gè)方面分析基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型。
(一)數(shù)據(jù)監(jiān)護(hù)的云計(jì)算服務(wù)模式
IaaS層。IaaS提供基礎(chǔ)設(shè)施部署服務(wù)。IaaS通過虛擬化技術(shù)整合服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)資源、高性能計(jì)算集群等物理資源,構(gòu)建全局統(tǒng)一的動(dòng)態(tài)虛擬化資源池。基于云計(jì)算的數(shù)據(jù)監(jiān)護(hù)模型的IaaS層為上層云計(jì)算服務(wù)提供海量硬件資源,實(shí)現(xiàn)硬件資源的按需酉己置。
本文來源:http://www.nvnqwx.com/shiyongwen/1934934.htm