[摘要]分析了數據生命周期理論與模型,研究了學術圖書館科研數據管理的主要內容,構建了基于數據生命周期模型的學術圖書館科研數據管理體系,提出了基于數據生命周期的學術圖書館科研數據服務保障機制。
[關鍵詞]數據生命周期模型;學術圖書館;科研數據;管理體系
隨著移動互聯網技術的發展,數字化資源以驚人的速度不斷增長。根據IDC發布的全球數據研究報告,預計到2020年全球數據總量將超過40ZB。E-Science時代海量科研數據的產生與應用,迫切需要相關學術機構結合其特點,通過數據采集、組織、存檔和研究,建立完善的管理機制,保障這些科研數據的合理利用。學術圖書館作為研究型文獻管理機構,長期以來一直通過管理文獻資源的方式輔助科研活動,在助力科研創新方面也扮演著重要角色。數據生命周期是從數據生成、加工、發布到利用的循環過程,表現了基于科研全過程的數據管理[1]。面對E-Science背景下科研范式的發展,以及用戶對科研數據組織、存儲和利用的新需求,學術圖書館積極探索科研數據管理內容,建設基于數據生命周期的科研數據管理體系,發揮在數據增值服務方面的作用,有助于提升科研數據服務能力。
1數據生命周期理論與模型分析
1.1數據生命周期理論概述生命周期的概念最早被應用于生物領域,此后經過不斷演化被應用于多個領域。國外學者通過研究數據信息的生命周期,探討了數據生命周期的內涵,指出它代表一種數據在特定環境下,經過加工、存儲和管理,實現資源發掘和利用的過程。具體而言,數據生命周期就是對數字化資源進行加工處理和長期保存,并在科研項目、決策制定中實現再利用的活動[2]。通過總結各流派的相關理論,可知科研活動是數據生命周期的來源,而一個完整的數據生命周期涉及到生成、加工、知識抽取等多個層次。從內容層面分析,數據生命周期包括數據初加工、再加工和獲取附加值等環節,涉及到基于數據加工的一系列知識抽取活動。1.2數據生命周期的作用由于科研周期與數據生命周期存在關聯,因此通過宏觀分析數據生命周期,就可以大致了解科研過程中科研人員的數據需求。E-Science時代科學研究與基礎信息設施的發展,逐漸向數據密集型方向轉變,科研創新更加依賴對科研數據的再利用。如何幫助科研人員提高科研數據利用率,促進科研數據的開放共享,是學術機構關注的問題[3]。然而對于科研數據的研究與管理,涉及到不同利益主體之間的協調作用,是一個長期而復雜的系統。數據生命周期為科研數據管理提供了基本框架,可以發現科研數據演變階段研究者的需求,描述復雜的數據管理和流通過程,明確不同利益相關者的關系。此外,數據生命周期來源于科研周期,在研究數據生命周期的基礎上構建模型,也可以準確映射科研活動全過程。1.3數據生命周期模型數據生命周期為不同利益相關者提供了價值評估工具,也為科研數據服務實踐提供了途徑。為方便分析和利用,澳大利亞、英國等研究機構結合實踐經驗,構建了多個數據生命周期理論模型,如DDI3.0模型、I2S2模型、DataONE模型等。常用的數據生命周期模型大致分為矩陣狀、鏈狀、環狀3種,在應用場景和構成要素方面存在差異[4]。其中DDI3.0為鏈狀模型,不同環節呈一定的次序排列。I2S2矩陣模型屬于數據生命周期模型的子集,也是對鏈狀模型的深化。美國國家科學基金(NSF)為滿足科研開發需求,闡釋數據存儲和管理實踐中彼此間的關系,提出了首尾相接的環狀DataONE模型,體現了數據生命周期的循環過程(如圖1)。
2學術圖書館科研數據管理的主要內容
科研數據包含了科研活動過程中產生的所有能夠存儲的數字資源,以及能夠轉換為數字形式的數據,如遙感勘測數據、仿真數據等。學術圖書館開展科研數據管理,不僅能夠避免科研數據丟失,實現科研數據的長期存儲和共享,也是滿足科研人員動態信息需求和促進圖書館發展的必要措施。2.1基礎設施建設目前學術圖書館獨立構建數據倉儲進行科研數據管理的案例并不多見,一方面與圖書館在資金、技術方面存在不足有關[5]。另外,面對E-Science時代學術資源開放、共享的趨勢,圖書館領域更加推崇協同合作,營造科研數據管理的硬件環境,采取資源互補、技術共享的方式共同建設機構倉儲。學術圖書館也可以與科研項目機構合作,借助外部設備和項目的支持,構建滿足不同學科需求的數據倉儲,使科研數據管理跨越單個機構的限制,幫助科研人員獲取更多有用資源。例如,澳洲國立大學圖書館與其他院校、機構知識庫合作,共同搭建科研數據管理的硬件環境,可以為大量科研項目提供數據存儲服務。2.2科研數據集成服務科研數據產生于數據生命周期的任意階段,與科研活動、科學文獻等都存在關聯,只有通過關聯分析發現內在規律,才能獲取更多有價值的信息。學術圖書館是科學文獻存儲中心,在數據集成方面具有豐富的.經驗。隨著數字化技術的應用,很多學術圖書館已經可以利用智能化工具,為科研人員提供數據關聯組織和個性化推薦服務。科研數據作為具有極大應用價值的信息,必然要求圖書館通過科研數據關聯集成,將某一類型或某一領域的數據集和科學文獻結合起來,幫助科研人員發現不同數據的潛在聯系,進一步利用好各類資源。此外,圖書館利用數據挖掘技術處理科學文獻,如學術專著、會議紀要、發明專利等,以數據生命周期模型為紐帶,將原始數據與再生數據關聯起來,實現多學科資源的匯聚,也方便科研人員迅速獲取有價值信息。2.3科研數據存儲服務在開放獲取運動的推動下,很多國家對于信息機構的科研數據都要求開放共享[6]。在這樣的背景下,學術圖書館作為長期提供科研數據服務的場所,自然要求順應開放獲取的發展趨勢。在西方一些發達國家,很多學術圖書館正在嘗試開展科研數據開放存儲服務,而科研人員也樂于借助圖書館存儲科研信息或成果。在科研數據存檔方面,學術圖書館構建專門的機構知識庫,通過IR拓展的方式為科研數據管理提供支持,也可以建設科研數據檔案庫,引進專門的軟硬件設施開展科研數據服務。由于E-Science背景下科研人員的數據管理需求日益增長,學術圖書館必須盡快拓展科研數據存儲空間,并且通過尋求政府部門、基金會的支持,以解決新增業務帶來的成本增加等問題。
本文來源:http://www.nvnqwx.com/shiyongwen/2049651.htm