隨著互聯網技術的快速發展,學術研究環境較以前更加開放,對傳統的科技出版業提出了開放性、互動性和快速性的要求; 因此,以信息技術為基礎的現代數字化出版方式對傳統的科技出版業產生著深刻的影響。為了順應這一趨勢,不少科技期刊都進行了數字化建設,構建了符合自身情況、基于互聯網B /S 結構的稿件處理系統。

以中華醫學會雜志社為代表的部分科技期刊出版集團均開發使用了發行系統、廣告登記系統、在線銷售系統以及站。這些系統雖然積累了大量的原始用戶業務數據; 但從工作系統來看,由于數據本身只屬于編輯部的業務數據,因此一旦相關業務工作進行完畢,將很少再對這些數據進行分析使用。
隨著目前人工智能和機器學習技術的發展,研究人員發現利用最新的數據挖掘方法可以對原始用戶業務數據進行有效分析和學習,找出其中數據背后隱含的內在規律。這些有價值的規律和寶貴的經驗將對后續科技期刊經營等工作提供巨大的幫助。
姚偉欣等指出,從STM 期刊出版平臺的技術發展來看,利用數據存取、數據管理、關聯數據分析、海量數據分析等數據挖掘技術將為科技期刊的出版和發行提供有力的幫助。通過使用數據挖掘( data mining) 等各種數據處理技術,人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際數據中,提取隱藏在其中有價值的信息,從而對后續科技期刊出版工作起到重要的知識發現和決策支持的作用。
1 數據挖掘在科技期刊中應用的現狀
傳統的數據庫對數據的處理功能包括增、刪、改、查等。這些技術均無法發現數據內在的關聯和規則,更無法根據現有數據對未來發展的趨勢進行預測。現有數據挖掘的任務可以分為對數據模型進行分類或預測、數據總結、數據聚類、關聯規則發現、序列模式發現、依賴關系發現、異常或例外點檢測以及趨勢發現等,但目前國內科技期刊行業利用數據挖掘方法進行大規模數據處理仍處在起步階段。張品純等對中國科協所屬的科技期刊出版單位的現狀進行分析后發現,中國科協科技期刊出版單位多為單刊獨立經營,單位的規模較小、實力較弱,多數出版單位不具備市場主體地位。這樣就導致國內大部分科技期刊既沒有能力進行數據挖掘,也沒有相應的數據資源準備。以數據挖掘技術應用于期刊網站為例,為了進行深入的數據分析,期刊經營人員需要找到稿件與讀者之間、讀者群體之間隱藏的內在聯系。目前,數據挖掘的基本步驟為: 1) 明確數據挖掘的對象與目標;2) 確定數據源; 3) 建立數據模型; 4) 建立數據倉庫; 5)數據挖掘分析; 6) 對象與目標的數據應用和反饋。
2 期刊數據的資源整合
編輯部從稿件系統、發行系統、廣告系統、站等各個系統中將相關數據進行清洗、轉換和整理,然后加載到數據倉庫中。進一步,根據業務應用的范圍和緊密度,建立相關數據集市。期刊數據資源的整合過程從數據體系上可分為數據采集層、數據存儲處理層和數據展現層。
要獲得能夠適合企業內部多部門均可使用、挖掘和分析的數據,可以從業務的關聯性分析數據的準確性、一致性、有效性和數據的內在關聯性。
3 期刊數據的信息挖掘
信息挖掘為了從不同種類和形式的業務進行抽取、變換、集成數據,最后將其存儲到數據倉庫,并要對數據的質量進行維護和管理。數據挖掘可以有效地識別讀者的閱讀行為,發現讀者的閱讀模式和趨勢,對網站改進服務質量、取得更好的用戶黏稠度和滿意度、提高科技期刊經營能力有著重要的意義。作為一個分析推薦系統,我們將所分析的統計結果存儲于服務器中,在用戶或決策者需要查詢時,只需輸入要找尋的用戶信息,系統將從數據庫中抽取其個人信息,并處理返回到上網時間分布、興趣點所在、適配業務及他對于哪些業務是有價值客戶,甚至包括他在什么時段對哪類信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。
網站結構挖掘是挖掘網站中潛在的鏈接結構模式。通過分析一個網頁的鏈接、鏈接數量以及鏈接對象,建立網站自身的鏈接結構模式。在此過程中,如果發現某一頁面被較多鏈接所指向,則說明該頁面信息是有價值的,值得期刊工作人員做更深層次的挖掘。網站結構挖掘在具體應用時采用的結構和技術各不相同; 但主要過程均包括預處理、模式發現和模式分析3 部分。為了反映讀者興趣取向,就需要對數據庫中的數據按用戶進行抽樣分析,得到興趣點的統計結果,而個人的興趣分析也可基于此思路進行。下面以《中華醫學雜志》為例做一介紹。
預處理預處理是網站結構挖掘最關鍵的一個環節,其處理得到的數據質量直接關系到使用數據挖掘和模式分析方法進行分析的結果。預處理步驟包括數據清洗、用戶識別、會話識別、路徑補充和事件識別。以《中華醫學雜志》網站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log,其內容為“2014-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內容,工作人員可以得到相關信息,如用戶IP、用戶訪問頁面事件、用戶訪問的頁面、用戶請求的方法、返回HTTP 狀態以及用戶瀏覽的上一頁面等內容。
由于服務器同時部署了多個編輯部網站,這就要求工作人員必須對得到的.訪問www. nmjc. net. cn 日志,去除由爬蟲軟件產生的記錄。這些記錄一般都會在日志結尾包含“Spider”的字樣。同時,還需要去除不是由GET 請求產生的日志以及請求資源不是頁面類型的日志。最后,工作人員還需要去除訪問錯誤的請求,可以根據日志中請求的狀態進行判斷。一般認為,請求狀態在( 200, 300) 范圍內是訪問正確的日志,其他如403、400 和500 等都是訪問錯誤的日志。用戶識別可以根據用戶的IP 地址和用戶的系統信息來完成。只有在IP 地址和系統信息都完全一致的情況下,才識別為一個用戶。會話識別是利用面向時間的探索法,根據超時技術來識別一個用戶的多次會話。如果用戶在一段時間內沒有任何操作,則認為會話結束。用戶在規定時間后重新訪問,則被認為不屬于此次會話,而是下次會話的開始。
本文來源:http://www.nvnqwx.com/shiyongwen/2049654.htm