數(shù)據(jù)挖掘技術在科技期刊網(wǎng)站中的應用論文

實用文時間：2021-08-31 手機版

　　隨著互聯(lián)網(wǎng)技術的快速發(fā)展，學術研究環(huán)境較以前更加開放，對傳統(tǒng)的科技出版業(yè)提出了開放性、互動性和快速性的要求; 因此，以信息技術為基礎的現(xiàn)代數(shù)字化出版方式對傳統(tǒng)的科技出版業(yè)產(chǎn)生著深刻的影響。為了順應這一趨勢，不少科技期刊都進行了數(shù)字化建設，構建了符合自身情況、基于互聯(lián)網(wǎng)B /S 結構的稿件處理系統(tǒng)。

　　以中華醫(yī)學會雜志社為代表的部分科技期刊出版集團均開發(fā)使用了發(fā)行系統(tǒng)、廣告登記系統(tǒng)、在線銷售系統(tǒng)以及站。這些系統(tǒng)雖然積累了大量的原始用戶業(yè)務數(shù)據(jù); 但從工作系統(tǒng)來看，由于數(shù)據(jù)本身只屬于編輯部的業(yè)務數(shù)據(jù)，因此一旦相關業(yè)務工作進行完畢，將很少再對這些數(shù)據(jù)進行分析使用。

　　隨著目前人工智能和機器學習技術的發(fā)展，研究人員發(fā)現(xiàn)利用最新的數(shù)據(jù)挖掘方法可以對原始用戶業(yè)務數(shù)據(jù)進行有效分析和學習，找出其中數(shù)據(jù)背后隱含的內在規(guī)律。這些有價值的規(guī)律和寶貴的經(jīng)驗將對后續(xù)科技期刊經(jīng)營等工作提供巨大的幫助。

　　姚偉欣等指出，從STM 期刊出版平臺的技術發(fā)展來看，利用數(shù)據(jù)存取、數(shù)據(jù)管理、關聯(lián)數(shù)據(jù)分析、海量數(shù)據(jù)分析等數(shù)據(jù)挖掘技術將為科技期刊的出版和發(fā)行提供有力的幫助。通過使用數(shù)據(jù)挖掘( data mining) 等各種數(shù)據(jù)處理技術，人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際數(shù)據(jù)中，提取隱藏在其中有價值的信息，從而對后續(xù)科技期刊出版工作起到重要的知識發(fā)現(xiàn)和決策支持的作用。

　　1 數(shù)據(jù)挖掘在科技期刊中應用的現(xiàn)狀

　　傳統(tǒng)的數(shù)據(jù)庫對數(shù)據(jù)的處理功能包括增、刪、改、查等。這些技術均無法發(fā)現(xiàn)數(shù)據(jù)內在的關聯(lián)和規(guī)則，更無法根據(jù)現(xiàn)有數(shù)據(jù)對未來發(fā)展的趨勢進行預測。現(xiàn)有數(shù)據(jù)挖掘的任務可以分為對數(shù)據(jù)模型進行分類或預測、數(shù)據(jù)總結、數(shù)據(jù)聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關系發(fā)現(xiàn)、異常或例外點檢測以及趨勢發(fā)現(xiàn)等，但目前國內科技期刊行業(yè)利用數(shù)據(jù)挖掘方法進行大規(guī)模數(shù)據(jù)處理仍處在起步階段。張品純等對中國科協(xié)所屬的科技期刊出版單位的現(xiàn)狀進行分析后發(fā)現(xiàn)，中國科協(xié)科技期刊出版單位多為單刊獨立經(jīng)營，單位的規(guī)模較小、實力較弱，多數(shù)出版單位不具備市場主體地位。這樣就導致國內大部分科技期刊既沒有能力進行數(shù)據(jù)挖掘，也沒有相應的數(shù)據(jù)資源準備。以數(shù)據(jù)挖掘技術應用于期刊網(wǎng)站為例，為了進行深入的數(shù)據(jù)分析，期刊經(jīng)營人員需要找到稿件與讀者之間、讀者群體之間隱藏的內在聯(lián)系。目前，數(shù)據(jù)挖掘的基本步驟為: 1) 明確數(shù)據(jù)挖掘的對象與目標;2) 確定數(shù)據(jù)源; 3) 建立數(shù)據(jù)模型; 4) 建立數(shù)據(jù)倉庫; 5)數(shù)據(jù)挖掘分析; 6) 對象與目標的數(shù)據(jù)應用和反饋。

　　2 期刊數(shù)據(jù)的資源整合

　　編輯部從稿件系統(tǒng)、發(fā)行系統(tǒng)、廣告系統(tǒng)、站等各個系統(tǒng)中將相關數(shù)據(jù)進行清洗、轉換和整理，然后加載到數(shù)據(jù)倉庫中。進一步，根據(jù)業(yè)務應用的范圍和緊密度，建立相關數(shù)據(jù)集市。期刊數(shù)據(jù)資源的整合過程從數(shù)據(jù)體系上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲處理層和數(shù)據(jù)展現(xiàn)層。

　　要獲得能夠適合企業(yè)內部多部門均可使用、挖掘和分析的數(shù)據(jù)，可以從業(yè)務的關聯(lián)性分析數(shù)據(jù)的準確性、一致性、有效性和數(shù)據(jù)的內在關聯(lián)性。

　　3 期刊數(shù)據(jù)的信息挖掘

　　信息挖掘為了從不同種類和形式的業(yè)務進行抽取、變換、集成數(shù)據(jù)，最后將其存儲到數(shù)據(jù)倉庫，并要對數(shù)據(jù)的質量進行維護和管理。數(shù)據(jù)挖掘可以有效地識別讀者的閱讀行為，發(fā)現(xiàn)讀者的閱讀模式和趨勢，對網(wǎng)站改進服務質量、取得更好的用戶黏稠度和滿意度、提高科技期刊經(jīng)營能力有著重要的意義。作為一個分析推薦系統(tǒng)，我們將所分析的統(tǒng)計結果存儲于服務器中，在用戶或決策者需要查詢時，只需輸入要找尋的用戶信息，系統(tǒng)將從數(shù)據(jù)庫中抽取其個人信息，并處理返回到上網(wǎng)時間分布、興趣點所在、適配業(yè)務及他對于哪些業(yè)務是有價值客戶，甚至包括他在什么時段對哪類信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。

　　網(wǎng)站結構挖掘是挖掘網(wǎng)站中潛在的鏈接結構模式。通過分析一個網(wǎng)頁的鏈接、鏈接數(shù)量以及鏈接對象，建立網(wǎng)站自身的鏈接結構模式。在此過程中，如果發(fā)現(xiàn)某一頁面被較多鏈接所指向，則說明該頁面信息是有價值的，值得期刊工作人員做更深層次的挖掘。網(wǎng)站結構挖掘在具體應用時采用的結構和技術各不相同; 但主要過程均包括預處理、模式發(fā)現(xiàn)和模式分析3 部分。為了反映讀者興趣取向，就需要對數(shù)據(jù)庫中的數(shù)據(jù)按用戶進行抽樣分析，得到興趣點的統(tǒng)計結果，而個人的興趣分析也可基于此思路進行。下面以《中華醫(yī)學雜志》為例做一介紹。

　　預處理預處理是網(wǎng)站結構挖掘最關鍵的一個環(huán)節(jié)，其處理得到的數(shù)據(jù)質量直接關系到使用數(shù)據(jù)挖掘和模式分析方法進行分析的結果。預處理步驟包括數(shù)據(jù)清洗、用戶識別、會話識別、路徑補充和事件識別。以《中華醫(yī)學雜志》網(wǎng)站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log，其內容為“2014-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML，+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內容，工作人員可以得到相關信息，如用戶IP、用戶訪問頁面事件、用戶訪問的頁面、用戶請求的方法、返回HTTP 狀態(tài)以及用戶瀏覽的上一頁面等內容。

　　由于服務器同時部署了多個編輯部網(wǎng)站，這就要求工作人員必須對得到的.訪問www. nmjc. net. cn 日志，去除由爬蟲軟件產(chǎn)生的記錄。這些記錄一般都會在日志結尾包含“Spider”的字樣。同時，還需要去除不是由GET 請求產(chǎn)生的日志以及請求資源不是頁面類型的日志。最后，工作人員還需要去除訪問錯誤的請求，可以根據(jù)日志中請求的狀態(tài)進行判斷。一般認為，請求狀態(tài)在( 200， 300) 范圍內是訪問正確的日志，其他如403、400 和500 等都是訪問錯誤的日志。用戶識別可以根據(jù)用戶的IP 地址和用戶的系統(tǒng)信息來完成。只有在IP 地址和系統(tǒng)信息都完全一致的情況下，才識別為一個用戶。會話識別是利用面向時間的探索法，根據(jù)超時技術來識別一個用戶的多次會話。如果用戶在一段時間內沒有任何操作，則認為會話結束。用戶在規(guī)定時間后重新訪問，則被認為不屬于此次會話，而是下次會話的開始。

本文來源：http://www.nvnqwx.com/shiyongwen/2049654.htm

以上內容來自互聯(lián)網(wǎng)，請自行判斷內容的正確性。若本站收錄的信息無意侵犯了貴司版權，請給我們來信(zaixianzuowenhezi@gmail.com)，我們會及時處理和回復，謝謝.

上一篇：《工作表中的數(shù)據(jù)管理》說課稿下一篇：高校管理中數(shù)據(jù)挖掘技術的研究論文

国产精品尤物福利片在线观看_少妇免费毛片久久久久久久久_久久久久成人精品免费播放动漫_日韩av综合在线观看

數(shù)據(jù)挖掘技術在科技期刊網(wǎng)站中的應用論文