- 相關(guān)推薦
多層次技術(shù)的XML數(shù)據(jù)挖掘研究論文
摘要:隨著互聯(lián)網(wǎng)的廣泛使用,Web的數(shù)據(jù)挖掘技術(shù)成為現(xiàn)階段數(shù)據(jù)挖掘技術(shù)研究的重點,但由于其數(shù)據(jù)挖掘控制的復(fù)雜,對人們的數(shù)據(jù)挖掘和使用帶來了困難。而XML數(shù)據(jù)挖掘的出現(xiàn)彌補了Web數(shù)據(jù)挖掘的缺陷,為其帶來了方便。
關(guān)鍵詞:多層次技術(shù);XML數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;研究
0引言
數(shù)據(jù)挖掘就是從大量的信息數(shù)據(jù)中發(fā)現(xiàn)潛在的規(guī)律性內(nèi)容,進而對數(shù)據(jù)應(yīng)用的質(zhì)量問題進行解決,實現(xiàn)對數(shù)據(jù)的充分利用。在互聯(lián)網(wǎng)發(fā)展支持下的數(shù)據(jù)挖掘技術(shù)得到了快速的發(fā)展,特別是以結(jié)構(gòu)化數(shù)據(jù)為主的數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)被廣泛地應(yīng)用到各個領(lǐng)域,并獲得了好的效果。但這種結(jié)構(gòu)化的數(shù)據(jù)挖掘技術(shù)無法對Web數(shù)據(jù)挖掘的特性進行處理,Web上的HTML文檔格式也不規(guī)范,導(dǎo)致沒有充分挖掘和利用有價值的知識。由此,如何優(yōu)化傳統(tǒng)數(shù)據(jù)挖掘技術(shù),實現(xiàn)其和Web的結(jié)合成為數(shù)據(jù)挖掘技術(shù)研究領(lǐng)域關(guān)注的熱點。而XML的出現(xiàn),彌補了Web的不足,成為現(xiàn)階段互聯(lián)網(wǎng)數(shù)據(jù)組織和交換的標(biāo)準(zhǔn),并逐漸出現(xiàn)在Web上。文章對基于多層次技術(shù)的XML數(shù)據(jù)挖掘進行研究。
1Web數(shù)據(jù)挖掘的難點
第一,異構(gòu)數(shù)據(jù)庫的環(huán)境。因特網(wǎng)上的信息可以說就是一種數(shù)據(jù)路,具有大量的數(shù)據(jù)資源,每個站點的數(shù)據(jù)源都是異構(gòu)的,因此,每個站點之間的信息和組織結(jié)構(gòu)不一樣,形成了一種異構(gòu)數(shù)據(jù)庫環(huán)境。想要獲得和利用這些數(shù)據(jù)資源需要進行數(shù)據(jù)挖掘,這種數(shù)據(jù)挖掘需要對站點的異構(gòu)數(shù)據(jù)集成進行研究,同時還要對因特網(wǎng)上的數(shù)據(jù)查詢問題進行解決。第二,半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫具有數(shù)據(jù)模型,能夠通過這種模型來對特定的數(shù)據(jù)進行描述。但因特網(wǎng)上的數(shù)據(jù)較為復(fù)雜,沒有統(tǒng)一的模型讓人進行描述,且自身具有獨立性、動態(tài)性的特點,存在自述層次,因而是一種半結(jié)構(gòu)化數(shù)據(jù)。
2XML數(shù)據(jù)挖掘技術(shù)
2.1XML技術(shù)概述
XML是由萬維網(wǎng)協(xié)會設(shè)計的一種中介標(biāo)示性語言,主要被應(yīng)用在Web中。XML類似于HTML,主要被設(shè)計用來描述數(shù)據(jù)的語言,為數(shù)據(jù)挖掘提供了一種獨立的運行程序,能夠?qū)崿F(xiàn)對數(shù)據(jù)的共享,并利用計算機通訊將信息傳遞到多個領(lǐng)域。
2.2XML和HTML的比較
HTML是Web的重要技術(shù)要素之一,簡單易學(xué),被很多計算機專業(yè)人員應(yīng)用于創(chuàng)建自己的、具有超文本特定的多媒體主頁,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)和普通人的聯(lián)系,創(chuàng)造出豐富的網(wǎng)頁。但其在因特網(wǎng)的應(yīng)用存在以下幾點缺陷:第一,只是對信息的顯示方式進行描述,沒有對信息內(nèi)容本身進行描述;第二,需要因特網(wǎng)服務(wù)器幫其處理任務(wù)工作,加重了網(wǎng)絡(luò)的負(fù)擔(dān),降低了網(wǎng)絡(luò)運行的效率。根據(jù)上文對XML技術(shù)的概述,可以看出,XML不是一種單純的標(biāo)記語言,而是一種定義語言,能夠根據(jù)需要設(shè)定不同的標(biāo)記語言,突破了HTML固定標(biāo)記的限制,能夠更好地推動Web的發(fā)展。
3基于XML數(shù)據(jù)挖掘框架設(shè)計
3.1設(shè)計的特點
第一,具有自然、性能良好、個性化設(shè)計的系統(tǒng)用戶界面;第二,主要應(yīng)用元搜索引擎頁面。這種頁面設(shè)計的主要思想是首先對用戶的查詢請求進行預(yù)處理,之后向各個搜索引擎發(fā)送查詢的請求,最后,在經(jīng)過處理之后向用戶反饋檢索結(jié)果。第三,Web頁面的設(shè)計充分應(yīng)用了HITS的算法。第四,利用XML技術(shù)對檢索的數(shù)據(jù)進行預(yù)處理。主要表現(xiàn)為將數(shù)據(jù)庫中的所有文檔形式轉(zhuǎn)化為XML文檔形式,之后在數(shù)據(jù)倉庫的應(yīng)用下實現(xiàn)各種文檔的集成。
3.2系統(tǒng)設(shè)計的結(jié)構(gòu)
XML數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)主要包含用戶界面模塊、數(shù)據(jù)預(yù)處理模塊和數(shù)據(jù)挖掘模塊。第一,用戶界面模塊主要作為用戶和系統(tǒng)交接的端口存在,用戶通過這個界面來實現(xiàn)對數(shù)據(jù)挖掘系統(tǒng)的使用。在這個模塊中,用戶能夠在對數(shù)據(jù)挖掘之前設(shè)定挖掘的參數(shù),之后提出請求、對挖掘成果分析,實現(xiàn)個性化的數(shù)據(jù)挖掘。第二,數(shù)據(jù)預(yù)處理模塊主要是指在對數(shù)據(jù)檢索之后,應(yīng)用XML技術(shù)對檢索的數(shù)據(jù)進行預(yù)處理。第三,數(shù)據(jù)挖掘模塊主要是對數(shù)據(jù)預(yù)處理后的模塊信息進行挖掘,并將成果展示給用戶。
4基于XML技術(shù)的Web數(shù)據(jù)挖掘
4.1數(shù)據(jù)挖掘方案的選取
基于XML技術(shù)的Web數(shù)據(jù)挖掘主要分為內(nèi)容上的挖掘和形式上的挖掘兩種,其中,內(nèi)容挖掘主要是針對文檔標(biāo)記的開始和結(jié)束之間的文本部分,即對標(biāo)記值的一種挖掘。具體的內(nèi)容挖掘方案主要有三種:第一,利用專門的XML數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)開發(fā)查詢的語言,充分開發(fā)其查詢功能,并將這種語言滲透在應(yīng)用程序中,從而實現(xiàn)對數(shù)據(jù)的有限挖掘。這種挖掘方案能夠?qū)ML技術(shù)和數(shù)據(jù)挖掘技術(shù)進行有效的結(jié)合,且具有操作簡單的特點。第二,實現(xiàn)對XML文檔數(shù)據(jù)的結(jié)構(gòu)化處理。在處理之后將其映射到現(xiàn)有的關(guān)系對象模型中,從而實現(xiàn)對數(shù)據(jù)的挖掘。第三,將XML文檔視為一種文本,采用傳統(tǒng)的數(shù)據(jù)挖局處理技術(shù)對數(shù)據(jù)進行挖掘。
4.2XML技術(shù)數(shù)據(jù)挖掘?qū)崿F(xiàn)
XML技術(shù)的挖掘?qū)崿F(xiàn)主要利用XQuery實現(xiàn)關(guān)聯(lián)挖掘來進行數(shù)據(jù)挖掘,且不需要對其文檔進行預(yù)處理和挖掘后處理,具有操作簡單的優(yōu)勢。主要采用兩種方式來執(zhí)行XQuery。第一,使用XhiveNodeIf對象的executeXQuery進行語句的執(zhí)行,使得集合的每個元素都是對應(yīng)的對象,并將對象轉(zhuǎn)換成DOM的節(jié)點來進行數(shù)據(jù)的挖掘。第二,利用XhiveXQueryQueryIf對象調(diào)用execute進行語句的執(zhí)行。在這個過程中會涉及對外部參數(shù)的使用。
5結(jié)語
XML數(shù)據(jù)挖掘能夠有效解決因特網(wǎng)數(shù)據(jù)挖掘難的問題,實現(xiàn)數(shù)據(jù)挖掘的簡單化操作。XML數(shù)據(jù)挖掘?qū)⒉煌Y(jié)構(gòu)、不容易兼容的數(shù)據(jù)進行結(jié)合,并利用自身的靈活性和延展性將各種應(yīng)用軟件中的數(shù)據(jù)進行不同描述,從而方便因特網(wǎng)中數(shù)據(jù)的收集和記錄。同時,基于XML數(shù)據(jù)是自我描述性的,不需要內(nèi)部的描述處理就能實現(xiàn)數(shù)據(jù)的交換,為其對數(shù)據(jù)的處理和應(yīng)用提供了便利的支持。因此,技術(shù)XML技術(shù)的數(shù)據(jù)挖掘成為當(dāng)今因特網(wǎng)數(shù)據(jù)挖掘的研究重點,需要有關(guān)人員引起足夠的重視,進而不斷促進該技術(shù)對數(shù)據(jù)挖掘的應(yīng)用。
參考文獻:
[1]盧珊.基于XML技術(shù)的Web數(shù)據(jù)自動挖掘新方法[J].信息技術(shù)與信息化,2014,12:141-143
[2]王雅軒,頊聰.基于XML的Web數(shù)據(jù)挖掘模型的設(shè)計研究[J].電子技術(shù)與軟件工程,2015,03:213-214
[3]周曉梅,王潛平,蘇琳.基于XML的Web數(shù)據(jù)挖掘模型的設(shè)計[J].計算機工程與設(shè)計,2007,02:272-274+277
[4]唐明燈.基于數(shù)據(jù)庫技術(shù)的數(shù)據(jù)挖掘分析與研究[J].信息與電腦(理論版),2010,02:138-139
【多層次技術(shù)的XML數(shù)據(jù)挖掘研究論文】相關(guān)文章:
數(shù)據(jù)挖掘論文04-29
數(shù)據(jù)挖掘技術(shù)在遼河水文預(yù)報中的研究04-30
數(shù)據(jù)挖掘技術(shù)在遼河水文預(yù)報中的研究04-30
網(wǎng)絡(luò)營銷中數(shù)據(jù)挖掘技術(shù)的應(yīng)用論文11-27
數(shù)據(jù)挖掘技術(shù)在企業(yè)決策系統(tǒng)中的應(yīng)用研究04-26
數(shù)據(jù)挖掘技術(shù)在軟件工程的運用工程論文04-27
軟件工程數(shù)據(jù)挖掘開發(fā)測試技術(shù)論文04-27