需要是發(fā)明之母。
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用, 并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包 括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計(jì)和科學(xué)探索等。
數(shù)據(jù)挖掘是信息技術(shù)自然進(jìn)化的結(jié)果。進(jìn)化過程的見證是數(shù)據(jù)庫工業(yè)界開發(fā)以下功能(圖 1.1): 數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建,數(shù)據(jù)管理(包括數(shù)據(jù)存儲(chǔ)和提取,數(shù)據(jù)庫事務(wù)處理),以及數(shù)據(jù)分析與理 解(涉及數(shù)據(jù)倉庫和數(shù)據(jù)挖掘)。例如,數(shù)據(jù)收集和數(shù)據(jù)庫創(chuàng)建機(jī)制的早期開發(fā)已成為稍后數(shù)據(jù)存 儲(chǔ)和提取、查詢和事務(wù)處理有效機(jī)制開發(fā)的必備基礎(chǔ)。隨著提供查詢和事務(wù)處理的大量數(shù)據(jù)庫系統(tǒng) 廣泛付諸實(shí)踐,數(shù)據(jù)分析和理解自然成為下一個(gè)目標(biāo)。
自 60 年代以來,數(shù)據(jù)庫和信息技術(shù)已經(jīng)系統(tǒng)地從原始的文件處理進(jìn)化到復(fù)雜的、功能強(qiáng)大的數(shù) 據(jù)庫系統(tǒng)。自 70 年代以來,數(shù)據(jù)庫系統(tǒng)的研究和開發(fā)已經(jīng)從層次和網(wǎng)狀數(shù)據(jù)庫發(fā)展到開發(fā)關(guān)系數(shù) 據(jù)庫系統(tǒng)(數(shù)據(jù)存放在關(guān)系表結(jié)構(gòu)中;見 1.3.1 小節(jié))、數(shù)據(jù)建模工具、索引和數(shù)據(jù)組織技術(shù)。此外, 用戶通過查詢語言、用戶界面、優(yōu)化的查詢處理和事務(wù)管理,可以方便、靈活地訪問數(shù)據(jù)。聯(lián)機(jī)事 務(wù)處理(OLTP)將查詢看作只讀事務(wù),對于關(guān)系技術(shù)的發(fā)展和廣泛地將關(guān)系技術(shù)作為大量數(shù)據(jù)的有效 存儲(chǔ)、提取和管理的主要工具作出了重要貢獻(xiàn)。
自 80 年代中期以來,數(shù)據(jù)庫技術(shù)的特點(diǎn)是廣泛接受關(guān)系技術(shù),研究和開發(fā)新的、功能強(qiáng)大的數(shù) 據(jù)庫系統(tǒng)。這些使用了先進(jìn)的數(shù)據(jù)模型,如擴(kuò)充關(guān)系、面向?qū)ο蟆ο?關(guān)系和演繹模型。包括空間 的、時(shí)間的、多媒體的、主動(dòng)的和科學(xué)的數(shù)據(jù)庫、知識(shí)庫、辦公信息庫在內(nèi)的面向應(yīng)用的數(shù)據(jù)庫系 統(tǒng)百花齊放。涉及分布性、多樣性和數(shù)據(jù)共享問題被廣泛研究。異種數(shù)據(jù)庫和基于 Internet 的全球 信息系統(tǒng),如 WWW 也已出現(xiàn),并成為信息工業(yè)的生力軍。
在過去的三十年中,計(jì)算機(jī)硬件穩(wěn)定的、令人吃驚的進(jìn)步導(dǎo)致了功能強(qiáng)大的計(jì)算機(jī)、數(shù)據(jù)收集
設(shè)備和存儲(chǔ)介質(zhì)的大量供應(yīng)。這些技術(shù)大大推動(dòng)了數(shù)據(jù)庫和信息產(chǎn)業(yè)的發(fā)展,使得大量數(shù)據(jù)庫和信
息存儲(chǔ)用于事務(wù)管理、信息提取和數(shù)據(jù)分析。
現(xiàn)在,數(shù)據(jù)可以存放在不同類型的數(shù)據(jù)庫中。最近出現(xiàn)的一種數(shù)據(jù)庫結(jié)構(gòu)是數(shù)據(jù)倉庫(1.3.2 小 節(jié))。這是一種多個(gè)異種數(shù)據(jù)源在單個(gè)站點(diǎn)以統(tǒng)一的模式組織的存儲(chǔ),以支持管理決策。數(shù)據(jù)倉庫 技術(shù)包括數(shù)據(jù)清理、數(shù)據(jù)集成和聯(lián)機(jī)分析處理(OLAP)。OLAP 是一種分析技術(shù),具有匯總、合并 和聚集功能,以及從不同的角度觀察信息的能力。盡管 OLAP 工具支持多維分析和決策,對于深層 次的分析,如數(shù)據(jù)分類、聚類和數(shù)據(jù)隨時(shí)間變化的特征,仍然需要其它分析工具。