商業(yè)智能的基礎(chǔ)知識
一、 商業(yè)智能的基礎(chǔ)概念
1. 名詞解釋
1.1. OLTP(聯(lián)機事務處理)--OLTP(on-line transaction processing)也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點是可以即時地處理輸入的數(shù)據(jù),及時地回答。也稱為實時系統(tǒng)(Real time System)。衡量聯(lián)機事務處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應時間(Response Time),即用戶在終端上送入數(shù)據(jù)之后,到計算機對這個請求給出答復所需要的時間。 如醫(yī)院HIS系統(tǒng)、辦公自動化系統(tǒng)、CRM系統(tǒng)等。
1.2. OLAP(聯(lián)機分析處理)——OLAP(On-Line Analytical Processing)OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP一般是數(shù)據(jù)倉庫應用的前端工具。OLAP的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念!熬S”是人們觀察客觀世界的角度,是一種高層次的類型劃分。“維”一般包含著層次關(guān)系,這種層次關(guān)系有時會相當復雜。通過把一個實體的多項重要的屬性定義為多個維(dimension),使用戶能對不同維上的數(shù)據(jù)進行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。OALP的多維數(shù)據(jù)分析操作包括:
切片和切塊——是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個,則是切塊。
鉆取——是改變維的層次,變換分析的粒度。它包括向上鉆。╮oll up)和向下鉆取(drill down)。roll up是在某一維上將低層次的細節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而drill down則相反,它從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。
旋轉(zhuǎn)——變換維的方向,即在表格中重新安排維的放置(例如行列互換)。
1.3. ETL數(shù)據(jù)轉(zhuǎn)換工具:數(shù)據(jù)抽。‥xtract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過程。構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。 ETL的過程就是數(shù)據(jù)流動的過程,從不同異構(gòu)數(shù)據(jù)源流向統(tǒng)一的目標數(shù)據(jù)。其間,數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和裝載形成串行或并行的過程。ETL的核心還是在于T這個過程,也就是轉(zhuǎn)換,而抽取和裝載一般可以作為轉(zhuǎn)換的輸入和輸出,或者,它們作為一個單獨的部件,其復雜度沒有轉(zhuǎn)換部件高。
1.4. EIS前端展現(xiàn)工具——EIS(Executive Information System,領(lǐng)導信息系統(tǒng)):指為了滿足無法專注于計算機技術(shù)的領(lǐng)導人員的信息查詢需求,而特意制定的以簡單的圖形界面訪問數(shù)據(jù)倉庫的一種應用。
1.5. 數(shù)據(jù)倉庫(Data Warehouse)――是將從多個數(shù)據(jù)源收集的信息,按照單一的模式進行存儲,并通常將這些信息駐留在單個站點。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造其內(nèi)容。數(shù)據(jù)倉庫收集了整個組織的主題信息,因此,它是企業(yè)范圍的數(shù)據(jù)存儲。寬松地講,數(shù)據(jù)倉庫是一個數(shù)據(jù)庫,組織可以將它與組織機構(gòu)的操作數(shù)據(jù)庫分別進行維護。數(shù)據(jù)倉庫系統(tǒng)允許將各種應用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅實的平臺,對信息處理提供支持。按照W.H.Inmon這位數(shù)據(jù)倉庫系統(tǒng)構(gòu)造方面的權(quán)威設(shè)計師的說法,“數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程!
1.6. 數(shù)據(jù)集市(Data Mart)――它是數(shù)據(jù)倉庫的一個部門子集。它聚焦在選定的主題上,是部門范圍的。為匯總而優(yōu)先的專用數(shù)據(jù)存儲,用于特定的場合,其存儲的內(nèi)容作為數(shù)據(jù)倉庫的子集。數(shù)據(jù)集市通常使用OLAP技術(shù)進行處理。它通常為一個公司的特定需求,或一個機構(gòu)的特定業(yè)務而建立的,一般有兩種特殊的數(shù)據(jù)庫結(jié)構(gòu):星型模式和雪花模式。
1.7. 數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是從特定形式的數(shù)據(jù)集中提煉知識的過程。數(shù)據(jù)挖掘往往針對特定的數(shù)據(jù)、特定的問題,選擇一種或者多種挖掘算法,找到數(shù)據(jù)下面隱藏的規(guī)律,這些規(guī)律往往被用來預測、支持決策。
在了解了以上概念后,我們再來看商業(yè)智能的概念:
商業(yè)智能(Business Intelligence): 商業(yè)智能是用來實現(xiàn)數(shù)據(jù)向信息轉(zhuǎn)變,信息向知識轉(zhuǎn)變,知識向價值轉(zhuǎn)變的這么一個過程(如下圖所示),以及這個過程中所使用到的各種技術(shù)和工具。商業(yè)智能并不是一項新技術(shù),它只是數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘等技術(shù)的綜合應用。
2. 幾個概念的對比
2.1. OLTP vs OLAP的對比分析
對比項目 OLTP OLAP
用戶 操作人員,低層管理人員 決策人員,高級管理人員
功能 日常操作處理 分析決策
DB 設(shè)計 面向應用 面向主題
數(shù)據(jù) 當前的,最新的細節(jié)的,二維的分立的 歷史的,聚集的,多維的集成的,統(tǒng)一的
存取 讀/寫數(shù)十條記錄 讀上百萬條記錄
工作單位 簡單的事務 復雜的查詢
用戶數(shù) 上千個 上百個
DB 大小 100MB-GB 100GB-TB
2.2. 數(shù)據(jù)挖掘(DM)vs數(shù)據(jù)分析 OLAP
OLAP側(cè)重于與用戶的交互、快速的響應速度及提供數(shù)據(jù)的多維視圖,而數(shù)據(jù)挖掘則注重自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式和有用信息,盡管允許用戶指導這一過程。OLAP的分析結(jié)果可以給數(shù)據(jù)挖掘提供分析信息作為挖掘的依據(jù),數(shù)據(jù)挖掘可以拓展OLAP分析的深度,可以發(fā)現(xiàn)OLAP所不能發(fā)現(xiàn)的更為復雜、細致的信息。OLAP側(cè)重于分析數(shù)據(jù)之間的關(guān)系,而數(shù)據(jù)挖掘則側(cè)重于通過對數(shù)據(jù)分析結(jié)果的挖掘進行預警與預測。
2.3. 數(shù)據(jù)倉庫系統(tǒng)(DW) vs 商業(yè)智能系統(tǒng)(BI)
數(shù)據(jù)倉庫從概念上更多地側(cè)重在對各類企業(yè)信息的整合工作,包括了數(shù)據(jù)的遷移,數(shù)據(jù)的組織和存儲,數(shù)據(jù)的管理與維護這些我們平常稱之為后臺的基礎(chǔ)性的數(shù)據(jù)準備工作,它是BI的核心;
商業(yè)智能概念則側(cè)重在對數(shù)據(jù)的查詢,報表、多維/聯(lián)機數(shù)據(jù)分析、數(shù)據(jù)分析和數(shù)據(jù)可視化工具這些平常稱之為所謂前臺的數(shù)據(jù)應用方面。
2.4. 商業(yè)智能(BI) vs 決策支持系統(tǒng)(DSS)
早期BI的雛形就是決策支持系統(tǒng)DSS,只是當時還沒有采用數(shù)據(jù)倉庫、多維分析以及數(shù)據(jù)挖掘等技術(shù),而且其面向的服務人群主要是管理人員。當今的BI在應用范圍上已經(jīng)更加廣泛,已經(jīng)可以拓展到整個企業(yè)的所有員工,通過對各個層面信息的獲取、分析以及利用來滿足各個部門及員工的需求。從這個角度而言,決策支持是BI中的一種應用。而數(shù)據(jù)挖掘只是BI涉及到的技術(shù)手段中的一種。(目前的BI從某種程度上還只限于DSS的應用)
3. 商業(yè)智能的技術(shù)架構(gòu)
從技術(shù)架構(gòu)來講,商業(yè)智能系統(tǒng)主要由數(shù)據(jù)源、數(shù)據(jù)倉庫系統(tǒng)、商業(yè)智能應用幾個部分組成:
3.1. 數(shù)據(jù)源包括了現(xiàn)有企業(yè)中所有的信息系統(tǒng),以及根據(jù)決策分析需求可能涉及的其他外部數(shù)據(jù)資源。它主要包括業(yè)務數(shù)據(jù)和外部數(shù)據(jù)。
3.2. ETL——數(shù)據(jù)抽取、轉(zhuǎn)換和裝載(Extract, Transform, Load) 負責將數(shù)據(jù)從業(yè)務系統(tǒng)或外部系統(tǒng)中獲得,轉(zhuǎn)換和處理成數(shù)據(jù)倉庫需要的格式和形態(tài),并在規(guī)定的時間裝入到數(shù)據(jù)倉庫中去。在系統(tǒng)實現(xiàn)時一般采用數(shù)據(jù)抽取工具和應用編程實現(xiàn),并擁有調(diào)度管理和控制功能。
3.3. 數(shù)據(jù)倉庫(Data Warehouse)是數(shù)據(jù)存儲核心,目前,大多數(shù)數(shù)據(jù)倉庫采用關(guān)系型數(shù)據(jù)庫管理。由于數(shù)據(jù)量的龐大和查詢復雜的特點,在系統(tǒng)配置上強調(diào)大規(guī)模并行處理和針對決策支持訪問的專項優(yōu)化。
3.4. 操作數(shù)據(jù)(Operational Data Store) 近年來,隨著商業(yè)智能應用的需求,如數(shù)據(jù)挖掘和實時業(yè)務分析,在數(shù)據(jù)倉庫中需要有部分數(shù)據(jù)擁有當前數(shù)據(jù)的特征,根據(jù)業(yè)務系統(tǒng)的變化而變化,不必關(guān)心歷史信息,同時又擁有數(shù)據(jù)倉庫數(shù)據(jù)面向主題的特點。這部分數(shù)據(jù)叫作操作數(shù)據(jù),一般采用關(guān)系數(shù)據(jù)庫存儲,規(guī)模適中,強調(diào)快速查詢響應能力。
3.5. 數(shù)據(jù)集市(Data Mart)存儲了由數(shù)據(jù)倉庫來的,經(jīng)過裁剪和歸整的數(shù)據(jù),這些數(shù)據(jù)針對某個業(yè)務部門或某種業(yè)務分析應用而建立。數(shù)據(jù)集市一般都對數(shù)據(jù)進行了各種層次的匯總,并建立多維分析的模型,同時也包括了數(shù)據(jù)采樣。數(shù)據(jù)集市的存儲主要有關(guān)系數(shù)據(jù)庫和多維數(shù)據(jù)庫。其中,多維數(shù)據(jù)庫存放多維分析數(shù)據(jù),而關(guān)系數(shù)據(jù)庫則存儲星型模式。
3.6. 數(shù)據(jù)歸整(Refinement) 數(shù)據(jù)歸整指數(shù)據(jù)從數(shù)據(jù)倉庫到數(shù)據(jù)集市的過程,它是數(shù)據(jù)倉庫系統(tǒng)內(nèi)部的數(shù)據(jù)處理和轉(zhuǎn)換的過程,主要的任務是多維模型的轉(zhuǎn)換、數(shù)據(jù)的匯總和采樣等。有時,它由ETL系統(tǒng)統(tǒng)一調(diào)度完成。
3.7. 商業(yè)智能應用——涉及數(shù)據(jù)和信息的展現(xiàn)部分,它是用戶使用商業(yè)智能系統(tǒng)的界面。目前的商業(yè)智能系統(tǒng)一般提供以下兩類功能:1、客觀呈現(xiàn)用戶想要信息,如查詢和報表、聯(lián)機分析處理(OLAP)。2、對數(shù)據(jù)進行進一步的分析,發(fā)現(xiàn)新知識,如數(shù)據(jù)挖掘和數(shù)理統(tǒng)計等。
3.8. 元數(shù)據(jù)是管理商業(yè)智能系統(tǒng)的數(shù)據(jù),其主要部分類似于數(shù)據(jù)字典,其內(nèi)容貫穿了商業(yè)智能應用的各階段,記錄著從ETL到分析展現(xiàn)各個階段和各組成部分的管理信息。在系統(tǒng)管理上,試圖提供統(tǒng)一的平臺對元數(shù)據(jù)進行管理和維護,并通過元數(shù)據(jù)的狀態(tài)驅(qū)動系統(tǒng)各部分的運轉(zhuǎn)。不過,就目前而言,元數(shù)據(jù)的概念在數(shù)據(jù)倉庫業(yè)界尚未擁有一個統(tǒng)一的標準,各個數(shù)據(jù)倉庫廠商的產(chǎn)品間元數(shù)據(jù)也是不能夠互通的。
二、 商務智能的發(fā)展階段及趨勢
隨著近年來信息化建設(shè)的不斷完善,從全球范圍來看,商業(yè)智能(BI)系統(tǒng)已經(jīng)成為繼企業(yè)資源計劃(ERP)之后最重要的信息系統(tǒng)。在中國,商業(yè)智能也已經(jīng)被越來越多的企業(yè)管理者所認識,而在電信、金融、零售、流通等行業(yè),商業(yè)智能已經(jīng)成為信息化建設(shè)的重點。
1. 企業(yè)信息化的三個階段
1.1. 企業(yè)信息化發(fā)展的第一個階段:
基礎(chǔ)信息化階段,主要是解決原始手工處理的數(shù)據(jù)電子化的問題;
信息的關(guān)聯(lián)面是非常有限的;
信息專業(yè)性很強,離開了系統(tǒng)的主要用戶,別人是看不懂這些數(shù)據(jù);
用戶在企業(yè)中往往是占很少數(shù)。
1.2. 企業(yè)信息化發(fā)展的第二個階段:
總體角度建設(shè)高度集中的、或互相聯(lián)接的綜合業(yè)務管理系統(tǒng),例如銀行的核心業(yè)務系統(tǒng);
實現(xiàn)業(yè)務的協(xié)同運作。
1.3. 企業(yè)信息化發(fā)展的第三個階段:
企業(yè)是個嚴密運作的復雜系統(tǒng),每個細小環(huán)節(jié)的活動是彼此互相關(guān)聯(lián)的;
基于具體業(yè)務所開發(fā)的應用系統(tǒng)信息面只能覆蓋企業(yè)的一個局部范圍;
從零碎的,片段的企業(yè)局部化信息難以看清企業(yè)整體的變化;
企業(yè)需要一種協(xié)同思考的能力;
信息系統(tǒng)將更多定位在對企業(yè)整體戰(zhàn)略發(fā)展層面的支撐;
商業(yè)智能浮出水平并且逐漸成為主角。
|
|