歡迎訪問愛發(fā)表,線上期刊服務(wù)咨詢

數(shù)據(jù)分析的方法8篇

時(shí)間:2023-07-11 09:20:52

緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇數(shù)據(jù)分析的方法,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!

數(shù)據(jù)分析的方法

篇1

關(guān)鍵詞:函數(shù)性數(shù)據(jù);修勻;函數(shù)性主成份分析;資產(chǎn)收益率

中圖分類號:F276.1

文獻(xiàn)標(biāo)識碼:A

文章編號:1002―2848―2007(01)-0108―06

一、前 言

在經(jīng)濟(jì)數(shù)據(jù)的傳統(tǒng)定量分析中,所分析的數(shù)據(jù)對象具有這樣的特征,即數(shù)據(jù)要么是時(shí)間序列數(shù)據(jù),要么是橫截面數(shù)據(jù)。而實(shí)際中獲得的許多經(jīng)濟(jì)數(shù)據(jù),往往是在時(shí)間序列上取多個(gè)截面,再在這些截面上同時(shí)選取樣本觀測值所構(gòu)成的樣本數(shù)據(jù)。計(jì)量經(jīng)濟(jì)學(xué)中稱這樣的數(shù)據(jù)為“平行數(shù)據(jù)”(Panel Da―ta),也被翻譯成“面板數(shù)據(jù)”,或“縱向數(shù)據(jù)”(longitudinal data)。20多年來,許多學(xué)者研究分析了面板數(shù)據(jù)。事實(shí)上,關(guān)于面板數(shù)據(jù)的研究是計(jì)量經(jīng)濟(jì)學(xué)理論方法的重要發(fā)展之一,它在解決數(shù)據(jù)樣本容量不足、估計(jì)難以度量的因素對經(jīng)濟(jì)指標(biāo)的影響,以及區(qū)分經(jīng)濟(jì)變量的作用等方面,具有突出優(yōu)點(diǎn)。但是,研究面板數(shù)據(jù)的計(jì)量模型,以線性結(jié)構(gòu)描述變量之間的因果關(guān)系,且模型太過于依賴諸多的假設(shè)條件,使得方法的應(yīng)用具有一定的局限性。為了彌補(bǔ)面板數(shù)據(jù)的計(jì)量模型分析方法及其它統(tǒng)計(jì)分析方法的缺陷,本文基于經(jīng)濟(jì)數(shù)據(jù)的函數(shù)性特征,介紹一種從函數(shù)視角對經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析的全新方法一函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)。

函數(shù)性數(shù)據(jù)分析的概念,始見于加拿大統(tǒng)計(jì)學(xué)家J.O.Ramsay和C.J.Dalzell于1991年發(fā)表的論文《函數(shù)性數(shù)據(jù)分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對函數(shù)性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的已有理論和方法,總結(jié)在《函數(shù)性數(shù)據(jù)分析》一書中。但這本書偏重方法的理論介紹和數(shù)學(xué)推導(dǎo),不利于統(tǒng)計(jì)基礎(chǔ)薄弱者使用。經(jīng)過5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數(shù)性數(shù)據(jù)案例,并將其具體的分析過程編入他們于2002年出版的專著中。雖然國外在這方面已經(jīng)做了許多研究,也取得了許多有價(jià)值的結(jié)果,但是有關(guān)函數(shù)性數(shù)據(jù)的研究依然處于起步階段,還有很多問題需要研究或進(jìn)一步完善。另外,從方法應(yīng)用的具體領(lǐng)域來看,很少涉及對經(jīng)濟(jì)函數(shù)性數(shù)據(jù)的分析。就目前研究文獻(xiàn)來看,我國在此方面的研究尚是一片空白。

為填補(bǔ)我國在這方面研究的空白,本文從思想、方法等方面,對函數(shù)性數(shù)據(jù)分析進(jìn)行系統(tǒng)介紹,并通過編寫計(jì)算機(jī)程序,率先利用該方法分析實(shí)際的經(jīng)濟(jì)函數(shù)性數(shù)據(jù)。本文共分六部分,以下內(nèi)容的安排為:數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用,最后一部分是本文的結(jié)論。

二、數(shù)據(jù)的函數(shù)性特征及經(jīng)濟(jì)函數(shù)性數(shù)據(jù)實(shí)例

一般地說,多元數(shù)據(jù)分析(Multivariate Data A-nalysis,MDA)處理的對象,是刻畫所研究問題的多個(gè)統(tǒng)計(jì)指標(biāo)(變量)在多次觀察中呈現(xiàn)出的數(shù)據(jù),樣本數(shù)據(jù)具有離散且有限的特征。但是,現(xiàn)代的數(shù)據(jù)收集技術(shù)所收集的信息,不但包括傳統(tǒng)統(tǒng)計(jì)方法所處理的數(shù)據(jù),還包括具有函數(shù)形式的過程所產(chǎn)生的數(shù)據(jù),例如,數(shù)據(jù)自動(dòng)收集系統(tǒng)等,稱具有這種特征的數(shù)據(jù)為函數(shù)性數(shù)據(jù)。

函數(shù)性數(shù)據(jù)的表現(xiàn)形式多種多樣,但就其本質(zhì)來說,它們由函數(shù)構(gòu)成。這些函數(shù)的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數(shù)等)。許多研究領(lǐng)域的樣本資料往往表現(xiàn)為函數(shù)形式,如考古學(xué)家挖掘的骨塊的形狀、按時(shí)間記錄的經(jīng)濟(jì)數(shù)據(jù)、手寫時(shí)筆尖的運(yùn)動(dòng)軌跡、溫度的變化等。函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)的基本原理是把觀測到的數(shù)據(jù)函數(shù)看作一個(gè)整體,而不僅僅是一串?dāng)?shù)字。函數(shù)指的是數(shù)據(jù)的內(nèi)在結(jié)構(gòu),而不是它們直觀的外在表現(xiàn)形式。

實(shí)際中,之所以要從函數(shù)的視角對數(shù)據(jù)進(jìn)行分析,是因?yàn)椋?1)實(shí)際中,獲得數(shù)據(jù)的方式和技術(shù)日新月異、多種多樣,例如,越來越多的研究者可以通過數(shù)據(jù)的自動(dòng)收集系統(tǒng)獲得大量的數(shù)據(jù)信息。更重要的是,原本用于工程技術(shù)分析的修勻(smoothing)和插值(interpolation)技術(shù),可以由有限組的觀測數(shù)據(jù)產(chǎn)生出相應(yīng)的函數(shù)表示。(2)盡管只有有限次的觀測數(shù)據(jù)可供利用,但有一些建模問題,將其納入到函數(shù)版本下進(jìn)行考慮,會使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數(shù)據(jù)估計(jì)函數(shù)或其導(dǎo)數(shù),則分析從本質(zhì)上來看就具有函數(shù)性的特征。(4)將平滑性引入到一個(gè)函數(shù)過程所產(chǎn)生的多元數(shù)據(jù)的處理中,對分析具有重要的意義。

在經(jīng)濟(jì)分析中,融合時(shí)間序列和橫截面兩者的數(shù)據(jù)很常見,例如,多個(gè)國家、地區(qū)、行業(yè)或企業(yè)的多年的年度經(jīng)濟(jì)總量、多家商業(yè)銀行歷年的資本結(jié)構(gòu)、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時(shí)間上多個(gè)省市的失業(yè)數(shù)據(jù)等。這些經(jīng)濟(jì)數(shù)據(jù)往往呈現(xiàn)函數(shù)性特征,即每個(gè)個(gè)體對應(yīng)著一個(gè)函數(shù)或曲線。在對經(jīng)濟(jì)函數(shù)性數(shù)據(jù)進(jìn)行分析時(shí),將觀測到的數(shù)據(jù)(函數(shù))看作一個(gè)整體,而不是個(gè)體觀測值的順序排列,這是函數(shù)性數(shù)據(jù)分析不同于傳統(tǒng)統(tǒng)計(jì)分析之根本所在。例如,表1是工商銀行、農(nóng)業(yè)銀行、中國銀行、建設(shè)銀行1995年到2004年期間的資產(chǎn)收益率(ROA)數(shù)據(jù)。

利用基于MATLAB編寫的程序,對數(shù)據(jù)進(jìn)行平滑處理(smoothing),并繪出四家國有銀行的資產(chǎn)收益率(ROA)的修勻曲線(見圖1)。由曲線圖可以看出,每個(gè)個(gè)體(銀行)對應(yīng)著一條曲線(其數(shù)學(xué)表達(dá)式為函數(shù)),這是將多家銀行的歷年ROA數(shù)據(jù)記錄看作函數(shù)的根本理由,也是函數(shù)性數(shù)據(jù)分析的出發(fā)點(diǎn)。

三、從數(shù)據(jù)的函數(shù)性視角研究數(shù)據(jù)的意義

從函數(shù)的視角,對具有函數(shù)特征的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行研究,會挖掘出更多的信息。例如,對函數(shù)性數(shù)據(jù)的平滑曲線展示,不但能夠診斷出擬合數(shù)據(jù)的可能數(shù)學(xué)模型,還能夠通過對光滑曲線求一階、或更高階的導(dǎo)數(shù),來進(jìn)一步探索數(shù)據(jù)的個(gè)體(橫截面)差異和動(dòng)態(tài)變化規(guī)律。

圖2是四家銀行資產(chǎn)收益率的速度(一階導(dǎo)數(shù))曲線,觀察發(fā)現(xiàn):在1995年至2004年期間,農(nóng)業(yè)

銀行、中國銀行及建設(shè)銀行的資產(chǎn)收益率的變化率,呈現(xiàn)出較強(qiáng)的周期性,其中尤以建設(shè)銀行的表現(xiàn)最為突出。加速度曲線圖顯示,四家銀行資產(chǎn)收益率的變化率的波動(dòng)狀況不相同,轉(zhuǎn)折變化的時(shí)間差異也較大。這些情況一定程度表明,各家銀行的內(nèi)部管理與經(jīng)營機(jī)制,對市場信息的反應(yīng)快慢程度各不相同。

四、函數(shù)性數(shù)據(jù)分析的目標(biāo)和步驟

函數(shù)性數(shù)據(jù)分析的目標(biāo)與傳統(tǒng)統(tǒng)計(jì)學(xué)分析的目標(biāo)基本一樣,具體情況如下:

(一)以對進(jìn)一步分析有利的方法來描述數(shù)據(jù);

(二)為突出不同特征而對數(shù)據(jù)進(jìn)行展示;

(三)研究數(shù)據(jù)類型的重要來源和數(shù)據(jù)之間的變化;

(四)利用輸入(自變量信息)來解釋輸出(因變量)的變化情況;

(五)對兩組或更多的某種類型的變量數(shù)據(jù)進(jìn)行比較分析。

典型的FDA主要包括以下步驟:

第一步,原始數(shù)據(jù)的收集、整理和組織。假設(shè)我們考慮的自變量是一維的,記為t,一個(gè)的函數(shù)僅在離散抽樣值 處被觀測,而且這些ti可能等間隔分布,也可能不是。在函數(shù)性數(shù)據(jù)分析中,將這些離散的觀測值看作一個(gè)整體。

第二步,將離散數(shù)據(jù)轉(zhuǎn)換為函數(shù)形式。這是利用各次觀察的原始數(shù)據(jù)定義出一個(gè)函數(shù)x(t),它在某一區(qū)間上所有t處的值都被估算了出來。解決這個(gè)問題的基本方法是選定一組基函數(shù) (t),k=O,…,K,并用基函數(shù)的線性組合給出函數(shù)x(t)的估計(jì)

第三步,多種形式的初步展示與概括統(tǒng)計(jì)量。概括統(tǒng)計(jì)量包括均值和方差函數(shù)、協(xié)方差與相關(guān)函數(shù)、交叉協(xié)方差(cross―covafiance)與交叉相關(guān)(cross―correlation)函數(shù)等。

第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現(xiàn)出來,可能需要對函數(shù)進(jìn)行排齊(regigtration),其目的是能夠區(qū)別對待垂直方向的振幅變化與水平方向的相變化。

第五步,對排齊后的函數(shù)數(shù)據(jù)進(jìn)行探索性分析,如函數(shù)性主成份分析(FPCA)、函數(shù)性典型相關(guān)份析(FCCA)等。

第六步,建立模型。建立的模型可能是函數(shù)性線性模型,也可能是微分方程。

第七步,模型估計(jì)。

五、函數(shù)性數(shù)據(jù)分析方法的經(jīng)濟(jì)應(yīng)用

為了說明函數(shù)性數(shù)據(jù)分析方法的具體應(yīng)用,同時(shí)出于使所繪圖形簡單明了,本文再次利用四家國有銀行的數(shù)據(jù),對資產(chǎn)收益率進(jìn)行更深入的分析。雖然此實(shí)例中個(gè)體數(shù)少,但并不妨礙對方法應(yīng)用的系統(tǒng)描述與理解。

在對實(shí)際問題的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析時(shí),通常需要依照研究的目標(biāo)編寫計(jì)算機(jī)程序。就目前的研究現(xiàn)狀來看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計(jì)算函數(shù)等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對四家國有銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。

關(guān)于四家銀行資產(chǎn)收益率數(shù)據(jù)的函數(shù)(曲線)展示與初步分析,本文在前面已進(jìn)行了描述,具體結(jié)果見圖1和圖2。概括資產(chǎn)收益率特征的統(tǒng)計(jì)量(均值函數(shù)和標(biāo)準(zhǔn)差函數(shù))的曲線見圖3。

為了進(jìn)一步探討典型函數(shù)所呈現(xiàn)的特征,本文利用函數(shù)性主成份分析,對四家銀行的資產(chǎn)收益率數(shù)據(jù)進(jìn)行分析。一般來說,在函數(shù)性數(shù)據(jù)分析中,與多元統(tǒng)計(jì)中的某個(gè)主成份的權(quán)向量相對應(yīng)的是主成份權(quán)函數(shù)(principal component weight function),記為 ,其中t在一個(gè)區(qū)間 中變化。第i個(gè)樣品(個(gè)體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達(dá)到最大的權(quán)函數(shù) ,即它是下面數(shù)學(xué)模型的最優(yōu)解: 類似地,可以求得第j個(gè)主成份,其權(quán)函數(shù)毛(t)是下面數(shù)學(xué)模型的解:

為了得到光滑的主成份,一種方法是對由上述方法求出的主成份進(jìn)行修勻,另一種方法是將修勻處理過程,融入到主成份的求解過程中。具體作法是將描述主成份曲線波動(dòng)程度的粗糙因子納入到約柬?xiàng)l件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個(gè)主成份的數(shù)學(xué)模型是其中 稱為修勻參數(shù),用它可對粗糙懲罰項(xiàng)進(jìn)行調(diào)整。

利用上述方法和基于MATLAB編寫的程序,對四家銀行進(jìn)行函數(shù)性主成份分析(FPCA)。具體結(jié)果見圖4。第一個(gè)主成份(PCI)的解釋能力為85.5%,第二個(gè)主成份(Pc2)的解釋能力為13.1%,前兩個(gè)主成份的綜合解釋能力為98.6%。

為了清晰地顯示主成份,并進(jìn)行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對均值曲線分別加上和減去主成份的一個(gè)適當(dāng)倍數(shù)而形成的曲線,具體結(jié)果見圖5(本文所選的倍數(shù)是0.12)。以上所述的三條曲線分別對應(yīng)著圖5中的實(shí)心曲線、‘+’曲線和‘*’曲線。第一個(gè)主成份反映了資產(chǎn)收益率(ROA)的一般變化,尤其反映了資產(chǎn)收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個(gè)主成份反映了資產(chǎn)收益率(ROA)的中段變化。

六、結(jié)論

在經(jīng)濟(jì)實(shí)踐中,越來越多的領(lǐng)域所得到的樣本觀察資料是曲線或圖像,即函數(shù)性數(shù)據(jù)。因此,對這種類型的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和描述,具有重要的現(xiàn)實(shí)意義。因篇幅所限,還有一些函數(shù)性數(shù)據(jù)的分析方法未予以介紹,如函數(shù)性方差分析、函數(shù)線性模型、函數(shù)性典型相關(guān)分析以及描述動(dòng)態(tài)性的微分方程等。由于本文的主要目的,是通過對函數(shù)性數(shù)據(jù)分析方法和具體應(yīng)用的介紹,傳述對數(shù)據(jù)進(jìn)行分析的新思想,而不只是方法技術(shù)本身。因此,缺少的方法并不影響對思想的闡述。

另外,本文對四家銀行資產(chǎn)收益率的分析,例證了函數(shù)性數(shù)據(jù)的分析方法,具有傳統(tǒng)統(tǒng)計(jì)分析方法不可比擬的優(yōu)越性,具體表現(xiàn)在:(1)通過對函數(shù)性數(shù)據(jù)的修勻,將一階或多階導(dǎo)數(shù),如速度和加速度,引入到分析過程中。這一點(diǎn)在計(jì)量經(jīng)濟(jì)學(xué)和多元統(tǒng)計(jì)的分析方法中未予以考慮。(2)函數(shù)性數(shù)據(jù)分析,用最少的假設(shè)來研究曲線間和曲線內(nèi)部的結(jié)構(gòu)變化。關(guān)于這一點(diǎn)它優(yōu)于計(jì)量經(jīng)濟(jì)學(xué)中處理“面板數(shù)據(jù)”的方法。事實(shí)上,面板數(shù)據(jù)只是函數(shù)性數(shù)據(jù)的一種類型,本文介紹的數(shù)據(jù)分析方法可用來處理許多領(lǐng)域的函數(shù)性數(shù)據(jù),應(yīng)用范圍相對寬廣,而且觀測時(shí)點(diǎn)也可以不等間隔選取。(3)將數(shù)據(jù)曲線的振幅變化與相位變化分開處理,是函數(shù)性數(shù)據(jù)分析的一個(gè)中心理念,但在以前的分析中卻被忽視了。

篇2

關(guān)鍵詞:粗糙集理論;數(shù)據(jù)分析方法;信息系統(tǒng);決策表;屬性約簡

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2007)06-11651-01

1 引言

粗糙集(Rough Set)理論[1]是波蘭數(shù)學(xué)家Z.Pawlak于1982年提出的,它建立在完善的數(shù)學(xué)基礎(chǔ)之上,是一種新的處理含糊性和不確定性問題的數(shù)學(xué)工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則[2]。由于粗糙集理論不需要任何預(yù)備或額外的有關(guān)數(shù)據(jù)信息,使得粗糙集理論成為研究熱點(diǎn)之一,被廣泛應(yīng)用與知識發(fā)現(xiàn)、機(jī)器學(xué)習(xí)、決策分析、模式識別、專家系統(tǒng)和數(shù)據(jù)挖掘等領(lǐng)域。

屬性約簡是粗糙集理論中核心研究內(nèi)容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發(fā)式算法[4],這類算法往往不能得到系統(tǒng)的所有約簡.另一類是基于區(qū)分矩陣和區(qū)分函數(shù)構(gòu)造的算法[5],這種算法直觀,易于理解,能夠計(jì)算出所有約簡。但在區(qū)分矩陣中會出現(xiàn)大量的重復(fù)元素,造成時(shí)間和空間的浪費(fèi),從而降低了屬性約簡算法的效率。

本文基于數(shù)據(jù)分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個(gè)約去冗余的屬性,直到不再有冗余的屬性,此時(shí)得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現(xiàn)區(qū)分矩陣中大

量的重復(fù)元素,從而提高了屬性約簡的效率。

2 粗糙集概念

定義2.1設(shè)U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個(gè)等價(jià)關(guān)系族,稱二元有序組S=(U,R)為近似空間。

定義2.2令R為等價(jià)關(guān)系族,設(shè)P?哿R,且P≠?I,則P中所有等價(jià)關(guān)系的交集稱為P上的不可分辨關(guān)系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價(jià)關(guān)系。

定義2.3稱4元有序組K=(U,A,V,f)為信息系統(tǒng),其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個(gè)信息函數(shù),?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統(tǒng)也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。

顯然,信息系統(tǒng)中的屬性與近似空間中的等價(jià)關(guān)系相對應(yīng)。

定義2.4設(shè)K=(U,A,V,f)為信息系統(tǒng),P?哿A且P≠?I,定義由屬性子集P導(dǎo)出的二元關(guān)系如下:

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

則IND(P)也是等價(jià)關(guān)系,稱其為由屬性集P導(dǎo)出的不可分辨關(guān)系。

定義2.5稱決策表是一致的當(dāng)且僅當(dāng)D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個(gè)體的條件屬性值相同時(shí),他們的決策屬性值也相同。

定義2.6設(shè)K=(U,A)為一個(gè)信息系統(tǒng)。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個(gè)約簡,或稱為信息系統(tǒng)的一個(gè)約簡。

定義2.7設(shè)K=(U,CUD)為一個(gè)決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個(gè)約簡。其中POSC(D)表示決策D關(guān)于屬性集C的正域。

定義2.8數(shù)據(jù)分析方法對于信息系統(tǒng)K=(U,A),逐個(gè)移去A中的屬性,每移去一個(gè)屬性即刻檢查新得到的屬性子集的不可分辨關(guān)系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個(gè)移去C中的屬性,每移去一個(gè)屬性即刻檢其決策表,如果不出現(xiàn)新的不一致,則該屬性可被約去,否則該屬性不可被約去。

3 基于數(shù)據(jù)分析方法的屬性簡約算法

3.1 算法思路

利用函數(shù)的遞歸調(diào)用,逐個(gè)判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續(xù)檢查A‘中的每個(gè)屬性是否能被約去,此過程一直進(jìn)行下去,直到出現(xiàn)某一屬性子集中的每個(gè)屬性都不可約去為止,此時(shí)該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規(guī)則,作為是否約去屬性的依據(jù)。

算法如下:

輸入:信息系統(tǒng)K=(U,A)。

輸出:K的屬性約簡。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基數(shù)//

for j=i+1to|U|

begin

r=|R|//|R|表示屬性個(gè)數(shù)//

if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))

then a不可被約去,return0

end

a可以被約去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示屬性個(gè)數(shù)//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 , reduce (A’)

if (flag且A未被輸出)then

輸出A中所有元素//flag≠0,說明A中所有元素不可移去,且不會被重復(fù)輸出//

End

end

以上給出的函數(shù)是求解信息系統(tǒng)的屬性約簡算法;對于決策表,只要將Match(A’)函數(shù)中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個(gè)數(shù),ag是決策屬性。Reduce (A)函數(shù)中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個(gè)移去屬性并檢查決策表是否出現(xiàn)新的不一致,作為約去此屬性的依據(jù)。

4 舉例

文獻(xiàn)[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡是{a,b,d}

應(yīng)用本算法,求得的屬性約簡為{a,e}和{a,b,d},得到?jīng)Q策簡化表2和表3。

表1 決策表表2簡化表表3簡化表

如果將決策表表1看作一信息系統(tǒng),運(yùn)用本算法,求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 結(jié)束語

本文通過數(shù)據(jù)分析方法討論了屬性約簡問題。該算法是基于不可分辨關(guān)系的,具有直觀、易于理解和完備性的特點(diǎn)。當(dāng)屬性和對象都較少時(shí),效率較高,但當(dāng)屬性和對象較多時(shí),計(jì)算的復(fù)雜度較高。實(shí)例表明,該算法是有效的。

參考文獻(xiàn):

[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.

[2]張文修,吳偉志,梁吉業(yè)等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.

[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459

[4]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計(jì)算機(jī)學(xué)報(bào),2002(7):760―765.

[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.

[6]劉請.Rough集及Rough推理[M].北京:科學(xué)出版社,2001.

篇3

環(huán)境監(jiān)測數(shù)據(jù)可以反映出某一區(qū)域內(nèi)的環(huán)境質(zhì)量狀況、污染物的排放情況以及環(huán)境受污染的程度。各項(xiàng)數(shù)據(jù)的不斷匯總并分析為各級環(huán)保主管部門以及相關(guān)機(jī)構(gòu)做決策提供了技術(shù)依據(jù)。因此,采用健全的質(zhì)量保證體系以及方法來保證數(shù)據(jù)的分析質(zhì)量很有必要。首先,我們先來了解監(jiān)測數(shù)據(jù)分析的方法。

(一)統(tǒng)計(jì)規(guī)律分析

就是采用數(shù)理統(tǒng)計(jì)方法、模糊數(shù)學(xué)方法以及適用于小同環(huán)境要素的數(shù)學(xué)和物理方程等方法,對所得的監(jiān)測數(shù)據(jù)進(jìn)行深度剖析,做出詳細(xì)的分析評價(jià)。這種數(shù)據(jù)分析方法主要適用于環(huán)境調(diào)查、環(huán)境規(guī)劃和環(huán)評等工作。

(二)合理性分析

實(shí)際的環(huán)境監(jiān)測中,影響環(huán)境要素變化的因素錯(cuò)綜復(fù)雜,而有效的能用于綜合分析的監(jiān)測數(shù)據(jù)十分有限,所以我們需要考慮到各種環(huán)境要素之間的相互影響,以及監(jiān)測項(xiàng)目之間的關(guān)系,理論結(jié)合實(shí)際全面分析數(shù)據(jù)的合理性,這樣才可能得到準(zhǔn)確可靠的、合理的監(jiān)測數(shù)據(jù)分析結(jié)果。

二、提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量的方法

為了促進(jìn)環(huán)境執(zhí)法工作的嚴(yán)肅和公正,在科學(xué)化環(huán)境管理政策中,提高環(huán)境數(shù)據(jù)分析質(zhì)量很有必要。在前人的研究工作基礎(chǔ)之上,我們提出了以下幾種方法來提高數(shù)據(jù)分析質(zhì)量。

(一)加強(qiáng)審核

加強(qiáng)各項(xiàng)審核是提高環(huán)境監(jiān)測數(shù)據(jù)分析質(zhì)量的重要方法,它主要是指加強(qiáng)對現(xiàn)有數(shù)據(jù)的綜合審核。在進(jìn)行例行監(jiān)測或是年度監(jiān)測計(jì)劃時(shí),我們的工作一般都是連續(xù)性的展開的,一年或是好幾年,因此,我們可以建立一個(gè)動(dòng)態(tài)的分析數(shù)據(jù)庫,錄入每次的監(jiān)測數(shù)據(jù),包括每個(gè)污染源的詳細(xì)信息(污染點(diǎn)的地理位置和排放口的排污狀況等),在以后的審核中,我們可以迅速地在數(shù)據(jù)審核中對于同一采樣點(diǎn)、同一分析項(xiàng)目進(jìn)行新舊數(shù)據(jù)的分析對比。當(dāng)數(shù)據(jù)分析結(jié)果出現(xiàn)異常時(shí),可以及時(shí)的發(fā)現(xiàn)并找到原因,這可以對污染應(yīng)急事故的發(fā)生起到提前警示的作用。另外,在數(shù)據(jù)審核中,也要密切注意到同一水樣、不同的分析項(xiàng)目之間的相關(guān)性,比如:同一水體中氟化物和總硬度、色度和pH的關(guān)系、氨氮和總氮之間的相關(guān)性等,這樣也能及時(shí)發(fā)現(xiàn)數(shù)據(jù)分析中出現(xiàn)的誤差。

(二)加強(qiáng)監(jiān)督機(jī)制

通過調(diào)研我們發(fā)現(xiàn),目前在傳統(tǒng)的監(jiān)測數(shù)據(jù)質(zhì)量控制系統(tǒng)中依舊存在許多不足,我們可以通過引入反饋和交流機(jī)制,加強(qiáng)監(jiān)督機(jī)制來有效提高數(shù)據(jù)分析的質(zhì)量。首先,通過強(qiáng)化平面控制,在系統(tǒng)內(nèi)部全面優(yōu)化管理的模式,提高工作人員的分析技術(shù)水平,盡可能的減少或消除數(shù)據(jù)誤差,以此來提高監(jiān)測分析的準(zhǔn)確性;其次,我們應(yīng)該主動(dòng)接受來自外界的監(jiān)督,對于外界有異議的監(jiān)測數(shù)據(jù)要進(jìn)行反復(fù)的檢測;再次,我們也應(yīng)該多舉辦技術(shù)交流會,讓技術(shù)人員可以與各級環(huán)境監(jiān)測部門的人員溝通,學(xué)習(xí)他們的先進(jìn)技術(shù)和方法,同時(shí)進(jìn)行數(shù)據(jù)分析結(jié)果對比,找到自身的不足,發(fā)現(xiàn)問題并能及時(shí)更正。

(三)加強(qiáng)采樣及實(shí)驗(yàn)室測量質(zhì)量的控制

1.采樣控制

工作人員在每次采樣前,都應(yīng)該根據(jù)實(shí)際環(huán)境情況來制定采樣技術(shù)細(xì)則,做好采樣控制,比如:需要校準(zhǔn)儀器并確保儀器可以正常運(yùn)轉(zhuǎn);使用的采樣管和濾膜要正確安裝,采樣器干凈整潔沒有受到污染源的污染,其放置的位置也能滿足采樣要求等。采集好的樣品,要妥善存放避免污染。如果樣品不能及時(shí)進(jìn)行檢測,考慮到樣品的穩(wěn)定性,最好將樣品密封并存放在于冰箱中。

2.實(shí)驗(yàn)室測量控制

在實(shí)驗(yàn)室進(jìn)行樣品測試之前,首先應(yīng)該對所要用到的玻璃量器及分析測試儀器進(jìn)行校驗(yàn)。日常工作中,也應(yīng)該根據(jù)各種儀器保養(yǎng)規(guī)定,對儀器定期進(jìn)行維護(hù)和校驗(yàn),確保儀器可以正常運(yùn)轉(zhuǎn)工作。其次,需要準(zhǔn)確調(diào)配各種溶液,特別是標(biāo)準(zhǔn)溶液,配置時(shí)要使用合格的實(shí)驗(yàn)用蒸餾水。測試數(shù)據(jù)時(shí),先要測定標(biāo)準(zhǔn)樣品并繪制標(biāo)準(zhǔn)曲線。測定樣品時(shí)要檢查相關(guān)系數(shù)和計(jì)算回歸方程,并對實(shí)驗(yàn)系統(tǒng)誤差進(jìn)行測驗(yàn),每一步都不能少。

三、結(jié)束語

篇4

當(dāng)剛涉足數(shù)據(jù)挖掘分析領(lǐng)域的分析師被問及,數(shù)據(jù)挖掘分析人員最重要的能力是什么時(shí),他們給出了五花八門的答案。

其實(shí)我想告訴他們的是,數(shù)據(jù)挖掘分析領(lǐng)域最重要的能力是:能夠?qū)?shù)據(jù)轉(zhuǎn)化為非專業(yè)人士也能夠清楚理解的有意義的見解。

使用一些工具來幫助大家更好的理解數(shù)據(jù)分析在挖掘數(shù)據(jù)價(jià)值方面的重要性,是十分有必要的。其中的一個(gè)工具,叫做四維分析法。

簡單地來說,分析可被劃分為4種關(guān)鍵方法。

下面會詳細(xì)介紹這四種方法。

1.描述型分析:發(fā)生了什么?

這是最常見的分析方法。在業(yè)務(wù)中,這種方法向數(shù)據(jù)分析師提供了重要指標(biāo)和業(yè)務(wù)的衡量方法。

例如,每月的營收和損失賬單。數(shù)據(jù)分析師可以通過這些賬單,獲取大量的客戶數(shù)據(jù)。了解客戶的地理信息,就是“描述型分析”方法之一。利用可視化工具,能夠有效的增強(qiáng)描述型分析所提供的信息。

2.診斷型分析:為什么會發(fā)生?

描述性數(shù)據(jù)分析的下一步就是診斷型數(shù)據(jù)分析。通過評估描述型數(shù)據(jù),診斷分析工具能夠讓數(shù)據(jù)分析師深入地分析數(shù)據(jù),鉆取到數(shù)據(jù)的核心。

良好設(shè)計(jì)的BI dashboard能夠整合:按照時(shí)間序列進(jìn)行數(shù)據(jù)讀入、特征過濾和鉆取數(shù)據(jù)等功能,以便更好的分析數(shù)據(jù)。

3.預(yù)測型分析:可能發(fā)生什么?

預(yù)測型分析主要用于進(jìn)行預(yù)測。事件未來發(fā)生的可能性、預(yù)測一個(gè)可量化的值,或者是預(yù)估事情發(fā)生的時(shí)間點(diǎn),這些都可以通過預(yù)測模型來完成。

預(yù)測模型通常會使用各種可變數(shù)據(jù)來實(shí)現(xiàn)預(yù)測。數(shù)據(jù)成員的多樣化與預(yù)測結(jié)果密切相關(guān)。

在充滿不確定性的環(huán)境下,預(yù)測能夠幫助做出更好的決定。預(yù)測模型也是很多領(lǐng)域正在使用的重要方法。

4.指令型分析:需要做什么?

數(shù)據(jù)價(jià)值和復(fù)雜度分析的下一步就是指令型分析。指令模型基于對“發(fā)生了什么”、“為什么會發(fā)生”和“可能發(fā)生什么”的分析,來幫助用戶決定應(yīng)該采取什么措施。通常情況下,指令型分析不是單獨(dú)使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

例如,交通規(guī)劃分析考量了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來幫助選擇最好的回家路線。

篇5

關(guān)鍵詞 自組織映射 組織特異性基因 管家基因 基因表達(dá)譜

一、SOM算法介紹

由Kohonen提出的自組織映射(SOM)的神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中適合用于對數(shù)據(jù)進(jìn)行分類的有效方法。SOM神經(jīng)網(wǎng)絡(luò)包含一個(gè)輸入層和一個(gè)輸出層,組織成一個(gè)二維的網(wǎng)格結(jié)構(gòu)(圖1.1)。該網(wǎng)絡(luò)能夠從任意一個(gè)隨機(jī)選擇輸入的結(jié)點(diǎn)開始最終形成一個(gè)拓?fù)浣Y(jié)構(gòu)的映射,這個(gè)映射反映了輸入模式的內(nèi)在的關(guān)系。但是運(yùn)用SOM有一些參數(shù)的限制,首先需要指定類別數(shù)目,對映射空間結(jié)點(diǎn)進(jìn)行權(quán)值的初始化等。如(圖1.1)所示,SOM網(wǎng)絡(luò)是一個(gè)的映射,如果這個(gè)神經(jīng)元被安排在一個(gè)平面網(wǎng)格上面的話,這個(gè)神經(jīng)網(wǎng)絡(luò)就稱為二維神經(jīng)網(wǎng)絡(luò),因?yàn)檫@個(gè)網(wǎng)絡(luò)將一個(gè)高維的輸入向量映射到一個(gè)二維的平面上面。給定一個(gè)網(wǎng)絡(luò),輸入向量是一個(gè)維的向量,相應(yīng)的第個(gè)突觸向量的第個(gè)元素與輸入向量的第個(gè)元素相連,這樣,一個(gè)維的突觸向量就和第個(gè)神經(jīng)元實(shí)行連接。

圖1.1 SOM網(wǎng)絡(luò)的基本結(jié)構(gòu)

SOM算法描述如下:

(1)令網(wǎng)絡(luò)學(xué)習(xí)次數(shù),賦予初始化權(quán)值向量一個(gè)小的隨機(jī)向量值,對拓?fù)溧徲颍ǎW(xué)習(xí)率()進(jìn)行初始化,設(shè)置網(wǎng)絡(luò)總的學(xué)習(xí)次數(shù)()。

(2)當(dāng)學(xué)習(xí)次數(shù)()小于總的學(xué)習(xí)次數(shù)()時(shí),重復(fù)步驟3至步驟6。

(3)隨機(jī)選一個(gè)輸入向量進(jìn)入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

(4)確定獲勝神經(jīng)元,相應(yīng)的權(quán)值向量為與輸入向量距離最短的向量,成為獲勝神經(jīng)元,輸入向量與獲勝神經(jīng)元的最短距離為,定義如下:

(1.1)

(5)按照下式更新獲勝神經(jīng)元及其鄰域內(nèi)神經(jīng)元權(quán)值向量:

(1.2)

與函數(shù)定義如下:(1.3)

(6)令,如果,回到第(3)步繼續(xù)訓(xùn)練,否則結(jié)束訓(xùn)練。

二、數(shù)值模擬計(jì)算

本文以HUGEindex數(shù)據(jù)庫中人7000多條基因在19個(gè)正常組織中的表達(dá)情況這19個(gè)組織中表達(dá)的基因?yàn)闃颖緦ζ溥M(jìn)行分析。不同組織下的全基因表達(dá)數(shù)據(jù)構(gòu)成了一個(gè)7070x59的數(shù)據(jù)矩陣,其中每一個(gè)元素表示第個(gè)基因在第個(gè)組織中的表達(dá)水平值,行向量代表基因在19個(gè)人組織中的表達(dá)水平,成為基因的表達(dá)譜,列向量代表某一組織的各基因的表達(dá)水平。

(1.4)

本文運(yùn)用SOM方法對人基因19個(gè)組織的59個(gè)樣本進(jìn)行聚類,SOM網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)見(圖1.2)及參數(shù)選擇見表(表1.1)。

圖1.2 樣本聚類SOM網(wǎng)絡(luò)結(jié)構(gòu)圖

上圖中,根據(jù)Genechip得到的人體19個(gè)組織的59個(gè)微陣列數(shù)據(jù)所得到的信息,我們采用4x5的二維拓?fù)浣Y(jié)構(gòu)的SOM網(wǎng)絡(luò)對人體組織樣本進(jìn)行分類(其中第(4,5)個(gè)結(jié)點(diǎn)為空),圖中每個(gè)結(jié)點(diǎn)的位置(結(jié)點(diǎn)位置用與輸入模式維數(shù)相同的向權(quán)值向量表示,初始權(quán)值由系統(tǒng)自動(dòng)產(chǎn)生)為各個(gè)結(jié)點(diǎn)權(quán)值尺度化之后所得到的位置。

三、結(jié)論

通過分類可以將芯片實(shí)驗(yàn)的59個(gè)樣本按照人體組織類別分為19個(gè)類別,并且與采用層次聚類法所得結(jié)果進(jìn)行比較,可以看出自組織映射的聚類方法與層次聚類方法比較,可以看出采用SOM網(wǎng)絡(luò)聚類方法比層次聚類得到的結(jié)果更為明確,其分類正確率達(dá)到了92.2%,證明了SOM方法是有效的。

參考文獻(xiàn):

[1]孫嘯,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].北京:清華大學(xué)出版社,2005:282-285.

[2]許東,吳錚.基于matlab6.x的神經(jīng)網(wǎng)絡(luò)系統(tǒng)分析與設(shè)計(jì)[M].西安電了科技大學(xué)出版社,2002.

[3]閻凡平,張長水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京:清華大學(xué)出版社,2005.:11-34,360-395.

作者簡介:

篇6

人們通常把分析學(xué)等同于儀表盤報(bào)告,但這太死板了,只能粗略地反映你的游戲表現(xiàn)。

這就是為什么行業(yè)越來越傾向于使用特定的玩家反饋和可執(zhí)行的分析結(jié)果來指導(dǎo)游戲設(shè)計(jì)調(diào)整。

了解真實(shí)的玩家觀點(diǎn)并不容易。對發(fā)行商和開發(fā)者而言,玩家、平臺和設(shè)備類型多樣化導(dǎo)致分析學(xué)的數(shù)據(jù)追蹤成了一大挑戰(zhàn)。

那就是為什么我們最近發(fā)表了《Analytics Driven Game Design》白皮書,旨在使這個(gè)過程更加簡單和有效。

以下是一些重要的設(shè)計(jì)和執(zhí)行建議:

1、提前收集數(shù)據(jù)

人們往往不會把執(zhí)行分析學(xué)的數(shù)據(jù)標(biāo)注當(dāng)作優(yōu)先任務(wù)。

這是錯(cuò)誤的,因?yàn)閿?shù)據(jù)收集一般要貫穿整個(gè)開發(fā)過程,需要的時(shí)間是執(zhí)行的三到五倍。

2、盡早收集事件數(shù)據(jù)

當(dāng)事件及其參數(shù)定義好時(shí),開發(fā)者就可以確定什么時(shí)候需要什么數(shù)據(jù)了。

一開始就把這樣的數(shù)據(jù)結(jié)構(gòu)結(jié)合到代碼中,可以保證當(dāng)代碼需要這些數(shù)據(jù)時(shí)就能有現(xiàn)成的數(shù)據(jù)。

如果把事件收集放在開發(fā)過程的末尾,通常只能收集到60%有價(jià)值的數(shù)據(jù),這說明沒有充分利用分析學(xué)。

3、統(tǒng)一視角

復(fù)雜的游戲通常涉及多個(gè)系統(tǒng)。例如,登錄系統(tǒng)可能不同于支付系統(tǒng),這意味著數(shù)據(jù)來源通常有兩個(gè):服務(wù)器和游戲客戶端。

因此,有必統(tǒng)一視角,即使戶ID與登錄活動(dòng)保持一致。

這樣,分析時(shí)就可以忽略數(shù)據(jù)來源,把所有信息放在一起。

4、同步時(shí)間標(biāo)記

類似地,因?yàn)槭录?shù)據(jù)來自多個(gè)來源、時(shí)區(qū)和應(yīng)用商店,有必要使用同步時(shí)間標(biāo)記,以確保觀察玩家行為的視角能夠保持一致。

發(fā)送客戶端數(shù)據(jù)時(shí)通常使用本地時(shí)間標(biāo)記,而服務(wù)器數(shù)據(jù)記錄的通常是保存數(shù)據(jù)的時(shí)間。

如果兩個(gè)時(shí)間標(biāo)記不一樣,就會很難知道真正的事件順序,從而不利于建立玩家行為檔案。

5、創(chuàng)建單一登錄ID

將這個(gè)獨(dú)特的ID與一次登錄中發(fā)生的所有事件聯(lián)系在一起,對高效分析特別重要。

如果事件發(fā)生后才關(guān)聯(lián)數(shù)據(jù),必然會導(dǎo)致誤差和錯(cuò)誤。

考慮到大量初次玩家留存分析學(xué)專注于第一次游戲,統(tǒng)一而準(zhǔn)確地定義你的登錄活動(dòng)是很重要的。

6、總是記錄結(jié)果

事件的目標(biāo)應(yīng)該是記錄結(jié)果而不是變化。

換句話說,記錄任務(wù)的結(jié)果比記錄任務(wù)中的各種變化更好。例如,記錄當(dāng)玩家完成任務(wù)時(shí)獲得了什么,即得到多少經(jīng)驗(yàn)點(diǎn)或殺敵數(shù),比記錄每一次射擊更實(shí)用。

7、數(shù)據(jù)完整性vs.數(shù)據(jù)優(yōu)先級

篇7

關(guān)鍵詞:大數(shù)據(jù) 大數(shù)據(jù)分析方法 情報(bào)研究 適用性

中圖分類號: G250.2 文獻(xiàn)標(biāo)識碼: A 文章編號: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大數(shù)據(jù)分析(Big Data Analytics,BDA)是以“深度的發(fā)現(xiàn)分析、引領(lǐng)行動(dòng)”作為目標(biāo)的工作[1-2],它包括由多個(gè)任務(wù)組成的高度重復(fù)執(zhí)行的步驟[3-4]。BDA通常要集成多種分析技術(shù)與軟件工具,以便讓海量數(shù)據(jù)的處理及分析變得更加容易,從數(shù)據(jù)中提取有用信息并形成結(jié)論,用來驗(yàn)證、指導(dǎo)及規(guī)范組織或個(gè)人的決策行動(dòng);BDA的執(zhí)行過程一般包括問題需求及假設(shè)提出、數(shù)據(jù)獲取及記錄、信息抽取及清洗、數(shù)據(jù)整合及表示、選擇建模及分析方法、結(jié)果詮釋、評測結(jié)果有效性及監(jiān)控等幾個(gè)階段。從以上BDA的定義及過程來看,BDA與情報(bào)學(xué)領(lǐng)域中的情報(bào)研究(也稱情報(bào)分析)在本質(zhì)上是一致的,兩者至少在方法與技術(shù)(以下簡稱方法)上可以相互借鑒或補(bǔ)充。本文基于情報(bào)學(xué)的視角,關(guān)注哪些BDA方法可以為情報(bào)研究提供借鑒,并解決情報(bào)研究的相關(guān)問題。因此,本文首先概略總結(jié)BDA的方法體系,然后探討B(tài)DA方法在情報(bào)研究中的適用性。

1 大數(shù)據(jù)分析的方法分類

到目前為止,尚沒有公認(rèn)的BDA方法的分類體系,甚至對BDA包括哪些方法,也有不同的認(rèn)識。本文首先綜述現(xiàn)有的相關(guān)研究,并以此為基礎(chǔ)提出我們的分類體系。

1.1 相關(guān)研究

不同學(xué)者對BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數(shù)據(jù)視角的分類、面向流程視角的分類以及面向信息技術(shù)視角的分類。

(1)面向數(shù)據(jù)視角的BDA方法分類。這類研究主要是以BDA處理的對象“數(shù)據(jù)”作為分類依據(jù),從數(shù)據(jù)的類型、數(shù)據(jù)量、數(shù)據(jù)能夠解決的問題、處理數(shù)據(jù)的方式等角度對BDA方法進(jìn)行分類。

Power[5]依據(jù)分析需求將數(shù)值型數(shù)據(jù)的分析方法劃分為三類:①若是模式理解及對未來做出推論,可采取歷史數(shù)據(jù)及定量工具進(jìn)行“回顧性數(shù)據(jù)分析”;②若要進(jìn)行前瞻及預(yù)測分析,可采取歷史數(shù)據(jù)及仿真模型進(jìn)行“預(yù)測性數(shù)據(jù)分析”;③若要觸發(fā)事件,可采取實(shí)時(shí)數(shù)據(jù)及定量工具進(jìn)行“規(guī)范性數(shù)據(jù)分析”。美國國家研究委員會在2013年公布的《海量數(shù)據(jù)分析前沿》研究報(bào)告中提出了七種基本統(tǒng)計(jì)數(shù)據(jù)分析方法[6],包括:①基本統(tǒng)計(jì)(如一般統(tǒng)計(jì)及多維數(shù)分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數(shù)計(jì)算(Linear Algebraic Computations);⑤優(yōu)化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數(shù)據(jù)匹配(如隱馬爾可夫模型等)。

針對非純粹的數(shù)值型數(shù)據(jù),Li、Han[7]梳理了面向“時(shí)空數(shù)據(jù)”(Spatiotemporal Data)的BDA方法,通過對動(dòng)態(tài)數(shù)據(jù)挖掘出主體的預(yù)測性,如運(yùn)用物理工程領(lǐng)域的傅立葉變換(Fourier Transform)及自相關(guān)匹配(Autocorrelation)偵查某一時(shí)間區(qū)段的信號、發(fā)生的事件或生物基因中的周期性節(jié)律,也可運(yùn)用時(shí)間序列方法預(yù)測地點(diǎn)位置的變化;魏順平[8]以教育領(lǐng)域?yàn)槔?,梳理了面向?qū)W生與學(xué)習(xí)環(huán)境的“學(xué)習(xí)分析方法”(Learning Analytics),此方法集成了內(nèi)容分析、話語分析、社會網(wǎng)絡(luò)分析、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等多種方法,從中挖掘?qū)W習(xí)的各種語義關(guān)系,并回答“誰在學(xué)、學(xué)什么、怎么學(xué)、學(xué)的結(jié)果如何”等問題,為教學(xué)與優(yōu)化學(xué)習(xí)提供參考。

Mohanty等人[3]從數(shù)據(jù)獲?。―ata Ingestion)角度,依照處理的數(shù)據(jù)量從小至大的順序,區(qū)分出八種分析方法:①流分析(Streaming Analytics),以預(yù)定模式及時(shí)處理數(shù)據(jù)流;②高速的數(shù)據(jù)采集(High Velocity Data Ingestion),不轉(zhuǎn)換任何格式,可稍晚處理; ③鏈結(jié)分析(Linkage Analysis),構(gòu)建不同數(shù)據(jù)源的關(guān)系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數(shù)據(jù)集中尋找特定模式;⑤數(shù)據(jù)聚合(Data Mash-Ups),需要對數(shù)據(jù)屬性發(fā)展故事線或鏈接關(guān)系進(jìn)行分析;⑥文本分析(Text Analytics),如觀點(diǎn)挖掘或社會網(wǎng)絡(luò)分析等;⑦時(shí)間序列分析(Time-Series Analysis),通過模式偵測及事件發(fā)生概率來處理時(shí)空數(shù)據(jù);⑧數(shù)據(jù)辯論(Data Forensic),用于數(shù)據(jù)科學(xué)家探索大規(guī)模數(shù)據(jù)集。

Chen等人[9]認(rèn)為,在商業(yè)智能分析發(fā)展的過程中,商業(yè)智能分析經(jīng)歷了從處理結(jié)構(gòu)化程度較高的數(shù)據(jù)、到處理網(wǎng)絡(luò)上半結(jié)構(gòu)化數(shù)據(jù)、再到處理移動(dòng)數(shù)據(jù)的發(fā)展,涵蓋了五類核心的分析方法:①數(shù)據(jù)分析,涉及數(shù)據(jù)倉儲、ETL、聯(lián)機(jī)分析及數(shù)據(jù)挖掘等分析技術(shù),可應(yīng)用在時(shí)間序列挖掘、網(wǎng)站挖掘、空間數(shù)據(jù)挖掘等;②文本分析,涉及信息檢索、查詢處理、相關(guān)反饋等分析技術(shù),可應(yīng)用在QA系統(tǒng)、觀點(diǎn)挖掘、多語義分析、可視化分析等;③網(wǎng)站分析,涉及信息檢索、網(wǎng)絡(luò)爬蟲、日志分析等分析技術(shù),可應(yīng)用在云計(jì)算、社會網(wǎng)絡(luò)分析、網(wǎng)站可視化等;④網(wǎng)絡(luò)分析,涉及信息計(jì)量、引用網(wǎng)絡(luò)、數(shù)學(xué)網(wǎng)絡(luò)模式等分析技術(shù),可應(yīng)用在鏈結(jié)分析、社區(qū)發(fā)現(xiàn)、社會影響力及擴(kuò)散模式等;⑤移動(dòng)分析,可應(yīng)用在移動(dòng)通訊服務(wù)、個(gè)性化分析、游戲營銷分析等。

(2)面向流程視角的BDA方法分類。這類研究主要是依據(jù)BDA的步驟和階段對BDA方法進(jìn)行分類。

美國計(jì)算社區(qū)協(xié)會出版的《大數(shù)據(jù)的機(jī)會與挑戰(zhàn)》白皮書指出BDA是一個(gè)多階段任務(wù)循環(huán)執(zhí)行過程[4],從整體看,其分析的過程包括了五個(gè)階段,每一個(gè)階段都包含該階段需要使用的方法:①數(shù)據(jù)獲取及記錄,從各種感知工具中獲取的數(shù)據(jù)通常與空間時(shí)空相關(guān),需要及時(shí)分析技術(shù)處理數(shù)據(jù)并過濾無用數(shù)據(jù);②信息抽取及清洗,從異構(gòu)數(shù)據(jù)源抽取有用信息,并轉(zhuǎn)換為結(jié)構(gòu)化的格式;③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)與語義關(guān)系轉(zhuǎn)換為機(jī)器可讀取、自動(dòng)解析的格式;④數(shù)據(jù)建模及分析,從數(shù)據(jù)中挖掘出潛在規(guī)律及知識,涉及可擴(kuò)展的挖掘算法或知識發(fā)現(xiàn)等方法;⑤詮釋,為了讓用戶容易解讀分析結(jié)果,可視化分析技術(shù)變得十分重要。此外,嚴(yán)霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數(shù)據(jù)的關(guān)鍵技術(shù),包括:遺傳算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、回歸分析、分類、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)融合、機(jī)器學(xué)習(xí)、自然語言處理、情感分析、網(wǎng)絡(luò)分析、空間分析、時(shí)間序列分析等多種方法。

(3)面向信息技術(shù)視角的BDA方法分類。這類研究強(qiáng)調(diào)大數(shù)據(jù)技術(shù)本身涉及到的新型信息技術(shù),將大數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)系統(tǒng)等作為BDA方法分類的依據(jù)。

孟小峰、慈祥[11]著眼于大數(shù)據(jù)處理框架,梳理了數(shù)據(jù)抽取與集成、數(shù)據(jù)分析及數(shù)據(jù)解釋所使用的分析方法,在數(shù)據(jù)抽取與集成方面,可區(qū)分為基于物化(Materialization)或ETL的方法、基于聯(lián)邦數(shù)據(jù)庫或中間件的方法、基于數(shù)據(jù)流的方法以及基于搜索引擎的方法等四類;在數(shù)據(jù)分析方面,傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析面臨數(shù)據(jù)規(guī)模、算法調(diào)整等困難,需進(jìn)一步發(fā)展;在數(shù)據(jù)解釋方面,引入可視化技術(shù)或交互式的數(shù)據(jù)分析過程,有助于用戶理解分析結(jié)果。覃雄派等人[12]認(rèn)為,非關(guān)系數(shù)據(jù)管理(如MapReduce)擴(kuò)展了數(shù)據(jù)分析的多維視角,使數(shù)據(jù)分析的生態(tài)系統(tǒng)從“大量數(shù)據(jù)的移動(dòng)”轉(zhuǎn)向“直接對數(shù)據(jù)進(jìn)行分析”。

2012~2013年在印度召開了兩次BDA國際研討會[13-14],會上分別就BDA中的機(jī)器學(xué)習(xí)面臨數(shù)據(jù)規(guī)模與多維度問題、可擴(kuò)展的機(jī)器學(xué)習(xí)算法(如隨機(jī)映射、隨機(jī)梯度下降等)、機(jī)器學(xué)習(xí)在MapReduce的應(yīng)用、社交媒體數(shù)據(jù)挖掘(如話題檢測與跟蹤、地點(diǎn)推理、語義連接等)、高維數(shù)據(jù)降維分析(如主成分分析、因子分析、經(jīng)典相關(guān)分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對分析(如特征提取、Iterative Methods)等進(jìn)行了探討。2013年IEEE計(jì)算機(jī)協(xié)會在美國召開大數(shù)據(jù)國際研討會,BDA結(jié)合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內(nèi)容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類――面向?qū)哟蔚腂DA方法框架

上述三種視角的BDA分類各有特點(diǎn),都有一定的道理。從面向數(shù)據(jù)的視角來看,BDA方法正從統(tǒng)計(jì)(Statistics)轉(zhuǎn)向挖掘(Mining),并提升到發(fā)現(xiàn)(Discovery)和預(yù)測(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項(xiàng)分析任務(wù)時(shí),需要綜合使用多種方法。從面向信息技術(shù)的BDA分類中可以看出,這種分類方式強(qiáng)調(diào)使用新技術(shù)對傳統(tǒng)數(shù)據(jù)處理方法進(jìn)行改進(jìn)和創(chuàng)新,同時(shí)更重視新型系統(tǒng)架構(gòu)與分析方法的集成,例如,各種數(shù)據(jù)挖掘算法的MapReduce化,就是這方面的典型實(shí)例。

本文認(rèn)為,如果綜合上述三種分類體系中體現(xiàn)的層次性,將可以更準(zhǔn)確描述BDA方法。在此,本文提出一個(gè)面向?qū)哟蔚腂DA分類框架,將BDA方法分為統(tǒng)計(jì)、挖掘、發(fā)現(xiàn)、預(yù)測及集成五個(gè)層次,并初步歸納出17種BDA相關(guān)方法(見表1)。

2 BDA方法在情報(bào)研究中的適用性探討

如前所述,BDA與情報(bào)研究在本質(zhì)上有共同之處,BDA方法可為情報(bào)研究提供借鑒,因此,探討B(tài)DA方法對情報(bào)研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報(bào)研究的分析對象特征、方法的可移植性[15]等因素,對本文所列舉的17種面向?qū)哟蔚腂DA方法在情報(bào)研究中的適用性進(jìn)行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應(yīng)用于情報(bào)研究,用來對情報(bào)研究的數(shù)據(jù)源(如科技文獻(xiàn)、網(wǎng)絡(luò)資源等)進(jìn)行處理,解決情報(bào)研究過程中的一個(gè)或幾個(gè)步驟中要解決的問題。在本文所列舉的17種面向?qū)哟蔚腂DA方法中,數(shù)據(jù)挖掘、文本挖掘、知識發(fā)現(xiàn)、觀點(diǎn)挖掘、話題演化分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析、海量數(shù)據(jù)的基本統(tǒng)計(jì)方法、高維數(shù)據(jù)降維分析方法、多源數(shù)據(jù)融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報(bào)研究中已經(jīng)有多年的應(yīng)用歷史。

(1)數(shù)據(jù)挖掘與文本挖掘。數(shù)據(jù)挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發(fā)現(xiàn)技術(shù),文本挖掘?qū)儆诨谟?jì)算機(jī)語言學(xué)及統(tǒng)計(jì)方法的發(fā)現(xiàn)技術(shù),用來揭示文本中的詞與句法特征;數(shù)據(jù)挖掘以數(shù)據(jù)庫中的大量結(jié)構(gòu)化的數(shù)據(jù)挖掘?yàn)榛A(chǔ),用來揭示數(shù)據(jù)中潛在的、可能的數(shù)據(jù)模式及關(guān)聯(lián)規(guī)律[16]。在情報(bào)學(xué)領(lǐng)域的實(shí)踐應(yīng)用中,數(shù)據(jù)挖掘多應(yīng)用在圖書館自動(dòng)化技術(shù)與服務(wù)方面,例如,館藏采購決策、個(gè)性化服務(wù)、信息檢索、讀者管理、館藏布局等。文本挖掘在情報(bào)研究的價(jià)值在于彌補(bǔ)了情報(bào)學(xué)專門分析方法對科技文獻(xiàn)內(nèi)在知識挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究內(nèi)容這個(gè)問題,提出引文內(nèi)容分析,先建立基于規(guī)則的引文內(nèi)容抽取來識別引用句,再通過基于C-value多詞術(shù)語識別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻(xiàn)之間的語義關(guān)系。

(2)知識發(fā)現(xiàn)。情報(bào)研究中所說的知識發(fā)現(xiàn),主要是指基于文獻(xiàn)的知識發(fā)現(xiàn),例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎(chǔ)上,提出了“基于文獻(xiàn)的知識發(fā)現(xiàn)”,包括:基于相關(guān)文獻(xiàn)、基于非相關(guān)文獻(xiàn)及基于全文獻(xiàn)三種條件下的知識發(fā)現(xiàn),完整揭示文獻(xiàn)的知識結(jié)構(gòu)與演化情況。在網(wǎng)絡(luò)環(huán)境下,李楠、張學(xué)福[19]認(rèn)為關(guān)聯(lián)數(shù)據(jù)的RDF數(shù)據(jù)模型、數(shù)據(jù)訪問機(jī)制、URIs及自描述數(shù)據(jù)等規(guī)范所形成的數(shù)據(jù)共享環(huán)境,為知識發(fā)現(xiàn)提供了新的研究潛力,包括知識發(fā)現(xiàn)的范圍被擴(kuò)展成全球數(shù)據(jù)空間、高效率理解及處理數(shù)據(jù)間的語義關(guān)系等。簡言之,知識發(fā)現(xiàn)從不同數(shù)據(jù)源之間的復(fù)雜關(guān)系中獲得隱含的知識或規(guī)律,甚至可對未來進(jìn)行預(yù)測。

(3)觀點(diǎn)挖掘與話題演化分析。觀點(diǎn)挖掘與話題演化分析兩種方法實(shí)際上是數(shù)據(jù)挖掘及文本挖掘的具體及深化應(yīng)用。觀點(diǎn)挖掘主要有三種挖掘任務(wù):情感分類、基于特征的觀點(diǎn)挖掘、比較語句和關(guān)系挖掘[20],例如,黃曉斌、趙超[21]通過對網(wǎng)絡(luò)輿情信息的文本挖掘,找出不同民眾對某一社會事件的情緒、態(tài)度及觀點(diǎn),再通過關(guān)聯(lián)分析找出網(wǎng)絡(luò)輿情信息的各種關(guān)聯(lián)性。趙潔、溫潤[22]認(rèn)為微博情感分析的關(guān)鍵是觀點(diǎn)句識別,并根據(jù)文本特征的差異性,提出了基于新詞擴(kuò)充和特征選擇的觀點(diǎn)句識別方法,即先擴(kuò)充情感詞典來提高分詞準(zhǔn)確率,再結(jié)合微博特征進(jìn)行句子選取。話題演化分析方法是近年文本挖掘的研究熱點(diǎn),借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時(shí)間信息模擬該話題隨著時(shí)間推移所表現(xiàn)的受關(guān)注程度及關(guān)注點(diǎn)的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻(xiàn)中的話題(即主題詞),再計(jì)算話題的強(qiáng)度與內(nèi)容演化,從而區(qū)分熱門與冷門話題及其歷年特征詞的演化趨勢。

(4)多元統(tǒng)計(jì)分析與時(shí)間序列分析。多元統(tǒng)計(jì)分析與時(shí)間序列分析兩種方法也是情報(bào)研究常見的定量分析方法[25],前者研究客觀事物中多個(gè)變量(或多個(gè)因素)之間相互依賴的統(tǒng)計(jì)規(guī)律,后者則是基于隨機(jī)過程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究動(dòng)態(tài)數(shù)據(jù)序列的規(guī)律性。這兩種分析方法的一個(gè)重要特點(diǎn)在于能基于歷史數(shù)據(jù)的變化,評價(jià)事物現(xiàn)狀或預(yù)測事物未來的發(fā)展。

(5)海量數(shù)據(jù)的基本統(tǒng)計(jì)分析方法。海量數(shù)據(jù)的七種基本統(tǒng)計(jì)分析方法適用于情報(bào)研究的原因是,專家們普遍認(rèn)為,在現(xiàn)有硬件技術(shù)條件下要開發(fā)一個(gè)海量數(shù)據(jù)分析系統(tǒng)的難度過高,且高性能計(jì)算領(lǐng)域也面臨許多困難,因而轉(zhuǎn)向?qū)ふ夜餐ǖ幕A(chǔ)性計(jì)算方法來幫助運(yùn)算[6],同時(shí)這些統(tǒng)計(jì)方法也經(jīng)常應(yīng)用于數(shù)據(jù)挖掘或文本挖掘。對情報(bào)研究來說,處理的數(shù)據(jù)量不及高性能計(jì)算領(lǐng)域的海量數(shù)據(jù),因此可以容易地應(yīng)用這些基本統(tǒng)計(jì)分析方法。盡管如此,隨著情報(bào)研究處理的文本量增加,包括文獻(xiàn)計(jì)量或信息計(jì)量方法在內(nèi)的定量分析方法,仍然要經(jīng)常借鑒基礎(chǔ)性的計(jì)算方法,并進(jìn)行公式改進(jìn)。

(6)高維數(shù)據(jù)降維分析方法。高維數(shù)據(jù)降維分析方法反映了海量的數(shù)值型數(shù)據(jù)在數(shù)據(jù)縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關(guān)分析、獨(dú)立成分分析、投影尋蹤等[26]。高維數(shù)據(jù)經(jīng)常存在大量的弱相關(guān)內(nèi)容或噪音,通過線性(如主成分分析、典型相關(guān)分析等)或非線性(如投影尋蹤、核方法等)映射可以將數(shù)據(jù)樣本從高維空間映射到低維空間,從而提高機(jī)器學(xué)習(xí)的效率[27-28]。情報(bào)研究在處理文本語料時(shí),廣泛使用基于向量空間模型來表示文本,形成的高維特征集會對文本分類或機(jī)器學(xué)習(xí)的效果產(chǎn)生很大影響,通過特征選擇(如特征頻率、互信息等)進(jìn)行特征抽?。ㄈ鏟CA、LSI、NMF等),轉(zhuǎn)換成一個(gè)低維的特征集來提高訓(xùn)練效果,是非常必要的[29]。

(7)多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法是解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)整合而提出的方法,例如,為了解決不同研究階段產(chǎn)生的各類科學(xué)數(shù)據(jù)集成問題,白如江、冷伏海[30]認(rèn)為解決關(guān)鍵在于中間件構(gòu)建,例如,通過基于XML模型將異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)映射到全局視圖,解決了不同數(shù)據(jù)源的關(guān)系描述問題,并提供用戶可靈活訂制查詢規(guī)則;但基于XML模型只能提供語法層次的整合,為了提供數(shù)據(jù)在語義層次的整合,可通過基于語義模型對XML的對象進(jìn)行分類,在對象模型的基礎(chǔ)上生成邏輯規(guī)則,揭示隱含在科學(xué)數(shù)據(jù)中的語義信息。此外,也可以通過基于物化或ETL方法、基于數(shù)據(jù)流方法或其他方法對異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取出實(shí)體與關(guān)系,再進(jìn)行數(shù)據(jù)集成或數(shù)據(jù)清洗[11]。多源數(shù)據(jù)融合方法是進(jìn)入數(shù)據(jù)分析之前的重要任務(wù),對情報(bào)研究來說,需要多種來源支持情報(bào)分析工作,包括同型異源信息、異質(zhì)異構(gòu)信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權(quán)等進(jìn)行融合分析[31]。

2.2 調(diào)整后移植的方法

調(diào)整后移植的方法是指其在原本的領(lǐng)域已經(jīng)成功應(yīng)用,但由于該方法最早或成功應(yīng)用的領(lǐng)域在任務(wù)需求、數(shù)據(jù)處理、分析過程有自身的特點(diǎn),若移植到情報(bào)研究時(shí),需要根據(jù)情報(bào)研究自身的特征進(jìn)行調(diào)整。數(shù)據(jù)可用處理及分析方法、時(shí)空數(shù)據(jù)分析等兩種分析方法就屬于這類情況。

(1)數(shù)據(jù)可用處理及分析方法。大數(shù)據(jù)環(huán)境中容易產(chǎn)生許多劣質(zhì)數(shù)據(jù)來降低數(shù)據(jù)可用性,為了提高數(shù)據(jù)可用性及數(shù)據(jù)質(zhì)量,李建中及劉顯敏[32]梳理了數(shù)種數(shù)據(jù)可用性的相關(guān)方法,包括高質(zhì)量數(shù)據(jù)獲取與整合、數(shù)據(jù)錯(cuò)誤自動(dòng)檢測與修復(fù)、弱可用數(shù)據(jù)處理與分析等,分別解決了大規(guī)模數(shù)據(jù)集預(yù)處理階段常見的一致性、精確性、完整性、時(shí)效性及實(shí)體同一性等問題。對情報(bào)研究來說,情報(bào)素材、產(chǎn)品形式及工作任務(wù)分解的質(zhì)量控制是情報(bào)工作的核心[33],其中,情報(bào)素材的質(zhì)量對后續(xù)的情報(bào)分析成敗存在著至關(guān)重要的作用,當(dāng)數(shù)據(jù)或信息是錯(cuò)誤或不完整時(shí),提煉出來的情報(bào)勢必會存在缺陷或錯(cuò)誤。過去對情報(bào)研究的質(zhì)量控制取決于人,如果能引入數(shù)據(jù)可用處理及分析方法解決數(shù)據(jù)或信息源可能存在的不一致、不精確、遺漏、滯后或重復(fù)等問題,有助于提高情報(bào)分析素材的可用性與正確性。

(2)時(shí)空數(shù)據(jù)分析。時(shí)空數(shù)據(jù)分析是地球信息科學(xué)相關(guān)領(lǐng)域的研究熱點(diǎn),其中最常使用“周期”(Periodic Behavior)分析,例如天氣預(yù)報(bào)、環(huán)境監(jiān)控、地理信息系統(tǒng)、城市交通網(wǎng)絡(luò)管理等都是常見的應(yīng)用實(shí)例[7]?,F(xiàn)有研究的多數(shù)做法是采取基于時(shí)間序列的方法進(jìn)行周期建模,但建模過程容易出現(xiàn)對象可能沒有周期、時(shí)間點(diǎn)分布不一定呈現(xiàn)周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測方法解決周期長度定義問題,孟志青等人[35]提出多粒度時(shí)間文本下的周期模式挖掘算法解決時(shí)態(tài)文本數(shù)據(jù)挖掘問題。對情報(bào)研究來說,時(shí)間是文本中一個(gè)重要的屬性,如文獻(xiàn)發(fā)表規(guī)律、輿情監(jiān)控、科研人員的研究主題周期等。在原有數(shù)據(jù)基礎(chǔ)上增加時(shí)間維度進(jìn)行長時(shí)段分析是多數(shù)研究的常見做法,但并沒有呈現(xiàn)出其中的周期性規(guī)律,特別是文本中的規(guī)律特征較難發(fā)現(xiàn),如果能引入此類方法,將有助于找出情報(bào)演化的周期模式。

2.3 不適用的方法

考慮學(xué)科領(lǐng)域差異,本文認(rèn)為 “翻譯生物信息學(xué)分析”及“學(xué)習(xí)分析方法”兩種專門研究方法不適合情報(bào)研究。

(1)翻譯生物信息學(xué)分析。翻譯生物信息學(xué)分析是生物信息學(xué)的專門分析方法,這種方法是依據(jù)特定目的整合多數(shù)據(jù)源及促進(jìn)領(lǐng)域知識的有效利用,其結(jié)果可應(yīng)用在生物醫(yī)學(xué)研究、產(chǎn)生支持醫(yī)療人員在治療點(diǎn)中的“可操作的決策”(Actionable Decision),同時(shí)能對人類與疾病的關(guān)聯(lián)關(guān)系提供更好的理解。生物信息學(xué)為了找出更多基因與疾病的關(guān)系,通過翻譯生物信息學(xué)分析,可以將分析方法與工具開發(fā)從系統(tǒng)層面橫跨到分子、個(gè)人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉(zhuǎn)向新基因或遺傳性狀組合與預(yù)測研究[36]。從分析方法的操作過程來說,考慮到數(shù)據(jù)源的特殊性(如DNA編碼數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)等)、分析視角、工具構(gòu)建及使用等因素,并不符合情報(bào)學(xué)的學(xué)科研究特色。

(2)學(xué)習(xí)分析方法。學(xué)習(xí)分析方法是搜集、分析及評測學(xué)習(xí)者及其學(xué)習(xí)語境的分析方法,目的在于理解與優(yōu)化學(xué)習(xí)及其學(xué)習(xí)環(huán)境[8]。從UNESCO IITE機(jī)構(gòu)在2012年11月出版的學(xué)習(xí)分析方法政策簡報(bào)可知,學(xué)習(xí)分析方法的數(shù)據(jù)分析功能是基于數(shù)據(jù)挖掘從而開展相關(guān)分析內(nèi)容,包括行為分析、學(xué)習(xí)資源瀏覽分析、各種關(guān)聯(lián)分析與影響因素分析等。雖然數(shù)據(jù)挖掘是情報(bào)研究的常見方法,但學(xué)習(xí)分析方法的結(jié)果意義在于解釋學(xué)習(xí)者的學(xué)習(xí)語境,為教師或管理者提供決策支持,從而改善學(xué)習(xí)者的學(xué)習(xí)習(xí)慣及促進(jìn)學(xué)習(xí)效果。由于這種方法有其特定的含義和應(yīng)用環(huán)境,離開了學(xué)習(xí)語境,方法的內(nèi)涵和外延可能就會產(chǎn)生變化,因此,難以移植到情報(bào)研究。

2.4 需要繼續(xù)關(guān)注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務(wù)智能分析,是近年研究探討較多的方法,但目前尚未形成一個(gè)成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續(xù)發(fā)展中,本身也存在不斷的改進(jìn)空間,它們與各種分析方法的集成缺乏公認(rèn)的標(biāo)準(zhǔn)和規(guī)范,同樣地,對于關(guān)注圖像與事物之間關(guān)聯(lián)的圖模型分析與挖掘也尚沒有發(fā)展出固定的技術(shù),又例如,商務(wù)智能分析被定義為由數(shù)據(jù)倉庫、ETL、聯(lián)機(jī)分析、數(shù)據(jù)挖掘、客戶關(guān)系管理、知識管理等多種技術(shù)融合的一組系統(tǒng),通過BI系統(tǒng)管理組織內(nèi)部及個(gè)人相關(guān)的商業(yè)數(shù)據(jù)、專家信息及知識,涉及數(shù)據(jù)的融合、取用及分析等方法與工具[37-38],目前也沒有標(biāo)準(zhǔn)化的體系架構(gòu)。

因此,本文還無法明確回答上述三種方法將如何應(yīng)用于情報(bào)研究、在應(yīng)用過程中需要做哪些調(diào)整、這些方法與現(xiàn)有的情報(bào)研究方法的關(guān)系如何等相關(guān)問題,但可以肯定的是,這些方法對未來的情報(bào)研究具有借鑒價(jià)值,例如,一旦情報(bào)研究的處理對象(即數(shù)據(jù))積累到了一定程度,成為傳統(tǒng)關(guān)系數(shù)據(jù)庫處理不了的大數(shù)據(jù),那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補(bǔ)充情報(bào)研究在圖像分析的不足,而商務(wù)智能分析可理解為一套集成系統(tǒng),可應(yīng)用在情報(bào)機(jī)構(gòu)的知識庫或機(jī)構(gòu)典藏,找出組織的知識缺口等方面。

3 結(jié)語

大數(shù)據(jù)時(shí)代就是一個(gè)數(shù)據(jù)分析的時(shí)代,學(xué)界和業(yè)界提出了很多大數(shù)據(jù)分析的方法與技術(shù),這些方法與技術(shù)對情報(bào)研究產(chǎn)生了積極的借鑒作用,本文總結(jié)了大數(shù)據(jù)分析的方法,提出面向?qū)哟蔚腂DA方法框架,歸納總結(jié)了其中的17種BDA方法,并從可直接移植、將調(diào)整后移植、不適用于情報(bào)研究以及需要繼續(xù)關(guān)注等四個(gè)方面對這些方法在情報(bào)研究中的適用性進(jìn)行了分析,以期為情報(bào)研究借鑒或移植BDA相關(guān)方法提供參考,促進(jìn)情報(bào)研究的理論與實(shí)踐發(fā)展。

參考文獻(xiàn):

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏順平. 學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J]. 現(xiàn)代教育技術(shù),2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]嚴(yán)霄鳳,張德馨. 大數(shù)據(jù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展,2013, 50(1): 146-169.

[12]覃雄派,王會舉,杜小勇,等. 大數(shù)據(jù)分析――RDBMS與MapReduce的競爭與共生[J].軟件學(xué)報(bào),2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王煉,武夷山. 方法移植對科學(xué)計(jì)量學(xué)研究的方法論啟示[J]. 科學(xué)學(xué)研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文內(nèi)容分析的高被引論文主題識別研究[J]. 中國圖書館學(xué)報(bào),2014,(1):39-49.

[18]張樹良,冷伏海. 基于文獻(xiàn)的知識發(fā)現(xiàn)的應(yīng)用進(jìn)展研究[J]. 情報(bào)學(xué)報(bào),2006, 25(6): 700-712.

[19]李楠,張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書情報(bào)工作,2013,(6):127-133.

[20]王輝,王暉昱,左萬利. 觀點(diǎn)挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2009,26(1):25-29.

[21]黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報(bào)科學(xué),2009:(1): 94-99.

[22]趙潔,溫潤. 基于新詞擴(kuò)充和特征選擇的微博觀點(diǎn)句識別方法[J]. 情報(bào)學(xué)報(bào),2013,32(9): 945-951.

[23]單斌,李芳.基于LDA話題演化研究方法綜述[J]. 中文信息學(xué)報(bào),2010, 24(6): 43-49.

[24]賀亮,李芳. 科技文獻(xiàn)話題演化研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2012,(4): 61-67.

[25]查先進(jìn).信息分析[M].武漢:武漢大學(xué)出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡潔. 高維數(shù)據(jù)特征降維研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2008,(9): 2601-2606.

[28]吳曉婷,閆德勤. 數(shù)據(jù)降維方法分析與研究[J]. 計(jì)算機(jī)應(yīng)用研究,2009,(8):2832-2835.

[29]陳濤,謝陽群. 文本分類中的特征降維方法綜述[J]. 情報(bào)學(xué)報(bào),2005,24(6): 690-695.

[30]白如江,冷伏海. “大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究[J]. 情報(bào)理論與實(shí)踐,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情報(bào)理論與實(shí)踐,2013,(11): 16-19.

[32]李建中,劉顯敏. 大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013,50(6):1147-1162.

[33]王延飛,王林蘭. 論情報(bào)研究質(zhì)量[J].圖書情報(bào)工作,2010,54(10):35-39.

[34]王閱,高學(xué)東,武森,等. 時(shí)間序列周期模式挖掘的周期檢測方法[J]. 計(jì)算機(jī)工程,2009, 35(22): 32-34.

[35]孟志青,樓婷淵,胡強(qiáng).多粒度時(shí)間文本數(shù)據(jù)的周期模式挖掘算法[J]. 計(jì)算機(jī)科學(xué),2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.

篇8

【關(guān)鍵詞】大數(shù)據(jù)分析;電網(wǎng)調(diào)度能力;方法;應(yīng)用

0.引言

為了評測區(qū)域內(nèi)電網(wǎng)調(diào)度能力,根據(jù)調(diào)度能力評測結(jié)果,調(diào)整輸變電調(diào)度方案,提高變壓器等主要設(shè)備的可靠運(yùn)行,合理利用電網(wǎng)中各項(xiàng)資源和設(shè)備。本發(fā)明的目的是提供一種基于計(jì)算機(jī)實(shí)現(xiàn)的評測電網(wǎng)調(diào)度能力的方法,該方法通過對電壓、有功功率、無功功率的分析,保持各個(gè)變壓器都處于最佳工作狀態(tài),提高設(shè)備使用壽命,降低設(shè)備故障率,降低設(shè)備運(yùn)行的電能損耗,提高電網(wǎng)運(yùn)行的可靠性,提升電網(wǎng)調(diào)度水平。

1.大數(shù)據(jù)分析評測電網(wǎng)的現(xiàn)狀

隨著我國城市化的發(fā)展逐漸加快,我國對電力的需求也在逐漸的增多,未來十幾甚至幾十年,電力需求的增長主要集中在城市地區(qū)。這也就對我國的電網(wǎng)帶來很大的挑戰(zhàn),城市電網(wǎng)是城市的重要基礎(chǔ)設(shè)施,也是電力網(wǎng)的重要組成部分。建設(shè)好城市電網(wǎng)對滿足城市經(jīng)濟(jì)發(fā)展、人民生活水平提高具有重大意義。但是,由于我國長期以來收著“重主網(wǎng)、輕配網(wǎng)”的思想,導(dǎo)致我國很長一段時(shí)間內(nèi),對電網(wǎng)的投資非常的少,城市的電網(wǎng)發(fā)展普遍落后于高壓電網(wǎng)[1]。導(dǎo)致我國在很長一段時(shí)間內(nèi),處于用電不平衡的情況,很多的地方在年前或者重大節(jié)日之前就會出現(xiàn)的停電的現(xiàn)象。

2.大數(shù)據(jù)分析評測電網(wǎng)調(diào)度能力的具體方法

2.1獲取兩卷變或三卷變高低壓側(cè)的監(jiān)控?cái)?shù)據(jù)

該方法主要是用根據(jù)變壓器端的終端設(shè)備,來獲取的,首先通過各地市部署的調(diào)度EMS系統(tǒng),將變電站中各變壓器的運(yùn)行情況準(zhǔn)確的監(jiān)控,通過變壓器內(nèi)的監(jiān)控元件,對變壓器的的運(yùn)行情況、采集電壓、有功負(fù)荷、無功負(fù)荷等檢測數(shù)據(jù),按指定頻率采集。然后將采集的數(shù)據(jù)通過生產(chǎn)區(qū)的專用網(wǎng)絡(luò)進(jìn)行傳輸,通過生產(chǎn)區(qū)的安全交換機(jī)制放置到電力系統(tǒng)信息內(nèi)網(wǎng),開始清洗、篩選,去除設(shè)備檢測的異常數(shù)據(jù),保留有效數(shù)據(jù)用于負(fù)載率分析該評測電網(wǎng)調(diào)度能力工具通過在信息內(nèi)網(wǎng)中載入電網(wǎng)運(yùn)行的監(jiān)控?cái)?shù)據(jù)[2]。

2.2得到變壓器實(shí)際功率與額定功率的比值

通過對變壓器內(nèi)高低壓側(cè)的檢測數(shù)據(jù),計(jì)算變壓器實(shí)際功率與額定功率的比值,負(fù)責(zé)率分析,接下來對采集的調(diào)度EMS系統(tǒng)的電網(wǎng)運(yùn)行數(shù)據(jù)進(jìn)行計(jì)算,負(fù)載率有兩種計(jì)算方法,一是根據(jù)選定的地區(qū)、時(shí)間段,使用公式二“有功負(fù)荷與無功負(fù)荷平方根/容量”計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率;二是根據(jù)選定的地區(qū)、時(shí)間段,使用公式“有功負(fù)荷/(容量*0.95)”計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率[3]。

2.3計(jì)算各個(gè)變壓器的平均負(fù)載率以及平均負(fù)載率的平均值

首先要通過選定的地區(qū)、時(shí)間段,得到該地區(qū)在本時(shí)間段內(nèi)各個(gè)變壓器的平均負(fù)載率以及平均負(fù)載率的平均值。然后再計(jì)算各個(gè)變壓器平均負(fù)載率的均方差,由變壓器的均方差,判斷選定區(qū)域在該時(shí)間段的調(diào)度運(yùn)行能力。主變不均衡度分析,根據(jù)選定地區(qū)和時(shí)間段,統(tǒng)計(jì)負(fù)載率分析結(jié)果,得出平均負(fù)載率[4]。根據(jù)平均負(fù)載率計(jì)算各個(gè)變壓器平均負(fù)載率的均方差,作為變壓器的不均衡度,將結(jié)果逐級放大,能夠得出變壓器、變電站、縣公司、市公司乃至網(wǎng)省公司在該時(shí)間段的調(diào)度健康情況,從而有效的調(diào)整調(diào)度策略和計(jì)劃,改善電網(wǎng)運(yùn)行情況。

3.大數(shù)據(jù)分析評測電網(wǎng)調(diào)度能力的應(yīng)用

3.1調(diào)度EMS數(shù)據(jù)采集

要對EMS數(shù)據(jù)采集,首先要制定EMS系統(tǒng)監(jiān)控?cái)?shù)據(jù)的格式,然后加載指定格式的調(diào)度數(shù)據(jù),其中指定數(shù)據(jù)額格式要求主要為:(1)按“變電站+地區(qū)+變電站電壓等級+主變名稱+時(shí)間”的順序排序,每小時(shí)記錄一次,主要記錄每個(gè)整點(diǎn)、時(shí)點(diǎn)的有功、無功負(fù)荷該數(shù)據(jù)容量的單位是MVA,負(fù)荷的單位是MW。(2)時(shí)間,變電站,地區(qū),變電站電壓等級,主變名稱,繞組電壓,容量,有功負(fù)荷值,無功負(fù)荷值。(3)變電站的數(shù)據(jù)采集按照一定的順序進(jìn)行,不可以同時(shí)多個(gè)變電站的數(shù)據(jù)進(jìn)行采集。

在這個(gè)過程中還要對數(shù)據(jù)進(jìn)行“清洗”。清洗的流程為:(1)使用8個(gè)逗號作為數(shù)據(jù)的分隔符,分別隔開不同字段的數(shù)據(jù)。如果有多余逗號或缺逗號或兩個(gè)逗號中間為空的行,則該行數(shù)據(jù)無效。(2)在計(jì)算的過程中除了容量、有功負(fù)荷值及無功負(fù)荷值外,其他各字段如數(shù)據(jù)超長,則頁面拋出提示錯(cuò)誤,結(jié)束導(dǎo)入。(3)廠站電壓等級為110kV的變壓器容量小于等于100MVA(系統(tǒng)用戶可以在管理端修改此值大?。?,否則該行數(shù)據(jù)無效。

3.2負(fù)載率計(jì)算

負(fù)載率計(jì)算有兩種情況,分別是近似計(jì)算和精確計(jì)算,其中近似計(jì)算效率高,能夠很快得到近似結(jié)果。但是在常規(guī)檢查時(shí)可使用本公式計(jì)算;精確計(jì)算算法相對復(fù)雜、比較耗時(shí),但是計(jì)算準(zhǔn)確,通常用于分析調(diào)度情況時(shí)使用。

簡便公式為:

計(jì)算要求:

1、選定地區(qū)、場站或主變和時(shí)間段;

2、根據(jù)選定的地區(qū)、時(shí)間段,使用公式計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率;

3、使用意義在于根據(jù)負(fù)載率大小得出各變壓器負(fù)載率的最高或最低時(shí)點(diǎn),從而判斷當(dāng)前電網(wǎng)的負(fù)荷情況。

精確公式:

計(jì)算方法:

1、選定地區(qū)、場站或主變和時(shí)間段;

2、根據(jù)選定的地區(qū)、時(shí)間段,使用公式二計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率;

3、使用意義在于根據(jù)負(fù)載率大小得出各變壓器負(fù)載率的最高或最低時(shí)點(diǎn),從而判斷當(dāng)前電網(wǎng)的負(fù)荷情況。

4.結(jié)語

該發(fā)明可及時(shí)調(diào)整調(diào)度方案,從而均衡電網(wǎng)的運(yùn)行負(fù)荷,保持各個(gè)變壓器都處于最佳工作狀態(tài),提高設(shè)備使用壽命,降低設(shè)備故障率,降低設(shè)備運(yùn)行的電能損耗,提高電網(wǎng)運(yùn)行的可靠性,提升電網(wǎng)調(diào)度水平,對提高大數(shù)據(jù)分析電網(wǎng)調(diào)度能力具有顯著的作用。

參考文獻(xiàn)

[1]李庚銀,羅艷,周明,等.基于數(shù)學(xué)形態(tài)學(xué)和網(wǎng)格分形的電能質(zhì)量擾動(dòng)檢測及定位[J].中國電機(jī)工程學(xué)報(bào),2012,26(03):25-30.

[2]賀仁睦,王衛(wèi)國,蔣德斌,等.廣東電網(wǎng)動(dòng)態(tài)負(fù)荷實(shí)測建模及模型有效性研究[J].中國電機(jī)工程學(xué)報(bào),2015,22(03):78-82.

推薦期刊
九九热国产视频精品,免费国产不卡一级αⅴ片,欧美日韩蜜桃在线播放,精品国内自产拍99在线观看
在线欧美中文亚洲精品 | 亚洲台湾国产综合 | 一级大片在线免费 | 真实国产乱子伦视频 | 日本精品在线亚洲视频看看 | 亚洲日本一区二区在线公厕 |