時間:2023-03-22 17:36:51
緒論:在尋找寫作靈感嗎?愛發表網為您精選了8篇大數據技術,愿這些內容能夠啟迪您的思維,激發您的創作熱情,歡迎您的閱讀與分享!
關鍵詞:大數據 數據挖掘 營銷
中圖分類號:F49 文獻標識碼:A 文章編號:1007-9416(2015)030-0209-01
近幾年,大數據(big data)一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。2012 年3 月,奧巴馬公布了美國《大數據研究和發展計劃》,標志著大數據已經成為國家戰略,上升為國家意志。從硅谷到北京,大數據的話題傳播迅速。
1 大數據時代
隨著計算機技術全面融入社會生活,經過半個多世紀的發展,信息爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長速度也在加快。最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念。
1.1 大數據時代產生的背景
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!贝笠幠Ia、分享和應用海量數據的時代之所以能夠開啟,源于信息科技的進步、互聯網與云計算技術和物聯網的發展。
(1)信息科技的進步。信息處理、信息存儲和信息傳遞是信息科技的三個主要支撐,存儲設備性價比不斷提升、網絡帶寬的持續增加,為大數據的存儲和傳播提供了物質基礎。
(2)互聯網與云計算技術?;ヂ摼W時代,電子商務、社交網絡和移動通信產生了大量結構化和非結構化的數據,以云計算為基礎的信息存儲、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數據存儲下來,并隨時進行分析與計算?;ヂ摼W領域的公司最早重視數據資產的價值,他們從大數據中淘金,并且引領著大數據的發展趨勢。
(3)物聯網的發展。眾所周知,物聯網時代所創造的數據不是互聯網時代所能比擬的,而且物聯網的數據是異構的、多樣性的、非結構和有噪聲的,最顯著的特點是是它的高增長率。大數據是物聯網中的關鍵技術,物聯網對大數據技術的要求更高,它的發展離不開大數據。
1.2 大數據與數據挖掘
Google、Amazon、Facebook、Twitter,這些稱霸全球互聯網的企業,它們的成功都具備一個共同的因素,就是收集分析海量的各種類型的數據,并能夠快速獲取影響未來的信息的能力?!百徺I了此商品的顧客還購買了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統了,而創造出這個系統的正是Amazon。Amazon 通過分析商品的購買記錄、瀏覽歷史記錄等龐大的用戶行為歷史數據,并與行為模式相似的其他用戶的歷史數據進行對照,提供出最適合的商品推薦信息。Facebook 可以為用戶提供類似“也許你還認識這些人”的提示,這種提示可以準確到令人恐怖的程度,而這正是對龐大的數據進行分析而得到的結果。這種以數據分析為核心的技術就是數據挖掘(data mining)。
從技術角度看,數據挖掘是從大量的、復雜的、不規則的、隨機的、模糊的數據中獲取隱含的、人們事先沒有發覺的、有潛在價值的信息和知識的過程。從商業角度來說,數據挖掘是從龐大的數據庫中抽取、轉換、分析一些潛在規律和價值,從中獲取輔助商業決策的關鍵信息和有用知識。大數據概念的提出,將為數據挖掘技術的發展和應用帶來一個很大的機遇。
2 數據挖掘
數據挖掘旨在從大數據中提取隱藏的預測性信息,用便于理解和觀察的方式反映給用戶,作為決策的依據。
2.1 數據挖掘原理
數據挖掘又稱為數據庫中的知識發現(Knowledge Diseoveryin Databases,KDD),是一個從數據庫或數據倉庫中發現并抽取隱含的、明顯未知的、具有潛在用處的信息的過程。數據挖掘一般流程主要包括三個階段:數據準備、數據挖掘、結果解釋和評價。在數據挖掘的處理過程中,數據挖掘分析方法是最為關鍵的。
(1)數據準備。數據準備是從海量數據源得到數據挖掘所用的數據,將數據集成到一起的過程。由于數據收集階段得到的數據可能有一定的污染,即數據可能存在不一致,或有缺失數據、臟數據的存在,因此需通過數據整理,對數據進行清洗及預處理。
(2)數據挖掘。是數據挖掘中最關鍵的一步,使用智能的方法提取數據模式,例如決策樹、分類和聚類、關聯規則和神經網絡等。首先決定要提取什么樣的模型,然后選取相應的算法參數,分析數據從而得到可能形成知識的模式模型。
(3)結果解釋和評價。數據挖掘后的結果需要轉換成用戶能夠理解的規則或模式,并根據其是否對決策問題具有實際意義進行評價。
2.2 數據挖掘技術在營銷中的應用
無差別的大眾媒體營銷已經無法滿足零和的市場環境下的競爭要求。精準營銷是企業現在及未來的發展方向,在精準營銷領域,最常用的數據挖掘分析方法包括分類、聚類和關聯三類。
(1)關聯規則。挖掘關聯規則就是發現存在于大量數據集中的關聯性或相關性,例如空間關聯挖掘出啤酒與尿布效應;時間關聯挖掘出孕嬰用品與家居裝修關系;時間關聯挖掘出調味品、紙巾與化妝品的消費等。
此外,關聯規則發現也可用于序列模式發現。序列模式發現的側重點在于分析數據項集在時間上或序列上的前后(因果)規律,可以看作是一種特定的關聯規則。例如顧客在購買了打印機后在一段時間內是否會購買墨盒。
(2)分類分析。分類是假定數據庫中的每個對象屬于一個預先給定的類,從而將數據庫中的數據分配到給定的類中。它屬于預測性模型,例如在銀行業,事先定義用戶的信用狀況分為兩類:信用好和信用壞,對于一個信用狀態未知的用戶,如果需要確定其信用度,可以采用“決策樹”法構建一個分類模型,決策樹方法著眼于從一組無次序、無規則的客戶數據庫中推理出決策樹表現形式的分類規則。決策樹的非葉子節點均是客戶的一些基本特征,葉子節點是客戶分類標識,由根節點至上而下,到每個葉子節點,就生成了一條規則,由該決策樹可以得到很多規則,構成了一個規則集合,從而進行數據分析。
(3)聚類分析。聚類是將物理或抽象對象的集合進行分組,然后組成為由類似或相似的對象組成的多個分類的分析過程,其目的就是通過相似的方法來收集數據分類。為品牌找客戶,回答品牌“誰來賣”是精準營銷首先要解決的問題,科學細分客戶是解決這一問題的有效手段。聚類可以將目標客戶分成多個類,同一個類中的客戶有很大的相似性,表現在購買行為的高度一致,不同類間的客戶有很大的相異性,表現在購買行為的截然不同。
3 結語
大數據時代背景下“數據成為資產”,數據挖掘技術作為支撐精準營銷的重要手段,將它應用于營銷行業的決策中,不僅拓展了數據挖掘技術的應用范圍,而且大數據時代的數據挖掘技術可以幫助企業獲得突破性回報。
參考文獻
[1]維克托?邁爾―舍恩伯格;肯尼思?庫克耶.大數據時代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數據產業的戰略價值研究與思考.技術經濟與管理研究[J],2015(1).
[3]俞立平.大數據與大數據經濟學[J].中國軟科學,2013(7):177-183.
關鍵詞:大數據;數據庫集群技術;分布集群
一、分布集群數據庫在大數據中的應用
目前,許多數據增長率很高的大型數據庫系統正被用于改善全球人類活動,如通信、社交網絡、交易、銀行等,分布集群數據庫已成為提高數據訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數據訪問,分布集群數據庫的問題不僅在于如何管理大量的數據,而且在于如何組織分布式存儲中的數據模式。智能數據組織是提高檢索速度、減少磁盤I/O數量、縮短查詢響應時間的最佳方法之一?;谝巹t的聚類是提供數據庫自動聚類和數據存儲模式解釋的解決方案之一,基于規則的集群通過分析屬性和記錄上的數據庫結構,將數據模式表示為規則。使用不同規則池分區的每個集群,每個規則與內部集群中的規則相似,與外部集群中的規則不同。分布集群數據庫是一種有向圖結構的進化優化技術,用于數據分類,在緊湊的程序中具有顯著的表示能力,這源于節點的可重用性,而節點本身就是圖形結構的功能。為了實現基于規則的集群,分布集群數據庫可以通過分析記錄來處理數據集的規則提取。分布集群數據庫的圖形結構由三種節點組成:起始節點、判斷節點和處理節點。開始節點表示節點轉換的開始位置;判斷節點表示要在數據庫中檢查的屬性。分布集群數據庫規則提取的節點準備包括兩個階段:節點定義和節點排列。節點定義的目的是準備創建規則,節點排列是選擇重要的節點,以便高效地提取大量規則。節點排列由以下兩個順序過程執行,第一個過程是查找模板規則,第二個過程是結合第一個過程中創建的模板生成規則。提取模板以獲得數據集中經常發生的屬性組合。在模板提取過程中,分布集群數據庫規則提取中只使用了少數幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規則的方法相比,該節點排列方法具有更好的聚類結果,這兩個過程中的規則生成都是通過圖結構的演化來實現。
二、在線規則更新系統的應用
在線規則更新系統用于通過分析所有記錄從數據集中提取規則,在大數據應用中,每個節點都有自己的節點號,描述每個節點號的節點信息。程序大小取決于節點的數量,這會影響程序創建的規則的數量。起始節點表示根據連接順序執行的判斷節點序列的起始點,開始節點的多個位置將允許一個人提取各種規則。判斷節點表示數據集的屬性,顯示屬性索引。在大數據應用環節,從每個起始節點開始的節點序列用虛線a、b和c表示,節點序列流動,直到支持判斷節點的下一個組合不滿足閾值。在節點序列中,如果具有已出現在上一個節點序列,將跳過這些節點。在更新每個集群中的規則時,重要的是要找到與最新數據不匹配的屬性。因此,規則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數據之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規則更新過程中的判斷節點的屬性選擇。一些數據的庫存值和權重值低于0.85,因此這些值不包括在國民生產總值的規則更新中。在線規則更新系統中包含用于更新規則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質量的錨定點,進而影響輪廓值。在線規則更新系統應用中,完成主要的規則提取過程,這是一個標準的規則提取,在線規則更新系統考慮到數據集中的所有屬性。執行該過程,對初始數據集進行初始集群;改善規則更新過程,僅對輪廓值低于閾值的數據執行。
三、大規模并行處理技術的應用
大規模并行處理技術主要用于編寫和調試現代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數據應用中,會產生很多數據,在數據的分析和計算中,應該結合編程技術,標準語言是面向傳統體系結構的,這就是為什么編譯器不能使用所有可能的DSP體系結構以最佳效率生成代碼的原因。為了獲得一個良好的優化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務,可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結構化的編程語言可以獲得比在C/C++中翻譯的應用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統的基于文本的語言(如C/C++)一起工作。大數據應用環節,在數據分類和計算中,當兩個計算操作在不同的操作單元上執行時,才能在一個dsp核心的vliw命令中并行執行兩個計算操作。根據運算執行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執行兩個操作成為可能。第一種類型包括由算術和邏輯單元執行的操作,第二種類型包括由乘法器、移位器ms執行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數據依賴關系,則可以進行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數據計算和分析中,如果有足夠多的通用寄存器來執行這兩個操作,并且它們可以并行執行,代碼就會并行化,提升數據計算的效率。
關鍵詞:大數據 數據挖掘 方法
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)04-0222-01
1 大數據時代數據挖掘的重要性
隨著互聯網、物聯網、云計算等技術的快速發展,以及智能終端、網絡社會、數字地球等信息體的普及和建設,全球數據量出現爆炸式增長,僅在2011年就達到1.8萬億GB。IDC(Internet Data Center,互聯網絡數據中心)預計,到2020 年全球數據量將增加50倍。毋庸置疑,大數據時代已經到來。一方面,云計算為這些海量的、多樣化的數據提供存儲和運算平臺,同時數據挖掘和人工智能從大數據中發現知識、規律和趨勢,為決策提供信息參考。
如果運用合理的方法和工具,在企業日積月累形成的浩瀚數據中,是可以淘到沙金的,甚至可能發現許多大的鉆石。在一些信息化較成熟的行業,就有這樣的例子。比如銀行的信息化建設就非常完善,銀行每天生成的數據數以萬計,儲戶的存取款數據、ATM交易數據等。
數據挖掘是借助IT手段對經營決策產生決定性影響的一種管理手段。從定義上來看,數據挖掘是指一個完整的過程,該過程是從大量、不完全、模糊和隨機的數據集中識別有效的、可實用的信息,并運用這些信息做出決策。
2 數據挖掘的分類
數據挖掘技術從開始的單一門類的知識逐漸發展成為一門綜合性的多學科知識,并由此產生了很多的數據挖掘方法,這些方法種類多,類型也有很大的差別。為了滿足用戶的實際需要,現對數據挖掘技術進行如下幾種分類:
2.1 按挖掘的數據庫類型分類
利用數據庫對數據分類成為可能是因為數據庫在對數據儲存時就可以對數據按照其類型、模型以及應用場景的不同來進行分類,根據這種分類得到的數據在采用數據挖掘技術時也會有滿足自身的方法。對數據的分類有兩種情況,一種是根據其模型來分類,另一種是根據其類型來分類,前者包括關系型、對象-關系型以及事務型和數據倉庫型等,后者包括時間型、空間型和Web 型的數據挖掘方法。
2.2 按挖掘的知識類型分類
這種分類方法是根據數據挖掘的功能來實施的,其中包括多種分析的方式,例如相關性、預測及離群點分析方法,充分的數據挖掘不僅僅是一種單一的功能模式,而是各種不同功能的集合。同時,在上述分類的情況下,還可以按照數據本身的特性和屬性來對其進行分類,例如數據的抽象性和數據的粒度等,利用數據的抽象層次來分類時可以將數據分為三個層次,即廣義知識的高抽象層,原始知識的原始層以及到多層的知識的多個抽象層。一個完善的數據挖掘可以實現對多個抽象層數據的挖掘,找到其有價值的知識。同時,在對數據挖掘進行分類時還可以根據其表現出來的模式及規則性和是否檢測出噪聲來分類,一般來說,數據的規則性可以通過多種不同的方法挖掘,例如相關性和關聯分析以及通過對其概念描述和聚類分類、預測等方法,同時還可以通過這些挖掘方法來檢測和排除噪聲。
2.3 按所用的技術類型分類
數據挖掘的時候采用的技術手段千變萬化,例如可以采用面向數據庫和數據倉庫的技術以及神經網絡及其可視化等技術手段,同時用戶在對數據進行分析時也會使用很多不同的分析方法,根據這些分析方法的不同可以分為遺傳算法、人工神經網絡等等。一般情況下,一個龐大的數據挖掘系統是集多種挖掘技術和方法的綜合性系統。
2.4 按應用分類
根據數據挖掘的應用的領域來進行分類,包括財經行業、交通運輸業、網絡通信業、生物醫學領域如DNA等,在這些行業或領域中都有滿足自身要求的數據挖掘方法。對于特定的應用場景,此時就可能需要與之相應的特殊的挖掘方法,并保證其有效性。綜上所述,基本上不存在某種數據挖掘技術可以在所有的行業中都能使用的技術,每種數據挖掘技術都有自身的專用性。
3 數據挖掘中常用的方法
目前數據挖掘方法主要有4種,這四種算法包括遺傳、決策樹、粗糙集和神經網絡算法。以下對這四種算法進行一一解釋說明。
遺傳算法:該算法依據生物學領域的自然選擇規律以及遺傳的機理發展而來,是一種隨機搜索的算法,利用仿生學的原理來對數據知識進行全局優化處理。是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優化方法。這種算法具有隱含并行性、易與其它模型結合等優點從而在數據挖掘中得到了應用。
決策樹算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。
粗糙集算法:這個算法將知識的理解視為對數據的劃分,將這種劃分的一個整體叫做概念,這種算法的基本原理是將不夠精確的知識與確定的或者準確的知識進行類別同時進行類別刻畫。
神經網絡算法:在對模型的預測中,該算法具有很強的優勢,利用該算法對龐大的數據信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優勢也比較明顯,在利用這種算法對數據進行分類時非常迅速,同時描述起來也很簡潔,在大規模數據處理時,這種方法的應用性很強。光纜監測及其故障診斷系統對于保證通信的順利至關重要,同時這種技術方法也是順應當今時代的潮流必須推廣使用的方法。同時,該診斷技術為通信管網和日常通信提供了可靠的技術支持和可靠的后期保證。
參考文獻
[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(01):146-169.
現狀
“檢察大數據”的概念厘定
“大數據”的生產與運用是一個“人人為我,我為人人”的互通、共享、多贏過程。檢察機關在整合應用其他政府機構、企事業單位、社會組織提供的信息數據服務司法辦案的同時,也在辦案中生產“大數據”。這些數據既可作為檢察機關校準后續辦案的內部參照系,同時部分數據亦可對外輸出服務社會。前者如在刑事檢察中整合同類案件形成案例數據庫,用以提升公訴量刑精準度,后者以當前檢察機關向社會公眾提供的行賄犯罪檔案查詢服務最為典型。顯然作為數據運用者,檢察機關“大數據”包括檢察工作所涉及的一切有用信息數據。其中,相當一部分數據并非檢察機關在司法辦案中產出的“原生”數據。如職務犯罪偵查辦案中反貪部門調用房產、銀行、公安行政機關的信息數據庫進行初查;相關業務部門在審查、出庭公訴、訴訟監督、參與社會治理等方面運用信息化、數字化新技術等。
“檢察大數據”與上述檢察機關運用的“大數據”有本質區別。“檢察大數據”專指檢察機關司法辦案大數據,是檢察機關在司法辦案中的“原生”案件信息數據,其最核心的特征是相關數據是關于檢察業務辦案的信息數據。目前,在檢察司法辦案大數據的擷取、管理、應用方面,最高人民檢察院推進的“統一業務應用系統”是國家層面“檢察大數據”生成的最重要平臺;同時各地檢察機關亦多有創新,如北京市人民檢察院開發應用的“檢立方”系統、上海市閔行區人民檢察院試運行的“檢察官執法辦案全程監控考核系統”、浦東新區人民檢察院試運行的“綜合管理信息平臺一期”、湖北省人民檢察院研發的“互聯網檢務辦公室”,南京市鼓樓區人民檢察院研發的辦公辦案軟件“移動檢務通”等。上述系統平臺通過案件管理部門案件受理信息輸入及辦案人員在辦案過程中的流程信息輸入,生成、存儲、管理與檢察機關司法辦案相關的各項信息數據,并通過對大數據不同子系統數據的深度分析,進而服務領導決策與司法辦案。
當前檢察工作中的大數據運用
無論是檢察機關的“原生”大數據,還是第三方生成的關聯大數據,在當前的檢察辦案與司法管理工作中都有著極為廣闊的應用前景。作為檢察機關大數據的核心內容,“原生”大數據即“檢察大數據”,在輔助檢察辦案、服務司法管理中發揮著極為重要的作用。
在“檢察大數據”輔助檢察辦案方面,目前較為典型的如貴州省人民檢察機關的“大數據司法辦案輔助系統”。司法辦案輔助系統運用“實體識別”“數學建?!钡却髷祿夹g,通過繪制“犯罪構成知識”圖譜,建立各罪名案件數學模型的司法辦案輔助系統,為辦案提供案件信息智能采集、“要素―證據”智能關聯和風險預警、證據材料甄別,以及類案推送、量刑建議計算等智能化服務。目前,貴州省人民檢察機關的大數據司法辦案輔助系統已進行了三次迭代升級,正在貴州全省4個市(州)院和31個基層院試點運行。
在“檢察大數據”服務司法管理方面,上海市閔行區人民檢察院的檢察官執法辦案全程監控考核系統非常具有代表性。該院通過對各職能部門受理、立案(項)、辦理的案件以及不依附于自偵、批捕、等主要辦案業務的,有完整流程、審查結論及相關法律文書的訴訟監督、社會治理、維護穩定、預防犯罪等檢察業務進行梳理,對檢察建議、糾正違法等共性的檢察業務指標進行歸并,形成了較為規范的檢察機關司法辦案大數據目錄和工作指標w系。通過對檢察官在執法辦案中產生的“原生”大數據的深度挖掘和研判分析,將案件統計、質量監控、專題研判、績效分析有機融為一體,進而使辦案監督管理者能夠及時準確找出檢察官在辦案中存在的司法不規范問題,有效強化對司法辦案的績效考評與內部監控。
除了重視對“原生”大數據的收集整理與挖掘應用,如何發揮好“他山之石”的作用,在檢察辦案中運用好第三方關聯大數據,也是大數據技術與檢察辦案深度融合的重要內容。除了上述在職務犯罪案件偵查中對房產、銀行、公安行政機關等提供的關聯數據的常規運用外,當前一些地方檢察機關正在進行創新運用第三方大數據方面的積極探索。如江蘇省無錫市錫山區人民檢察院對接社會治理公共服務管理平臺和民情APP,推出檢察民情APP的創新做法。自對接平臺以來,錫山區人民檢察院已查閱近6000條民情信息,從海量數據中了解掌握群眾訴求,立足檢察職能,從中發現老百姓對征地拆遷、環境保護、社會保障等方面的民生需求,聚焦群眾關注的熱點民生問題深入挖掘職務犯罪案件線索、訴訟監督線索、執行監督線索及公益訴訟線索,使第三方大數據真正成為輔助檢察辦案,拓展監督案源的新渠道。
短板
檢察大數據系統的提升點
目前,檢察大數據系統在建設與應用方面存在的主要問題:
“大數據時代的預言家”維克托近日在北京面對一萬多名技術信徒再次預言。
顯然,這三大經典的技術信條在大數據時代面臨動搖,
技術信徒的思維模式也即將發生顛覆。
那么,大數據對技術信徒意味著什么?
他們又將如何面對這一顛覆性的變革?
“技術匯成一條大河,一波推動另外一波?!盜BM中國開發中心首席技術官兼新技術研發中心總經理毛新生帶著對技術的滿腔癡迷這樣形容道。
一波未平一波又起,移動、社交商務、云計算、大數據等先后涌現的新趨勢正在融合成一股巨大的潮流,將所有的行業IT化,進而推動商業和社會的演進。這也就意味著“科技是第一生產力”在當下有了更深層次的涵義——“IBM認為,在由新一代技術組成的智慧運算時代,中國的企業家們需要更為戰略地思考信息科技的定位,將其運用到自身的變革轉型之中?!?IBM全球副總裁兼大中華區軟件集團總經理胡世忠為企業新發展出謀獻策。
由2012年的“軟件技術峰會”改名為2013年的“技術峰會”,在這么一個盛會上,IBM試圖展示的內容涵蓋范圍更為廣泛——移動應用、大數據、云計算、DevOps軟件持續交付、應用整合、社交商務、專家集成系統等熱議話題,上百場技術主題演講、28場分論壇、22場動手實驗室和80個未來產品的現場演示,再加上被譽為“大數據時代的預言家”的《大數據時代》作者維克托·邁爾-舍恩伯格以及數十位來自IBM的院士、杰出工程師、相關領域的全球首席技術官和首席架構師的現場分享,IBM 2013技術峰會再次成為技術精英們關注的焦點。 大數據的新信條
《大數據時代》作者、牛津大學網絡學院互聯網治理與監管專業教授維克托·邁爾-舍恩伯格的出現著實讓場內數以萬計的技術信徒激動了一把。作為深刻洞察大數據給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預測網站的例子作為開場白,論證了大數據已經悄然在大眾的身邊出現并給他們的生活帶來改變。
“全體性、混雜性和相關性是大數據的三個主要特點,而且這三個特點是互相加強的?!本S克托歸納出了大數據對應的思維變革。收集和分析更多的數據才能獲取足夠的數據隱含的細節,這些細節恰恰是隨機抽樣所錯失的?!案蓛簟钡摹⒏哔|量的數據不再是標的,大數據需要我們摒棄對宏觀上精確性的追求,轉而獲得微觀上的準確性,即接受混雜的數據。最重要的是,人們不再沉迷于追尋數據之間的因果關系,即不再糾結于為什么,而是直接獲得“是什么”的答案,并通過應用相關關系,更好地捕捉現在和預測未來——抽樣因錯失細節得不償失,盲目追求精確性已經過時,執著于因果關系喪失機遇。
如何在大數據時代生存?維克托指出了兩個關鍵點:一是意識到技術或者規模并不是成功的充分條件。遺忘規模經濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務器才能提供搜索服務,但在大數據時代,由于云計算的便利性,不擁有實體服務器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數據分析。二是為了在大數據時代獲得勝利,大數據的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍色被谷歌選為搜索窗口的色彩,但藍色實際上有51種,而且這51種藍色人依靠裸眼無法明確區分,卻能在心理層面給人帶來不同的感受。經過大數據分析,谷歌發現原本由人工選出來的藍色會導致谷歌損失200億~300億美元的收入,因為這一種藍色并不最具備誘惑力,無法激起人們點擊的欲望。
大數據的力量需要具備大數據的思維模式,并有效利用大數據的工具去發掘。IBM杰出工程師、InfoSphere Stream高級開發經理James R Giles闡述了IBM對大數據的看法:“我們正一步步走到了一個新紀元——大數據時代。如同對待自然資源一樣,我們需要開掘、轉變、銷售、保護大數據資源;不同的是,大數據資源是無窮無盡的,我們不能任由大數據淹沒自己,而應該在獲得洞察需求的驅使下獲得價值。”
大數據的類型廣義而言有移動數據和靜態數據,還有結構性數據和非結構性數據,這對應著不同的處理方式。“技術人員的責任是,能夠去管理這些數據,能夠理解這些從不同的數據源而來、不同類型的數據,能夠分析這些數據,得出結論,讓其提供決策支持,為企業擁抱新的大數據時代提供技術支撐,以保證管理、安全、商業的持續性?!?James R Giles號召技術人員積極行動,以大數據的思維模式展現技術的價值和魅力。
找到內在聯系
技術的趨勢總是融合,也只有有機融合才能形成合力,發揮更大的威力,而實現這一合力的前提是明確各個趨勢之間的內在聯系。
“實際上,社交商務、移動、大數據、云計算是一體化的?!泵律ㄗh技術人員用一個全面的、融合的范式來沉著看待和應對紛繁的熱點技術,理解這些熱點會如何影響整個IT的走向,進而明晰IT如何可以很好地支持各行各業的業務轉型和創新,“讓每個行業都可以從新的技術轉型當中獲得足夠的原動力”。
從貼近最終用戶的角度來看,移動技術、社交技術改變了商業機構與其雇員、客戶進行互動的方式?!熬臀覀€人的經歷而言,航空公司的移動應用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應用服務很貼心,比如查詢航班信息、根據我的喜好預留位置、定制化地進行社交推薦等。”毛新生以一個普通消費者的感受證明了企業通過移動應用收集并利用用戶行為數據所帶來的服務質量的提升。
移動催生了“一種嶄新的服務交付端點”,即為用戶提供了更多樣化的服務體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業務服務,也為企業帶來了全新的服務交付渠道。移動這個渠道提供了更為豐富的全樣性數據,在此基礎上,大數據分析就更可信。“移動所具備的碎片化特點會帶來更大量的用戶行為信息。當把所有的人的行為結合在一起,就可以做群體的社會性分析。社會性分析會得到比較準確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會。”毛新生認為移動與大數據結合給企業提供了新的商業機會。
移動的設備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數據,這就是新的數據源,是它們引領我們來到維克托所描述的更為廣闊的大數據世界。
移動和社交商務的便捷性使得企業的整個業務流程變得非常自動化,用戶可以享受自助服務,對應到企業端就意味著業務流程對前端的需求要反應得更為迅速,也意味著各個業務系統之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務體驗,但跨部門和跨應用的整合實屬不易。進一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務可以作為補充,這即是“跨企業邊界”的行為。這種行為必然導致大規模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎。沒有云計算,移動前端的體驗、大數據分析的效果都會大打折扣?!霸频幕A設施使大規?;印⒋笠幠祿幚?、大規模應用可以更好地服務我們?!泵律赋觥?/p>
環境變化加速,競爭更加激烈,要求企業的反應速度越來越快,應用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應用和業務流程的設計、開發、部署、測試、維護的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發和運維結合起來,生命周期變得以天為周期,才能響應新的商業環境?!?/p>
“移動、云計算、大數據、社交商務之間的緊密聯系讓我們應該以整體的眼光來審視它們?!焙乐覉孕牛鼈兊慕M合可以創造可持續的競爭優勢,可以迸發變革的力量。
至于一個企業應該從哪里下手來實現這一幅宏偉藍圖?毛新生給出的答案是:“每一個企業,因為它所處的行業或者特定的情況而擁有不同的切入點,有一些企業需要從移動開始,有一些企業需要從云計算開始,有一些企業需要從大數據開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略?!?/p>
例如,銀行、保險、零售業這一類和最終消費者打交道的服務業在很大概率上需要先從移動、社交商務入手,從而使其有機會改善和用戶交互的過程。而以數據為生的行業會琢磨如何將自己的內容和資源數據增值,而傳統的運營基礎設施的重資產企業,會追求將資產數字化,得到數據并進行分析,以優化資產的生命周期管理來預防性地降低維護成本,這些企業是以大數據作為切入點的。還有一些企業希望跨行業整合進行業務創新,背后牽扯到它們自身現有的業務模式和新業務模式的整合,這種情況下需要以云的方式構建新的應用、服務、商業流程。
毛新生認為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數據,這些新的數據和原有的交易數據和積累的數據結合起來做進一步的數據分析,這就是大數據分析。大數據分析以后可以做社交推薦、關聯推薦了。隨后,能不能跨界再實現更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數據量增大,用戶數增多,云的基礎設施可以讓成本更合理?!八哉f,到最后都是綜合性的應用,盡管起點不一樣”,毛新生說。
對技術人員而言,IT就是交付業務流程的基礎,是信息化的工具。它的目標無非是優化業務流程或者創新業務流程。創新到達一定程度后,業務流程的量變會導致質變?!斑@就解釋了為何全球越來越多的CEO將技術視為驅動企業發展的首要因素?!?IBM軟件集團大中華區中間件集團總經理李紅焰強調,技術人員有能力,也有責任將“看不見的技術轉變為看得見的享受”。
移動開發的轉變
在大數據的帶領下我們進入移動時代,企業有了新機遇,技術人員卻有了新挑戰。為什么移動開發和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術人員腦子里最主要的兩個問題。
IBM杰出工程師及IBM移動平臺首席架構師Greg Truty解答了這兩個疑問。他認為,很多企業現在所做的事情與在移動的狀態下做的事情是不一樣的,移動狀態下的任務和規劃更具有戰略性。移動應用是在不穩定的網絡上運行的,所占用的資源更少。用戶在移動設備上和非移動設備上的體驗是完全不一樣的,他們會希望在不穩定的網絡上仍然能夠獲得良好的體驗。企業現在需要思考的是,怎么樣把大量數據、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發的特性也不一樣了。比如對一個企業來說,移動開發周期更短,有更多設備需要支持,有更多開發方法可供選擇,也有更多的工具和庫可供選擇,這時候企業就需要仔細斟酌,哪些開發方法和工具是自己需要的。
自然而然,對于設備的管理也有了變化,因為應用變化了?!耙恢币詠恚蛻舳朔掌鞯膽眉軜嬍瞧髽I在使用的。你需要協調在服務器端的服務以及在客戶端的服務,挑戰非常大。你不可能強迫客戶運行你的應用,而必須能協調和兼容原有的系統。這是非常關鍵的一點?!?Greg Truty強調了設備管理的重要性。
此外,產品種類也非常多,新應用層出不窮。Greg Truty 認為多而新的局面下更需要冷靜處理:“我們會把應用和數據結合起來,移動和社交網絡結合起來,這樣做會創造一些新的得到數據的機會,需要進行管理。新的機會、新的技術,給整個IT組織帶來了更多的挑戰。”
關鍵詞:大數據 Hadoop Spark Spark 流
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2015)09-0000-00
大數據遠不止大量的數據(TB)和處理大量數據的技術,它以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務[1]。然而面對龐大的數據來獲得有價值的信息是一個巨大的挑戰。為了克服上述困難,近幾年來推出了Hadoop、PureData和Exadata等多種大數據系統分析平臺,以Hadoop平臺最為突出,深受用戶的歡迎。但是隨著應用的不斷深入,Hadoop暴露出了它的局限性。主要體現在以下幾方面:第一,操作過于單一,僅支持Map和Reduce兩種操作;第二,迭代計算效率較低,尤其在機器學習和圖形計算方面[2]。 2013年底由Apache 軟件基金會提出的Spark框架技術較好地解決了這些問題。
1 Spark技術架構
1.1 Spark設計思想
Spark是一種基于HDFS的并行計算架構。主要思想是通過一種新的作業和數據容錯方式來減少磁盤和網絡的I/O開銷 其核心技術是彈性分布式數據集(RDD),是指在一組存儲計算機中的只讀數據集合,這個數據集合可以在分區對象丟失后進行重建[5]。也就是說RDD的元素不一定需要存儲在物理介質中,相反,一個RDD的處理進程包含了如何從可靠的數據存儲中去獲取足夠的信息來對這個RDD進行處理。如果RDDS的任務節點失敗,總可以進行重建[3]。
1.2 Spark系統架構
與MapReduce不同,Spark并不僅僅局限于編寫map和reduce兩個方法,它為用戶提供了更為強大的內存計算模型,使得用戶可以通過編程將數據讀取到集群的內存當中,這樣可以快速在內存中對數據集進行多次迭代,支持復雜的數據挖掘算法和圖計算算法使用Scala語言開發,以Mesos作為底層的調度框架,可以和 Hadoop和Ec2緊密集成,直接讀取HDFS或S3的文件進行計算并把結果寫回HDFS或S3,是Hadoop和Amazon云計算生態圈的一部分,項目的core部分代碼只有63個Scala文件,執行效率高效。Spark主要由四個模塊組成:Spark SQL、MLlib、Spark 流和GraphX。Spark SQL為了兼容主流關系型數據庫系統(RDBMS)可以允許用戶編寫SQL和HQL兩種腳本執行查詢,其核心組件是JavaSchemaRDD,它是一個類似于RDBMS的一個Table,由Row和Schema對象來描述Table中行對象和列的DataType。
2 Spark運行模式
2.1 Spark任務調度方式
Spark的運行模式有多種,主要由SparkContext的MASTER環境變量所獲得的值來決定,有些模式還需要程序接口來配合輔助決定。但概括起來,Spark運行都以Spark-Context為總調度驅動程序,負責應用程序的資源分配,期間分別創建作業調度和任務調度兩級模塊。作業調度模塊是基于階段的高層調度模塊,每個Spark 作業計算通常有多個階段,每個階段分解為一組任務集,以任務組的形式提交給底層任務調度模塊來具體執行實際計算任務,任務調度模塊負責啟動實際任務,監控和匯報任務運行情況。如果分配任務成功,SparkContext會將應用程序代碼給指定的執行者完成一個或多個任務[4]。
2.2 Spark運行模式類型
Spark的運行模式,歸納起來有六種。
(1)Local[M]。該模式使用 LocalBackend 調用TaskSchedulerImpl 實現。LocalBackend 響應Scheduler的receiveOffers請求,根據可用CPU Core的設定值[M]直接生成WorkerOffer資源返回給Scheduler,并通過Executor類在線程池中依次啟動和運行Scheduler返回的任務列表。
(2)Standalone。該模式使用SparkDeploySchedulerBackend調用TaskSchedulerImpl來實現 ,而SparkDeploySchedulerBackend同時繼承了CoarseGrainedSchedulerBackend。是一個在Akka Actor上實現的粗粒度的資源調度類,在整個Spark Job運行期間,監聽和擁有注冊給它的Executor資源,比如接受Executor注冊,狀態更新,響應Scheduler請求等,并且根據現有Executor資源發起任務流程調度。
(3)Local-cluster。偽分布模式實際上是在Standalone模式上實現的,也就是在SparkContext初始化的過程中在本地啟動一個單機的偽分布Spark集群,后面的執行流程與Standalone模式相同。
(4)Mesos。該模式主要根據顆粒度大小來區分,粗粒度的CoarseMesosSchedulerBackend繼承了CoarseGrained SchedulerBackend,相對于父類額外做的工作還要實現MScheduler接口,注冊到Mesos資源調度的框架中,用于接收Mesos的資源分配,在得到資源后通過Mesos框架遠程啟動CoarseGrainedExecutorBackend,以后的任務交互過程和Spark standalone模式一樣,由DriverActor和Executor Actor直接完成。 細粒度的MesosSchedulerBackend直接繼承SchedulerBackend,但同樣實現了MScheduler接口,完成Mesos資源調度框架中的注冊,接收Mesos的資源分配。不同之處是在接收資源分配以后,MesosSchedulerBackend啟動的是遠程Executor,通過在遠程執行命令來啟動MesosExecutorBackend,直接執行對應的任務。
(5)Yarn-standalone。Yarn-Standalone模式相對其它模式有些特殊,需要外部程序輔助啟動應用程序。Client通過Yarn Client API在Hadoop集群上啟動一個Spark App Master,Spark App Master首先為自己注冊一個Yarn App Master,再啟動用戶程序,然后根據Client傳遞過來的參數,Spark App Master通過Yarn RM/NM接口在集群中啟動多個Container運行CoarseGrainedExecutorBackend往CoarseGrainedSchedulerBackend注冊。后面的任務調度流程跟其它Cluster模式類似,不再述說。
(6)Yarn-client。該模式的SparkContext運行在本地,適用于應用程序本身需要在本地交互的情景。這種模式下SparkContext在初始化時首先啟動YarnClientSchedulerBackend,然后再調用客戶端包遠程啟動一個作業作為Spark的App Master,相對于Yarn-standalone模式,此模式不再負責啟動用戶程序,而只是啟動Backend便于跟客戶端本地Driver進行數據傳遞,后面的任務調度流程跟其它模式類似。
3 Spark應用現狀及發展
目前SPARK已經構建了自己的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面的技術,并且是Apache頂級項目。雖然Spark對內存要求較高,推出時間較短未經過實踐考驗,但伴隨著大數據相關技術和產業的逐步成熟,繼Hadoop之后,Spark技術以集大成的無可比擬的優勢,發展迅速,將成為替代Hadoop的下一代云計算、大數據核心技術??梢灶A計2015年下半年在社區和商業應用上會有爆發式的增長。
參考文獻
[1] K. Shvachko, K. Hairong, S. Radia e R. Chansler. The Hadoop Distributed File System[C]. IEEE 26th Symposium on Mass Storage Systems and Technologies, 2010.
[2] Spark: Lighting-fast cluster computing[EB/OL]. http:///.
[3] M. Hirzel, H. Andrade, B. Gedik, et al. IBM Streams Processing Language: Analyzing Big Data in motion[J]. IBM Journal of Research and Development.2013,57(7):1-7.
[4] T. Chardonnens, P. Cudre-Mauroux, M. Grund ,et al.Big data analytics on high Velocity streams: A case study[C]. IEEE International Conference on Big Data, 2013.
關鍵詞:大數據;智能交通;數據技術
隨著國民經濟的不斷發展,人們生活水平的不斷提高,居民購買汽車能力加強。我國的汽車保有量隨之增加,在一些大城市機動車擁有量以超過10%的速度加速,機動車成為每個家庭代步的交通工具,在有限的交通資源配置下,機動車的增加縮短了道路使用周期,城市主干道路超負荷使用,違法停車致使道路不能合理使用、行車不文明、乘車環境不良等現象有增無減。大數據時代,如何改善當前的交通狀況是本文闡述的核心內容。文章從以下幾個方面來闡述:大數據的現狀、大數據的概述、大數據的應用、智能交通的需求、智能交通體系的建立、數據技術。
1 大數據的現狀
據權威數據顯示,大數據應用在我國還處在起步階段。但在未來三年,通信、金融領域將在大數據市場突破100億元。市場規模在2012年有望達到4.7億元,到2013年增至11.2億元,增長率高達138%,2014年,保持了與2013年基本持平的增速,增長率為114.38%,市場規模達到24.1億元,未來三年內有望突破150億元,2016年有望達到180億規模。自從2014年以來,各界對大數據的誕生都備加關注,已滲透到各個領域:交通行業、醫療行業、生物技術、零售行業、電商、農牧業、個人位置服務等行業,由此也正在不斷涌現大數據的新產品、新技術、新服務。
大數據行業“十三五”規劃主要目標:在2020年,將大數據打造成為國民經濟新興支柱產業并在社會各領域廣泛應用,推動我國大數據產業穩步快速發展,基本健全大數據產業體系,推動制定一批相關大數據的國標、行標和地方標準,引進具備大數據條件的企業,建設大數據產業孵化基地,提高全國信息化總體水平,以躋身世界先進水平。
2 大數據的概述
2.1 大數據定義
大數據即巨量數據集合,目前還沒有一個統一的定義。大數據的概念最早是由全球著名的管理咨詢公司麥肯錫提出,2011年Mckinsey研究稱,大數據通常是指信息爆炸時代產生的海量數據,在各個行業和業務領域,數據已經滲透到行業中并逐漸成為重要的要素,人們能夠從海量數據中挖掘出有用的數據并加以應用。對大數據定義的另一說法是利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集。
隨著信息時代的高速發展,大數據已經成為社會生產力發展的又一推動力。大數據被稱為是繼云計算、物聯網之后信息時代的又一大顛覆性的技術革命。大數據的數據量巨大,一般10TB規模左右,但在實際應用中,多個數據集放在一起,已經形成了PB級的數據量,甚至EB、ZB、TB的數據量。
2.2 大數據的特點
2.2.1 數據量巨大
數據量級別從TB級別躍升到PB級別。隨著可穿戴設備、物聯網和云計算、云存儲等技術的發展,用戶的每一個動作都可以被記錄,由此每天產生大量的數據信息。據有關人士估算:1986~2007年,全球數據的存儲能力每年提高23%,雙向通信能力每年提高28%,通用計算能力每年提高58%;2007年,人類大約存儲了超過300EB
的數據;到2013年,世界上存儲的數據能達到約1.2ZB。
2.2.2 數據類型多樣化
即數據類型繁多,產生了海量的新數據集,新數據集可以是關系數據庫和數據倉庫數據這樣的結構化數據到半結構化數據和無結構數據,從靜態的數據庫到動態的數據流,從簡單的數據對象到時間數據、生物序列數據、傳感器數據、空間數據、超文本數據、多媒體數據、軟件程序代碼、Web數據和社會網絡數據[1]。各種數據集不僅產生于組織內部運作的各個環節,也來自于組織外部。
2.2.3 數據的時效性高
所謂的數據時效性高指以實時數據處理、實時結果導向為特征的解決方案,數據的傳輸速度、響應、反應的速度不斷加快。數據時效性為了去偽存真,采用非結構化數據剔除數據中無用的信息,而當前未有真正的解決方法,只能是人工承擔其中的智能部分。有些專員負責數據分析問題并提出分析后的解決方案。
2.2.4 數據真實性低
即數據的質量。數據的高質量是大數據時代重要的關注點。但在生活中,“臟數據”無處不在,例如,一些低劣的偽冒產品被推上市場,由于營銷手段的成功,加之其他因素的影響導致評分很高。但是這并不是真實的數據,如果對數據不加分析和鑒別而直接使用,即使計算的結果精度高,結果都是無意義的,因為數據本身就存在問題出現。
2.2.5 價值密度低
指隨著物聯網的廣泛應用,信息巨大,信息感知存在于客觀事物中,有很多不相關的信息。由于數據采集的不及時,數據樣本不全面,數據可能不連續等等,數據可能會失真,但當數據量達到一定規模,可以通過更多的數據達到更真實全面的反饋。
2.3 大數據的應用
2.3.1 醫療大數據
利用大數據平臺收集患者原先就醫的病例和治療方案,根據患者的體征,建立疾病數據庫并對患者的病例分類數據庫。一旦患者在哪個醫院就醫,憑著醫??ɑ蚓驮\卡,醫生就可以從疾病數據庫中參考病人的疾病特征、所做的檢查報告結果快速幫助患者確診。同時擁有的數據也有利于醫藥行業開發出更符合治療疾病的醫療器械和藥物的研發。
2.3.2 傳統農牧業大數據
因為傳統農牧業主要依賴于天氣、土壤、空氣質量等客觀因素,因此利用大數據可以收集客觀因素的數據以及作物成熟度,甚至是設備和勞動力的成本及可用性方面的實時數據,能夠幫助農民選擇正確的播種時間、施肥和收割作物的決策。當農民遇到技術市場問題可以請教專業人員,專業人員根據實時數據做出科學的指導,制定合理的優化決策,降低農民的損失成本,提高產品的產量,從而為轉向規?;洜I打下良好基礎。
2.3.3 輿情大數據
利用大數據技術收集民眾訴求的數據,降低社會,有利管理犯罪行為。通過大數據收集在微博的尋找走失的親人或提供可能被拐賣人口的信息,來幫助別人。
3 智能交通的需求
隨著城市一體化的快速發展,新時代農民工涌入大城市,促使城市人口的增大不斷給城市交通帶來問題。究其原因主要有:一是機動車的迅猛發展導致城市主次干道的流量趨于飽和,大量機動車的通行和停放占據主干道路。二是城市交通的道路基礎設施供給不平衡導致路網承擔能力差。三是停車泊位數量不足導致機動車使用者不得不過多依賴道路停車。四是公共設施的公交車分擔率不高導致交通運輸效率降低。五是城市的土地開發利用與道路交通發展不均衡。六是行人和機動車主素質不文明導致道路通行效率降低。為此,智能交通的出現是改善當前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問題。
大數據是如何在智能交通的應用呢?可以從兩個方面說明:一是對交通運行數據的收集。由于每天道路的通行機動車較多,能夠產生較大的數據,數據的采集并發數高,利用大數據使機動車主更好的了解公路上的通行密度,有效合理對道路進行規劃,可規定個別道路為單行線。其二是可以利用大數據來實現主干道根據道路的運行狀況即時調度信號燈,提高已有線路運行能力,可以保障交通參與者的生命和提高有關部門的工作效率,降低成本。對于機動車主可以根據大數據隨時的了解當前的交通狀況和停車位數量。如果交通擁堵,車主則可選擇另一路線,節約了車主的大量時間。
4 智能交通體系的建立
4.1 智能交通建立的框架
主要包括感知數據層、軟件應用平臺及分析預測和優化管理的應用。物理感知層主要是采集交通的運行狀況和對交通數據的及時感知;軟件應用平臺主要整合每個感知終端的信息、將信息進行轉換和處理,達到支撐分析并做出及時的預警措施。比如:對主要交通干進行規劃,對頻發交通事故進行監控。同時還應進行應用系統建設的優化管理。比如:對機動車進行智能誘導、智能停車。
智能交通系統需要在各道路主干道上安裝高清攝像頭,采用先進的視頻監控、智能識別和信息技術手段,來增加可管理的維度,從空間的廣度、時間的深度、范圍的精細度來管理。整個系統的組成包括信息綜合應用平臺、信號控制系統、視頻監控系統、智能卡口系統、電子警察系統、信息采集系統、信息系統。每個城市建立智能交通并進行聯網,則會產生越來越多的視頻監控數據、卡口電警數據、路況信息、管控信息、營運信息、GPS定位信息、射頻識別信息等數據,每天產生的數據量將可以達到PB級別,并且呈現指數級的增長。
4.2 智能交通數據處理體系的構成
主要包括交通的數據輸入、車輛信息、道路承載能力等的數據處理、數據存儲、數據檢索。其中交通數據輸入可以是靜態數據或者是動態數據。數據處理是針對實時數據的處理。數據主要存儲的是每天采集的巨大數據量。為了從中獲取有用的數據,則需要進行數據查詢和檢索,還要對數據進行規劃。
5 大數據技術
5.1 數據采集與預處理
數據采集與預處理主要對交通領域全業態數據的立體采集與處理來支撐交通建設、管理、運行決策。采集的數據主要是車輛的實時通行數據,以實現實時監控、事先預測、及時預警,完成道路網流量的調配、控。這些數據獲取可以采用安裝的傳感器、識別技術并完成對已接收數據的辨析、轉換、抽取、清洗等操作。
5.2 數據存儲與管理
大數據的存儲與管理是把采集到的數據存放在存儲器,并建立相應的數據庫,如關系數據庫、Not Only SQL即對關系型SQL數據系統的補充。利用數據庫采用更簡單的數據模型,并將元數據與應用數據分離,從而實現管理和調用。
5.3 數據分析與挖掘
數據分析及挖掘技術是大數據的核心技術。從海量數據中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識的過程。從復雜數據類型中挖掘,如文本、圖片、視頻、音頻。該技術主要從數據中自動地抽取模式、關聯、變化、異常和有意義的結構,可以預測模型、機器學習、建模仿真。從而實現一些高級別數據分析的需求。
5.4 數據展現與應用
數據技術能夠將每天所產生的大量數據從中挖掘出有用的數據,應用到各個領域有需要的地方以提高運行效率。
6 結束語
大數據時代,能對智能交通信息資源進行優化配置,能夠改善傳統的交通問題。對非機動車主而言,利用大數據可以更好的規劃線路,更好的了解交通狀況,在一定程度上可以對問題預先提出解決方案,起到節省大量時間、額外的開支。同時對交管部門而言,能夠在限的警力情況下合理配置人員資源和交通設備,主干道路在高峰期出現的問題能夠合理利用大數據信息配置資源,在刑事案件偵查中也能發揮更重要的作用。
全國要實現智能交通的聯網,依然有問題需要突破,這都是大數據的數據技術應用所在。
關鍵詞:煙草;數據中心;大數據;Hadoop;Impala
1.大數據技術現狀
當前許多企業都已基本實現了信息化建設,企業積累了海量數據。同時企業間的競爭日益加劇,企業為了生存及發展需要保證自身能夠更加準確、快速和個性化地為客戶提品及服務。而大數據技術能夠從海量的數據中獲取傳統數據分析手段無法獲知的價值和模式,幫助企業更加迅速、科學、準確地進行決策和預測。
1.1大數據技術現狀
廣大企業的迫切需求反之也促進了大數據技術的飛速發展,涌現出了諸如Hadoop、Spark等實用的架構平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構支持大規模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數據處理。通過使用專門為分布式計算設計的文件系統HDFS,計算的時候只需要將計算代碼推送到存儲節點上,即可在存儲節點上完成數據本地化計算。因此,Hadoop實現了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數據處理。
1.2大數據技術對煙草數據中心建設的影響
當前,煙草企業基于多年的信息化建設已經積累了海量數據,同時每天還不斷有新的各種數據產生。在高并發、大體量的情況下,需要在數據采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數據技術。同時,除了購進單、卷煙交易數據、貨源投放數據等結構化數據外,還產生越來越多的非結構化數據,利用大數據技術,對非結構化數據進行預處理,可為人工判斷和機器學縮減范圍。對海量數據以及非結構化的信息進行分析統計,僅僅依靠傳統的技術手段很難實現,只有引入大數據技術才能充分的將所有的數據資源利用起來,成為企業決策的助力。
2.江蘇煙草數據中心應用現狀
2.1江蘇煙草數據中心體系架構
目前江蘇煙草數據中心以一體化數據中心、一體化數據管理和一體化數據分析三個部分為核心,構建了一套完整的數據中心架構。一體化數據中心是整個數據中心最核心的部分。通過數據倉庫模型、數據存儲、ETL工具等組成部分,構建了業務數據的收集、加工、存儲、分發的總體架構。建立了按ODS(SODS、UODS)、DW、DM三層結構設計建設的數據倉庫。一體化數據管理通過主數據管理、信息代碼管理、ESB平臺構建了企業主數據收集、標準化、同步分發過程。結合指標管理,全面管控企業的公用基礎信息。通過數據質量管理,全面有效管控數據質量。通過數據服務管理,有效提升數據中心的對外服務能力與水平。通過元數據管理來管理數據中心元數據。一體化數據分析通過構建移動信息、業務分析、數據挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發揮數據中心的數據、技術、平臺優勢。通過移動信息模塊為各級領導提供決策支持;通過業務分析模塊為業務人員的日常工作提供支撐;通過數據挖掘模塊,發掘數據所蘊含的隱性價值?;谏鲜鲆徽准軜嫷闹?,目前數據中心構建了全省范圍的數據集成、交換體系,一方面提升了全省基礎數據、業務數據的規范化程度和數據質量,另一方面為在建業務系統的實施、已有系統的改造提供了標準化的高質量數據保障。
2.2大數據技術的應用場景分析
隨著江蘇數據中心的不斷運行,一些基于傳統技術架構的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數據量數據的查詢需求?;趥鹘y技術架構的查詢功能響應較慢;二是分析支持靈活性的不足。傳統統計分析應用的數據結構大多是預先定義好的,面對靈活的非傳統的統計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數據中心結合互聯網大數據技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數據的自定義數據查詢平臺,以補充基于傳統技術架構的功能不足,并為未來進一步發展建設基于大數據技術和云環境的數據中心做好準備。
3.基于大數據的自定義數據查詢平臺實現
3.1設計思路及架構
基于大數據的自定義數據查詢平臺是在現有數據中心的建設成果之上,以數據中心的數據存儲為基礎,以Hadoop、Hive、Impala等大數據技術工具為手段,以簡單靈活、快速高效的查詢展現為目標,建立的數據查詢分析支持平臺。
3.2技術方案
自定義數據查詢平臺的建設主要涉及數據存儲架構、后臺數據加工準備、前端展現三塊內容。自定義數據查詢平臺的數據存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數據存儲,另一部分則是查詢所需的各種統計數據的存儲。元數據的存儲根據元數據庫的不同主要分為兩部分。第一部分為基于Mysql數據庫的元數據存儲。這部分元數據主要包括有ETL工具KETTLE的元數據,以及前端自定義查詢需要定義的權限、數據源、表、列和表列關系等信息。第二部分為基于Hive的元數據存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數據。統計數據的存儲則是使用Hadoop的HDFS實現的。根據Hadoop平臺架構,自定義數據查詢平臺的HDFS建立在6臺虛擬主機構建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節點,另一臺為備份節點;其余4臺虛擬主機都作為DataNode用于存儲數據。所有數據將會統一分塊自動分配存儲到4個DataNode上。自定義數據查詢平臺的數據加工,是通過開源ETL工具KETTLE實現的。通過KETTLE從數據中心現有數據倉庫及數據集市中讀取需要的數據,根據自定義數據查詢平臺的數據模型定義對數據進行處理,最終加載到Hadoop的HDFS文件系統中。自定義數據查詢平臺的前端展現功能,主要是基于JSP技術實現頁面開發,通過JDBC或者ODBC對后臺Mysql數據庫進行訪問。使用者在查詢頁面中組織定義查詢的內容,查詢服務自動根據獲取的元數據信息將定義的查詢內容拼接轉換成為查詢SQL,之后通過Impala執行查詢SQL對HDFS文件系統中的統計數據進行查詢。
3.3系統實現效果
利用大數據技術,自定義數據查詢平臺較好地解決了目前數據中心所面對的問題,滿足了使用人員對于大數據量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數據查詢平臺通過預先梳理、分類定義各種維度以及統計指標。使用者可以自由的根據實際需求選擇分析所需的維度及統計指標,同時還可以基于這些基礎的內容更進一步自定義過濾條件以及計算公式,并指定其展現形式。在大數據量查詢效率方面,自定義查詢平臺相比傳統架構的查詢功能有了較大提升。
4.結束語
大數據技術的發展方興未艾,應用前景無比廣闊,對各行各業的巨大作用正在逐步展現。江蘇煙草數據中心的建設既要看到大數據技術未來的前景,更需要明確地認識到大數據平臺的建設并非一朝一夕,需要有明確而長遠的規劃,不斷完善數據環境建設、云計算環境的構建以及數據服務的擴展。
參考文獻
[1]陳鵬.大數據時代下的信息安全問題研究[J].電子制,2015,18:48
[2]劉憶魯,劉長銀,侯艷權.大數據時代下的信息安全問題論述[J].信息通信.2016,181-182