【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...
大數據時代的數據挖掘
—— 從應用的角度看大數據挖掘(下)
李 濤1,2,曾春秋1,2,周武柏1,2,周綺鳳3,鄭 理1,2
1. 南京郵電大學計算機學院 南京 210023;2. 美國佛羅里達國際大學 邁阿密 33199;
3. 廈門大學自動化系 廈門 361005
5 FIU-Miner應用實例二:空間數據挖掘
FIU-Miner 已被成功應用于TerraFlyGeocloud[11],支持多種在線空間數據分析的平臺。
5.1 空間數據挖掘
隨著衛星科技的發展及移動設備的普及,獲取一個對象實時完整的空間信息變得越來越容易。為了能夠從中實時性地獲取有用信息,需要有效的方法進行空間數據挖掘。空間數據挖掘是從大型空間數據庫里發現有趣的、不知道的但非常有價值的模式的一個過程。但由于空間數據類型和空間關系的復雜性,從空間數據庫里挖掘有趣和有價值的模式比從傳統數據庫里挖掘難度更大。
5.2 TerraFlyGeocloud介紹
空間數據挖掘可以應用在很多領域, 包括水資源管理、交通管理、災難管理、犯罪分析、疾病分析和房地產等。一個典型的空間挖掘系統應支持以下功能:在線的空間數據分析、空間數據可視化和空間數據查詢。這里,介紹一個具體的空間數據挖掘系統:美國佛羅里達國際大學(FIU) 計算機學院的高性能數據研究中心實驗室開發的TerraFlyGeoCloud 系統。TerraFlyGeoCloud是建立在TerraFly系統之上的、支持多種在線空間數據分析的一個平臺。圖8和圖9分別給出了TerraFlyGeoCloud 的系統界面和工作流程。
圖8 TerraFlyGeoCloud 系統界面
圖9 分析工作流程
為了方便使用,TerraFlyGeoCloud 還提供了一種支持類SQL語句的空間數據查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據用戶的不同要求,渲染和畫圖查詢得到空間數據,比如學校周邊一定距離內所有的開放住宅、離某條公路一定距離內所有的賓館、特定地區的交通情況及不同郵政區域的平均收入情況等。MapQL的實現如圖10(a)所示,其中MapQL語句是整個過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。
下面簡要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規則,不出現關鍵字拼寫錯誤;第二步語義檢查,確保MapQL 將要訪問的數據是正確并存在的。接下來,系統會進行語句解析并把包含樣式信息的解析結果存入空間數據庫中。樣式信息包括“渲染什么”及“在哪渲染”。當所有的樣式信息保存入庫時, 系統就會為接下來的渲染創建樣式配置對象。最后,從空間數據庫里加載樣式信息,并根據樣式信息為每個對象進行渲染。比如想查詢佛羅里達國際大學周圍的房價,可通過如圖10(b)的MapQL語句查詢,結果如圖10(c)。
圖10 MapQL的實現、語句查詢及可視化地圖
MapQL提供了一個比地理信息系統應用程序編程接口(API)更友好的界面,使得開發人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時能夠靈活地創建自己的地圖。
除了支持地理信息系統的各種應用外,TerraFly平臺還有豐富的GIS數據集, 包括美國和加拿大的道路數據、美國人口普查和社會經濟數據、1 500萬企業的統計和管理記錄、200萬專業醫生的數據、各種公共場所的數據集和全球環境數據等, 用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數據集。
5.3 TerraFlyGeocloud使用難點
通過對TerraFlyGeoCloud的進一步使用和研究,發現了如下幾個問題。這些問題非常典型,普遍存在于這類空間數據挖掘系統中。
(1)寫MapQL查詢語句的難度。雖然大多數開發人員熟悉SQL語句,可以很快地寫MapQL查詢。但對不熟悉SQL的用戶而言,學習MapQL還是比較困難的。所以, 對絕大多數用戶而言,利用MapQL來完成空間分析任務仍然比較困難。
(2)空間分析任務的復雜性。一個典型的空間分析任務往往涉及幾個子任務。此外,這些子任務之間并不是完全獨立的。其中一些子任務的輸出往往是其他子任務的輸入。根據這種依賴關系,一個空間數據分析任務可以自然地表示為一個工作流。但構造和管理這樣一個復雜的工作流程是空間數據分析的一個難點。
(3)順序執行空間數據分析的工作流的效率往往很低。盡管一個工作流中的子任務并不是互相依賴,但這些子任務只能由最終用戶來順序執行。這種順序執行的方式沒有充分利用分布式計算環境來并行執行獨立的子任務和優化系統性能。
這3個問題給空間數據挖掘系統帶來了很大的局限,限制了用戶對系統的有效使用。將FIU-Miner 與TerraFlyGeocloud結合來解決這些問題。首先,根據序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢日志中發現順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構建空間數據分析任務的工作流。最后使用FIU-Miner來最大化子任務的并行執行, 優化工作流的執行效率。
TerraFlyGeocloud+FIU-Miner系統架構如圖11所示。主要有4層:用戶界面層、地理空間服務層、計算服務層和空間數據存儲和管理層。其中,從MapQL的查詢日志中挖掘查詢模式是一個關鍵的步驟,這個步驟發生在地理空間服務層。挖掘出的順序查詢模式可以用來產生查詢模板和構造空間分析的工作流。序列模式里面的每個查詢對應于工作流里面的一個子任務。FIU-Miner在計算服務層,主要負責工作流的構建、管理、調度和執行。
圖11 TerraFlyGeocloud+FIU-Miner 系統架構
5.4 應用實例
利用FIU-Miner,系統可以通過構建空間數據分析的工作流來優化分析流程, 提高分析效率。下面通過一個詳細的房產投資案例來展示[12]。
房產投資案例的目的是要尋找具有良好升值潛力的房產。如果一棟房產本身價值很低,但它周圍的房產卻相對來說比其高,那么對此房產進行投資將是一個非常不錯的選擇。根據歷史查詢數據,通過序列模式挖掘,發現這個任務一般有下面幾個步驟:
● 計算不同地區的平均價格,比較鄰近地區的價格,確定感興趣的地區;
● 對感興趣的地區進行空間自相關分析,確定候選地區;
● 驗證候選地區罪案率和平均收入, 確定選擇結果;
● 在地圖上對結果進行可視化。
這個任務的工作流如圖12所示。工作流里面所有的子任務都是由FIU-Miner來調度并在分布式環境中執行的。
圖12 房產投資案例的工作流程
5.5 應用亮點評述
上述實際案例中,將FIU-Miner應用于空間數據挖掘,解決了空間數據挖掘中寫MapQL查詢語句困難、空間分析任務復雜性高及順序執行空間數據分析工作流效率低這3個主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢日志中發現順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構建空間數據分析任務的工作流。最后使用FIU-Miner強大的分布式處理能力,提高工作流的執行效率。
基于FIU-Miner的TerraFlyGeoCloud 在線空間數據挖掘系統,已成功應用于地理(如國土邊界、水位圖等)、自然(颶風數據分析)、經濟(如房產價格分析、人均收入等數據分析)、醫療(肝癌、關節炎等疾病數據分析)、社會(犯罪數據聚類等分析)等眾多領域,受到政府、企業、研究機構及個人的極大重視。
6 FIU-Miner應用實例三:庫存管理數據挖掘
FIU-Miner作為庫存管理數據挖掘平臺已被成功應用于企業,成為商務智能數據挖掘應用中一個典范[13]。
6.1 庫存管理數據挖掘任務
庫存管理是指對制造業或服務業生產、經營全過程的各種物品、產品以及其他資源進行管理和控制,使其儲備保持在經濟合理的水平上。高效、可靠的庫存管理可以為制定合理的貨物安全庫存量和訂貨量提供可靠的依據,提高企業管理人員的決策質量,從而減小資金的占用和缺貨損失,提高企業的經濟效益。當今的零售業, 供應商往往需要給不同的地區存儲大量的貨物,且交易活動復雜頻繁,必須提前合理規劃好庫存方案。現有的庫存管理系統(如InFlow和Inventoria)僅僅應用傳統的統計分析方法分析現存的庫存數據,對當前的庫存信息分布進行跟蹤監控。進行庫存決策時僅考慮單一算法模型,而無法根據綜合分析歷史數據和市場的實際狀況快速做出正確決策方案。因此,如何利用大數據挖掘技術開發智能庫存管理平臺, 實現高效可靠的庫存預測、庫存異常檢測及庫齡分析等任務,成為當前大型零售企業亟需解決的問題。
6.2 庫存管理數據挖掘挑戰
隨著庫存管理數據日益龐大,庫存管理系統處理問題的難度也在不斷攀升。以國內某大型電子消費產品制造企業的兩大類電視產品(液晶和等離子)交易為例,其庫存管理數據挖掘面臨的主要挑戰如下。
(1)交易記錄繁多:現代大型零售企業業務規模龐大,產生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數據。
(2)屬性關系復雜:庫存數據屬性繁多,記錄中包含種類眾多的屬性,有將近200個;數據層次繁多,在不同數據維度上,記錄可屬于不同的層次;庫存數據和屬性相關性復雜等。
(3)處理速度緩慢:現有數據分析工具大多基于內存,無法加載龐大數據集, 對數據輸入格式要求嚴格,適用性不強, 運行速度慢,無法響應大數據的要求。
因此,現代庫存管理需要采用大數據挖掘技術開發高效、可靠、能處理大規模數據的智能庫存管理系統。
6.3 具體例子
筆者的研究團隊開發了基于FIU-Miner 的智能庫存管理系統iMiner[13],該系統為智能庫存管理定制了專門的數據挖掘算法,實現了多個功能模塊,開發了大規模的數據分析平臺系統。
6.3.1 系統概況
圖13展示了iMiner系統整體框架、各功能層次和模塊。系統自底向上分為物理資源層、任務和系統管理層、數據分析層、用戶界面層。該系統分析平臺建立在支持高效數據分析的分布式系統——FIU-Miner中。這一分析平臺可提供高效率的數據分析處理工作流,并且可以有效地集成多種數據分析工具和語言,如R、Weka、Python、Hadoop等。數據分析層包括了數據預處理和各類數據挖掘算法,其中關鍵因素提取算法有助于提取對入庫/出庫量產生較大影響的因素或者對物料異常情況有決定性影響的因素;分布式K 近鄰算法有助于查找入庫/出庫行為相似的物料;分布式回歸分析有助于對大盤及具體物料的入庫/出庫量進行有效預測。
圖13 iMiner系統架構
系統主要聚焦于庫存預測、庫存異常檢測、庫齡挖掘三大核心功能,通過綜合評價和集成各種算法的輸出使得分析結果更加穩定和準確。用戶界面層囊括了多種庫存分析結果的展示,用戶可以通過屬性選擇來查看不同的分析結果,也可以通過對個別參數的修改來更新分析結果,實現實時的人機互動。展示結果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數據整體分布、趨勢和關鍵信息點。
6.3.2 系統功能模塊
iMiner主要包含庫存預測(inventory forecasting)、庫存異常檢測(inventory anomaly detection)及庫齡分析(inventory aging analysis)三大功能模塊,如圖14所示。
圖14 iMiner主要功能模塊
(1)庫存預測
庫存管理中,精確和可信的庫存預測是關鍵。高效、可靠的預測可以大大減少庫存負荷,降低額外的貨物維護和損耗。庫存數據為標準的時序數據,數據量大、時間跨度長、涵蓋面廣、規律性差。iMiner 采用一種動態預測模型,首先根據歷史數據對出庫的基數進行預測,而后結合出庫數據的長期趨勢、周期性因素及事件性因素對基數進行動態調整,從而得到最終的預測結果。
(2)庫存異常檢測
對庫存指標進行監控而達到異常檢測的目的,是庫存管理中不可或缺的部分。iMiner提供了多種庫存指標的實時監控(如庫存周轉率、庫存周轉天數、存銷比、周轉提升率、庫存資金周轉率)和不同粒度下的指標查詢(如按時間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時, 系統從庫存數據多個角度入手,及時、準確地發現庫存的波動;采用相關物料的協同異常判定,使得對于異常結果的判定更有意義,系統還能夠同時準確判定整體性指標變化和個別指標異常。
(3)庫齡分析
庫齡挖掘是為了防止貨物積壓,提前發現潛在積壓貨物,減小貨物積壓投資。iMiner系統利用統計回歸模型實現庫齡分析,并提供了庫齡分析的基本工具和高級工具。基本工具允許用戶可視化分析給定貨物的庫齡分布,比較不同貨物中當前的和歷史的庫齡變化,高級工具能夠幫助用戶找到與積壓相關的貨物屬性。iMiner系統中,庫齡挖掘主要包含了庫齡相關分類和標準、庫齡計算、庫齡金額計算以及安全庫存的計算等功能模塊。
6.4 應用亮點評述
iMiner是一種新的智能庫存管理系統,該系統能夠幫助大型供應商實現高效的庫存管理,著力解決大數據時代現有庫存管理面臨的兩大關鍵問題。
(1)大規模庫存數據分析
iMiner系統分析平臺建立在支持高效數據分析的分布式系統——FIU-Miner中。這一分析平臺是在分布式環境中管理所有的交易數據,因此,iMiner能夠自動配置和執行大規模庫存數據預處理和數據分析任務。
(2)復雜庫存任務管理
iMiner結合多種先進的數據挖掘算法來分析庫存數據。在實踐中,系統采用多種回歸模型,結合時間序列分析方法來實現庫存預測;運用情境感知異常檢測算法來識別異常貨物;利用統計回歸模型來進行庫齡分析。從而實現高效、準確的復雜庫存任務管理。
基于FIU-Miner的iMiner商務智能庫存管理平臺已經應用于企業,成功解決了產品出庫預測、指標異常檢查、庫齡挖掘等對企業產品生產和經濟效益有重要影響的實際問題。
7 結束語
大數據的復雜特征對數據挖掘在理論和算法研究方面提出了新的要求和挑戰。大數據是現象,核心是挖掘數據中蘊含的潛在信息,并使它們發揮價值。數據挖掘是理論技術和實際應用的完美結合。
本文通過目前業界對大數據的理解和認識,結合筆者及其研究團隊多年來對大數據挖掘的深入理論研究及廣泛的應用研究,綜合凝練出大數據的核心架構, 即大數據挖掘的本質是應用、算法、數據和平臺4個要素的有機結合。在此架構下, 從應用的角度重點介紹了研究團隊開發的能夠快速、有效地進行各類數據挖掘任務的數據挖掘系統FIU-Miner,并具體介紹了基于FIU-M i ner的高端制造業數據挖掘、空間數據挖掘和商務智能數據挖掘3個典型的應用案例。FIU-Miner在這些領域的成功應用也說明了提出的數據挖掘核心架構的效用。
致謝
本文總結介紹了筆者研究團隊近幾年開展的與大數據相關的部分研究和成果。基于這些研究,給出了對大數據的理解和看法,希望能起到拋磚引玉的目的。在這些相關研究中,筆者研究團隊得到了許多人的幫助和機構的資助,在此表示衷心感謝。
首先,要大力感謝長虹集團以及其相關科研人員Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、 Dong Liu。他們不僅為筆者研究團隊的科研提供了資助,而且其相關研究人員為筆者研究團隊提供了非常多寶貴的專業領域知識指導。
其次,要深深感謝美國佛羅里達國際大學的Knowledge Discovery and Research Group(KDRG)研究組的成員:Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他們在相關的研究及項目中付出了辛勤的勞動,提供了許多寶貴的反饋。
最后,要感謝美國佛羅里達國際大學的Naphtali Rishe教授以及其帶領的High Performance Database Research Center (HPDRC)研究組里的成員: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他們在TerrayFlyGeocloud項目上與筆者研究團隊開展了非常有成效的合作。
參考文獻
[1] 嚴霄鳳, 張德馨. 大數據研究. 計算機技術與發展, 2013, 23(4): 168~172
Yan X F, Zhang D X. Big data research. Computer Technology and Development, 2013, 23(4): 168~172
[2] 李國杰. 對大數據的再認識. 大數據, 2015001
Li G J. Further understanding of big data. Big Data Research, 2015001
[3] 李濤. 數據挖掘的應用與實踐: 大數據時代的案例分析. 廈門: 廈門大學出版社, 2013
Li T. Data Mining Where Theory Meets Practice. Xiamen: Xiamen Press, 2013
[4] Hall M, Frank E, Holmes G, et al. The Weka data mining software: an update. SIGKDD Explorations, 2009, 11(1): 10 ~18
[5] Owen S, Anil R, Dunning T, et al. Mahout in Action. Shelter Island: Manning Publications, 2011
[6] Prekopcsak Z, Makrai G, Henk T, et al. Radoop: analyzing big data with rapid mine rand hadoop . Proceedings of Rapid Miner Community Meetingand Conference, Dublin, Ireland, 2011
[7] Yu L, Zheng J, Wu B, et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing. Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12 ), Beijing, China, 2012
[8] Zeng C Q, Jiang Y X, Zheng L, et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment. Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509
[9] Lei D, Hitt M A, Goldhar J D. Advanced manufacturing technology: organizational design and strategic flexibility. Organization Studies, 1996, 17(3): 501~523
[10] Zheng L, Zeng C Q, Li L, et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748
[11] Zhang M J, Wang H B, Lu Y, et al. TerraFly GeoCloud: an online spatial data analysis and visualization system. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3)
[12] Zeng C Q, Li H T, Wang H B, et al. Optimizing online spatial data analysis with sequential query patterns. Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014
[13] Li L, Shen C, Wang L, et al. iMiner: mining inventory data for intelligent management. Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China, 2014
李濤,男,南京郵電大學計算機學院、軟件學院院長,南京郵電大學大數據研究院院長。2004年7月獲美國羅徹斯特大學(University of Rochester)計算機科學博士學位,2004-2014年先后任美國佛羅里達國際大學(Florida International University)計算機學院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數據挖掘及應用領域成效顯著的研究工作,曾多次獲得各種榮譽和獎勵,其中包括2006年美國國家自然科學基金委頒發的杰出青年教授獎,2010年IBM大規模數據分析創新獎, 并于2009年獲得佛羅里達國際大學最高學術研究獎。
曾春秋,男,美國佛羅里達國際大學計算機科學博士生,南京郵電大學計算機學院大數據項目組成員。2009年7月-2012年1月為阿里巴巴(中國)網絡技術有限公司高級數據工程師。主要研究興趣包括大規模分布式數據挖掘和系統管理,發表多篇頂級數據挖掘國際期刊和會議論文,參與多本數據挖掘相關應用領域書籍的編寫工作。
周武柏,男,美國佛羅里達國際大學計算機科學博士生,南京郵電大學計算機學院大數據項目組成員。主要研究興趣包括數據挖掘和計算機系統管理,發表多篇頂級數據挖掘國際期刊和會議論文,參與多本數據挖掘相關應用領域書籍的編寫工作。
周綺鳳,女,博士,廈門大學自動化系副教授。2002年起從事數據挖掘及智能系統方面的研究工作,2014- 2015年在美國佛羅里達國際大學訪學,主要研究興趣包括機器學習、數據挖掘及其在可持續發展等領域的應用。
鄭理,男,2014年在美國佛羅里達國際大學獲得計算機科學博士學位,南京郵電大學計算機學院項目研究員。主要研究興趣包括信息檢索、推薦系統及災難信息管理,發表多篇頂級數據挖掘國際期刊和會議論文,參與多本數據挖掘相關應用領域書籍編寫。
總結
以上是生活随笔為你收集整理的【2015年第4期】大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 优化数据库的思想:
- 下一篇: freemarker-模板
