美国进入“非结构化”数据分析新时代
美國進入“非結構化”數據分析新時代
目前,對國內大部分企業級客戶而言,大數據時代已經真正到來了。
雖然,近年來“大數據”及“數據分析”概念被炒得很火,但國內,國內很多CIO/CTO們仍很“害怕數據”——一方面,企業充斥著無從分析的非結構化數據;另一方面,結構化數據分析方面,與非結構一樣面臨著方法不科學、周期冗長、性價比低、不能直接產生經濟效益等典型的問題。國內大數據分析越來越陷入到一種不得要領、頗為雞肋的僵局。
而反觀大洋彼岸的美國,新技術正推動著美國數據分析產業進入到一個新的階段——目前美國很多企業客戶不僅開始分析非結構化數據,并通過引入“實時分析”、“數據驅動”(Data-driven)、“人機互動”等最新的數據分析理念,實現了企業數據分析與經濟效益的有效聯動。
每一次產業升級都會孕育出多個獨角獸公司,而此次推動數據分析產業變革的正是以Taste Analytics為代表的從美國頂尖級數據可視化中心走出來的數據科學家們。
“這是一場不可思議的革命,你很難想象企業非結構化數據中蘊含的寶藏,我們在啟用Taste平臺的第一天就發現了一年以來客戶郵件一直在抱怨的一個紕漏,從而及時挽回了品牌聲譽。”美國某著名家電廠商CIO告訴我。
國內數據分析“七宗罪”
每一個做過調研的人,都會驚訝于中美兩國在大數據分析理念和客戶心態上的巨大差別。
“企業數據分析,中美在理念方面相差2-3年,而在實際執行層面或許有5年左右的差距。”美國數據分析科學家、Taste Analytics創始人及全美五大可視化研究中心的Derek Wang(汪曉宇)博士表示。
目前,國內的企業級客戶在進行大數據分析時,仍以分析結構化數據為主,而對于內涵豐富的非結構化數據,市面上并沒有有效的工具進行分析。
同時,在進行結構化數據分析時,仍采用了“招標+外包”的傳統模式,即需要大數據分析服務的企業按照歷史經驗首先建立自己的數據分析KPI(關鍵績效指標),然后將整個數據分析任務外包給第三方大數據公司,經過數月的時間后,大數據公司將數據分析的結果返還給甲方企業。
Derek Wang博士表示,這種數據分析的模式,會產生以下幾方面的問題,這些問題也正是目前國內的CIO/CTO們頗為頭痛的問題。
首先,錯過了內涵豐富的非結構化數據。相比結構化數據,非結構化數據對企業同樣重要,而目前,國內企業在進行非結構化數據分析方面仍在初始階段。
第二,KPI非數據驅動生成,缺乏科學性。國內大數據KPI的制定常常以人為經驗為準,而不是由數據驅動并且實時生成的,這就有可能造成KPI常年不變,并且缺乏科學性。
第三,數據分析過程冗長。國內企業在進行大數據分析時采用“招標-乙方返還數據分析結果”的方式,整個周期少則也需要1-2個月的時間,往往返還回結果時,企業內部的相關數據已經完全改變了。
第四,浪費了企業內部的分析師資源。采用外包的方式,其實完全浪費了企業內部的分析師資源,從經濟效益上很不劃算。
第五,數據安全性無法保障。外包的另一個問題就是數據的安全性問題,企業想確保數據以安全的方式交予第三方大數據公司,往往需要耗費額外的時間和經濟成本。
第六,數據分析結果不能與企業經濟效益直接掛鉤。國內企業在進行數據分析時,不僅往往需要數月的時間,而且常常為了分析而分析,分析完之后并不能很好地將分析結果運用到企業經濟效益的改善上。
第七,第三方大數據公司分析能力有限。企業看似將數據分析的重任交予了第三方公司,但第三方公司由于缺乏動態、數據驅動的數據分析工具,它其實也是在按照經驗制定KPI和進行數據分析,這樣分析出的結果難言科學有效。
對此,業內受訪專家表示,目前國內企業陷入的數據分析困局,一部分是理念問題,而更多的是技術的制約以及工具的缺乏。“比如對于非結構化數據,其實每個企業都是非常渴望分析,并且希望實時分析的,但目前仍苦于在公開市場上沒有好用的分析平臺。”
新技術推動形成數據分析新理念
事實上,中國企業遇到的問題,美國企業客戶也曾經經歷過。美國某著名家電廠商相關受訪人士告訴認為,自己也經歷過對非結構化數據頭大、不能實時科學地分析企業內部數據等問題。
但今年以來,隨著美國在非結構化語義分析以及人機互動的圖像可視化等技術領域取得關鍵性突破,尤其伴隨著全美五大圖像可視化中心之一的北卡羅來納大學(UNC)夏洛特圖像可視化中心的科學家們從學術界走到工業界,推出了實時動態的、結果易讀的綜合智能數據分析平臺The Taste Signals Platform,對美國的企業級用戶而言,不論是非結構化數據,還是實時數據分析——以往常見的數據分析難點都被一一攻克了。
“從學術研究成果到工業界,科技再次顯示出了它強大的生產力,”美國某著名家電廠商相關受訪人士表示,“我們以前不知道怎么處理像雪片一樣涌來的客戶郵件,有了Taste的新平臺和技術,我們內部的分析師第一天就發現了,一年以來客戶一直在郵件中抱怨我們一個產品實際的序列號位數與網站注冊位數嚴重不匹配。這是一個我們常規思維中所預想不到的嚴重的產品問題,但在沒有非結構化數據分析工具之前,我們完全無從發現這樣的問題。”
不僅上述家電廠商,全美某著名銀行IT部門的受訪人士也表示,按照經驗,他們的管理層曾經想花重金建立銀行的某項支付功能,但通過對十幾萬條客戶網絡聊天信息進行非結構化數據的分析,他們發現僅有100多條客戶談及該支付功能,“數據驅動的分析讓我們學會相信數據而不是跟隨潮流,我們最終愉快地決定暫緩該功能的開發——非結構化數據分析讓我們優化了我們的產品結構,更加有效的利用了我們的資金,實現了對于我們主營業務的提升”。
可以看到,目前在美國,很多主流的企業已經進入到了以非結構化數據分析以及數據驅動、實時分析、人機互動、結果易讀等為特點的數據分析的新紀元。據了解,在The Taste Signals Platform等強大數據分析平臺支持下,相比國內客戶,目前美國客戶已經形成了在數據分析方面的新理念。
首先,信任數據而不是經驗。國內客戶在制定數據分析KPI時,更多地依靠既往的經驗,而美國客戶則更多地相信通過機器學習的數據平臺工具得出的數據挖掘的結果,即使這些結果有可能背離傳統的經驗(上述美國某銀行就是一個很好的例子)。
其次,數據分析重要的不是工具本身,而是通過工具提升內部分析師的生產力。在美國客戶眼中,數據分析更重要的在于充分調動起企業內部分析師的能動性,對他們而言,數據分析不是一個外包或者被動等結果的過程,而是一個利用更先進的數據分析平臺工具提升內部人員生產力以及實時的人機互動的過程。
再次,非機構化數據與結構化數據同樣重要。美國客戶不僅希望看到“樹木”,更希望看到“森林”,這就意味著他們不僅希望實時分析結構化數據,也希望分析非結構化的數據,并且對于每一個科學分析出的關鍵指標,他們都會分別建立輿情模型,再進行更加細化的數據分析。 這是一個循序漸進的過程。
第四,將數據分析與經濟效益直接掛鉤。美國客戶更希望將數據分析的結果用于改善經濟效益,比如美國某銀行就通過數據分析節省了幾千萬的某支付功能的開發成本;而上述家電廠商也通過數據分析提升了用戶滿意度以及品牌形象。
年末重新定義國內“數據分析平臺”
正如蘋果定義了智能手機,將手機產業帶入一個新的時代,每一次技術變革的背后往往都會孕育出優秀的甚至獨角獸公司。而在此次美國的數據分析產業升級換代中,由美國夏洛特圖像可視化中心的幾個年輕的科學家成立的Taste Analytics就扮演了這樣的角色。
在采訪中發現,雖然其新型數據分析平臺產品The Taste Signals Platform上市僅6個月,但已經引起了工業界的強烈震動,目前已有6家福布斯全球500強公司以及多家美國主流企業都采用了Taste的新型非結構化數據分析平臺,“目前我們的銷售額在以400%的速度增長”。
那么, 這究竟是怎樣的一套新型智能數據分析平臺呢?
The Taste Signals Platform是一套可用于每一個企業日常經營的實時的智能數據分析平臺,其最獨特的地方在于強大的非結構化數據的分析能力,目前其不僅可以分析傳統的結構化數據,也可以分析包括中文在內的12種文字、語音等非結構化數據。
“我們可以分析各種非結構數據,其中既包括企業內部郵件、客戶聊天記錄、電話中心數據等一手的非機構化數據,也包括企業在電商上的二手數據,以及社交網絡、新聞、博客等第三方數據。”Taste Analytics創始人Derek Wang博士表示。
同時,在對數據、文字以及語音進行分析時,The Taste Signals Platform也定義了“人機互動”、“實時分析”、“數據驅動”、“結果易讀”等新型數據分析平臺的典型特征。
“傳統的數據分析更像是一個被動的等結果的過程,而新一代的數據分析更講究企業內部分析師與機器的互動,我們將數據分析的過程分為三大步,第一步是數據驅動的語義分析,客戶將成百上千萬條數據導入系統中,系統會快速分析出機器學習到的各種結果信息和圖表;第二步,客戶通過我們簡潔易讀的圖像可視化的界面,根據自身需求觀察、解讀和分析機器學習出來的結果;第三步是根據第二步的結果,客戶可以利用Taste的系統建立自己的輿情分析模型,而從再次將該模型代入到分析平臺中形成新的數據監控流。”Derek Wang博士如是說,“可以看到整個數據分析的過程形成了一個實時的正向的循環。”
目前,Taste Analytics的愿景是“用數據帶動生產力”以及“將每個人都變為數據科學家”。據悉,今年年末到明年年初,Taste Analytics也將有計劃進入中國市場,其目前還在進行市場調研以及產品本土化的準備工作。
“中國的廣大企業級客戶也很需要我們的技術,我們不僅會對產品進行本土化的改良,而且也會讓公司‘入鄉隨俗’。未來我們將以全新的姿態進入中國市場。”Derek Wang博士表示。
總結
以上是生活随笔為你收集整理的美国进入“非结构化”数据分析新时代的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习温和指南
- 下一篇: 从零实现来理解机器学习算法:书籍推荐及障