高维、相依和不完全数据的统计分析(二)
轉自:http://i.mtime.com/920665/blog/5653335/
我國的統(tǒng)計學起步較晚。解放前只有以許寶祿先生為代表的少數(shù)幾位統(tǒng)計學者,他們是四十年代從國外回來的。解放后,特別是在1956年的國家科學發(fā)展規(guī)劃的推動下,統(tǒng)計學有了較大的發(fā)展。改革開放以來,統(tǒng)計學有了新的發(fā)展,從事統(tǒng)計學研究、應用和教學的隊伍壯大了許多,先后成立了四個全國性學術團體,出版了幾種專業(yè)刊物,北京大學等七所綜合性或理工科大學成立了統(tǒng)計系(或概率統(tǒng)計系等),有近百所財經(jīng)類高校設有統(tǒng)計系或統(tǒng)計專業(yè);統(tǒng)計學的研究水平不斷提高,應用范圍不斷擴大。我國的統(tǒng)計工作者在理論和應用研究方面也取得了豐碩的成果,不少成果達到國際先進、甚至領先水平。這里僅簡要列舉與該方向有關的成果。由于時間所限,未能全面收集有關情況,定有疏漏和不當之處,敬請原諒。
經(jīng)典統(tǒng)計學中與高維數(shù)據(jù)分析直接相關的是多元分析和線性模型的統(tǒng)計分析。早在四、五十年代,這方面的理論研究還處在早期階段,我國統(tǒng)計學家許寶祿先生獲得了一系列開創(chuàng)性研究成果,是國際上公認的奠基人之一。改革開放以來,我國有不少學者從事這方面的研究,成果也很多。例如,中國科學院研究生院陳希孺和中國科學技術大學趙林城比較系統(tǒng)地研究了多元線性回歸的LS、和M估計的相合性、漸近正態(tài)性和線性表示等大樣本性質,在一些情況下得到了或幾乎得到了充分必要條件,有的問題得到了精確的階估計和理想的界限。他們的成果在國際上有較大反響和許多引用,國際著名統(tǒng)計學家、美國科學院院士C.R.Rao等在專著中把他們的主要成果列為6條定理。此外,中國科學院應用數(shù)學所方開泰和上海財經(jīng)大學張堯庭等在橢球總體的多元分析方面,中國科學院系統(tǒng)科學所吳啟光和北京理工大學徐興忠等在多種線性模型估計的容許性和其他統(tǒng)計決策問題方面,北京工業(yè)大學王松桂在線性回歸的估計方面,以及東北師范大學史寧中在有約束的線性模型方面也都有不少好成果。
比線性模型復雜的多元模型是非線性參數(shù)模型、半?yún)?shù)和非參數(shù)模型。在這些模型的理論方面我國統(tǒng)計學者也有許多工作。例如,中國科學院系統(tǒng)科學所成平等在研究半?yún)?shù)模型的漸近有效估計方面,陳希孺、趙林城和安徽大學陳桂景等在研究非參數(shù)回歸、密度估計和非參數(shù)判別方面,東南大學韋博成等在用微分幾何方法研究非線性(參數(shù))回歸方面,以及南京大學王金德在非線性回歸估計的漸近性質方面均有一系列成果。在非參數(shù)理論的成果中,陳希孺和趙林城徹底解決了關于U統(tǒng)計量分布的非一致收斂速度問題,有關結果被美國《統(tǒng)計科學百科全書》以及美國和前蘇聯(lián)等出版的多本專著引述。
自助法等重抽樣方法也是一類非參數(shù)方法,主要是用來逼近那些無法從理論上給出的統(tǒng)計量分布及有關的量。北京大學鄭忠國及其合作者與美國D.B.Rubin獨立提出了一種與自助法功能相似的隨機加權法。他們在多種模型下研究了統(tǒng)計量的隨機加權逼近,結果表明該類方法無需重抽樣也能達到用自助法的效果,在有些情況下還優(yōu)于自助法。
有關多元統(tǒng)計模型的另一類重要問題是模型的統(tǒng)計診斷,目的是了解實際數(shù)據(jù)與選用的模型是否吻合。韋博城、人民大學吳喜之以及云南大學王學仁和石磊等在模型和數(shù)據(jù)的統(tǒng)計診斷方面有許多好成果。云南大學的學者還把他們的成果用于地質探礦的數(shù)據(jù)分析等實際問題取得成功。解決數(shù)據(jù)與模型這一對矛盾的另一種途徑是使用對模型不敏感的統(tǒng)計方法,即當模型與數(shù)據(jù)吻合或不太吻合時都能給出比較正確的結論,這就是穩(wěn)健統(tǒng)計方法。中國科學院系統(tǒng)科學所李國英和張健等在多元位置和散布陣的穩(wěn)健估計及其性質,位置M估計的崩潰性質等方面也取得了一些好成果。
在多維試驗設計方面,中國科學院數(shù)學所王元和應用數(shù)學所方開泰引進數(shù)論方法提出了均勻設計,能用于缺乏使用正交設計條件的情況。該設計方法已在國內的多個實際部門應用,效果良好。這一工作在國際上也受到重視。南開大學張潤楚等在研究計算機試驗設計方面也有一些好成果。
七十年代中期出現(xiàn)的投影尋蹤(projectionpursuit,簡稱PP)技術是分析高維數(shù)據(jù)的較好方法,到八十年代初文獻中還很少有理論研究。中國科學院系統(tǒng)科學所成平和李國英領導的研究小組自八十年代中開始從事PP方法和理論的研究,構造了一些分析高維數(shù)據(jù)的新方法,研究了PP統(tǒng)計量的漸近性質和自助(Bootstrap)逼近,獲得了一系列重要結果。例如,成平、朱力行和張健研究了多種PP擬合優(yōu)度統(tǒng)計量尾概率的估計,對有的統(tǒng)計量得到了精確的階,否定了前人的猜測;李國英和施沛德等對兩類應用普遍的PPU和PPL統(tǒng)計量作出了統(tǒng)一處理,研究了它們的漸近分布及其自助逼近;張健和成平給出了一個一般性結果,解決了大部分PP檢驗的功效問題;李國英和張健等分別用PP技巧構造了幾種多元質量控制圖,比原有的控制圖提高了檢測效果。他們的工作曾多次在有關的國際學術會議上作邀請報告,受到國際同行的好評,在國內外文獻中引用較多。有些成果還在國內的水文、氣象、醫(yī)學等方面得到了應用,解決了用傳統(tǒng)方法難以處理的問題。
?
與相依數(shù)據(jù)的統(tǒng)計分析關系密切的是時間序列分析。在這方面我國學者也有很好的工作。北京大學江澤培是這方面最資深的學術帶頭人。改革開放以來,他和他的學生何書元等在多元平穩(wěn)序列的譜估計方面取得了一系列重要成果。有些成果還被北京大學謝衷潔、程乾生等應用到天文、地質和醫(yī)學等實際數(shù)據(jù)的分析,獲得了有價值的發(fā)現(xiàn)。中國科學院應用數(shù)學所安鴻志在時間序列分析中的重對數(shù)律,自回歸的選元方法及其相容性,以及非線性和條件異方差模型的性質等方面有不少重要成果,有些成果在國際上有較多引用,受到好評。
另一類重要的相依數(shù)據(jù)問題是統(tǒng)計信號處理。趙林城在信號檢測和疊加指數(shù)信號的估計及其性質方面有不少好成果,受到國際同行的重視。他提出的一個信號檢測準則被外國學者稱為有效檢測準則,在文獻中多次被人引用和仿效。
在我國較早從事不完全數(shù)據(jù)分析研究的有北京大學陳家鼎和復旦大學鄭祖康。他們在刪失數(shù)據(jù)下的分布估計和參數(shù)估計理論方面作出了貢獻。近年來由于可靠性研究的需要,不完全數(shù)據(jù)的統(tǒng)計方法和理論取得了很大進展。例如,陳家鼎及其合作者用樣本空間排序法對于可靠性中常用的壽命分布和一類增長模型,在多種不完全數(shù)據(jù)情況下導出了在一定意義下的最優(yōu)置信限。中國科學院系統(tǒng)科學所戴樹森、于丹、李國英等對于常用的壽命分布和不完全數(shù)據(jù)類型,以及可靠性結構相當一般的系統(tǒng),給出了利用部件數(shù)據(jù)對系統(tǒng)可靠度進行綜合評估的方法,對部件數(shù)據(jù)樣本量的要求比前人的方法明顯減少,而且評估精度也提高了。北大和系統(tǒng)所的工作顯著推進了前人的理論結果,在相當程度上解決了中小樣本情況下,單部件和系統(tǒng)的可靠性評估問題,很有實用價值,受到國防工業(yè)部門的歡迎和贊賞。戴樹森、于丹、華東師范大學茆詩松以及上海師范大學費鶴良等研究了不完全數(shù)據(jù)情況下加速壽命試驗中的一些估計理論問題,有些成果已在電子元件篩選中得到應用,取得了較大的經(jīng)濟效益。北京工業(yè)大學楊振海等關于無失效數(shù)據(jù)等可靠性中不完全數(shù)據(jù)的統(tǒng)計分析也有一些好成果。
近些年,我國還涌現(xiàn)出一批比較優(yōu)秀的年輕統(tǒng)計學者,在高維、相依和不完全數(shù)據(jù)的統(tǒng)計分析等方面獲得了可喜的成果。比較突出的有北京大學耿直、何書元、施沛德,中國科學院應用數(shù)學所朱力行,系統(tǒng)科學所張健、于丹等。其中,耿直關于定性和不完全數(shù)據(jù)圖模型的研究,朱力行關于PP統(tǒng)計量尾概率和逆回歸理論的研究,張健關于PP理論、穩(wěn)健估計與檢驗的崩潰性質以及非參數(shù)回歸的研究,何書元關于不完全數(shù)據(jù)總體分布估計漸近性質的研究,施沛德關于模型選擇問題的研究,以及于丹關于中小樣本下復雜系統(tǒng)可靠性評定和導彈貯存可靠性的研究及應用均有不少好成果。此外,北京大學蔣建成,北京師范大學崔恒建,安徽大學胡舒合,中國科學院系統(tǒng)科學所石堅和鄒國華,應用數(shù)學所王啟華、周勇和陳敏,北京理工大學徐興忠,吉林大學宋立新,以及云南大學石磊和陳建寶等也有一些較好的工作。
總之,改革開放以來我國統(tǒng)計學有很大發(fā)展,但總的說來,我國的統(tǒng)計學與發(fā)達國家相比差距還較大。首先,與我國經(jīng)濟和科技發(fā)展對統(tǒng)計學的需求相比,與一個十多億人口的大國相比,我國統(tǒng)計學的隊伍還很小;其次,統(tǒng)計學的應用遠沒有達到應有的程度。有很多能夠應用統(tǒng)計學的行業(yè)領域,還不大了解統(tǒng)計學。因此在我國大力發(fā)展統(tǒng)計學非常重要。事實上,早在1984年,國務院[國發(fā)(1984)7號]文件《關于加強統(tǒng)計工作的決定》就指出“我國要實現(xiàn)工業(yè)、農業(yè)、科學技術和國防現(xiàn)代化,必須實現(xiàn)統(tǒng)計工作現(xiàn)代化”,“中國科學院要加強數(shù)理統(tǒng)計研究機構,要集中一批專門人材,開展統(tǒng)計科學研究,盡快提高我國統(tǒng)計學水平”。筆者深切感到我國統(tǒng)計工作者任重道遠。從戰(zhàn)略上講,我們需要大力發(fā)展統(tǒng)計教育,培養(yǎng)不同層次的統(tǒng)計學人才,擴大統(tǒng)計學隊伍,提高研究水平;還需要在一切能應用統(tǒng)計學的部門與行業(yè)普及統(tǒng)計知識,使之成為實際部門的有力工具。這不僅將加速實際領域的發(fā)展,而且使我國統(tǒng)計學的發(fā)展有更廣闊的土壤和更強勁的動力。但這些已超出了本文的范圍,這里暫不討論。
三
如前所述,現(xiàn)代科學技術的前沿領域和社會經(jīng)濟的重大問題提出了許多高維、相依和不完全等復雜數(shù)據(jù)的分析處理問題,以下僅就筆者的個人認識,扼要講述有關這方面的一些值得注意的研究動向。
(1)統(tǒng)計模型
統(tǒng)計模型是對數(shù)據(jù)內在規(guī)律性的數(shù)學描述,數(shù)據(jù)的復雜性必然帶來模型的復雜化。以描述變量之間關系的回歸分析為例,經(jīng)典的統(tǒng)計模型是線性回歸函數(shù)和獨立同分布正態(tài)誤差。由于所研究的客觀現(xiàn)象越來越復雜,要求也越來越精細,回歸函數(shù)已從線性發(fā)展到各種非線性回歸函數(shù)、廣義線性、部分線性、比例危險率等半?yún)?shù)回歸函數(shù),以及可加、廣義可加和完全非參數(shù)等非參數(shù)回歸函數(shù);誤差模型也發(fā)展到獨立不同分布的正態(tài)誤差和污染誤差等參數(shù)和半?yún)?shù)模型,獨立不同分布的對稱誤差、相依弱結構誤差等半?yún)?shù)和非參數(shù)模型。類型的情況在統(tǒng)計學的各個分支都存在。近些年研究較多的統(tǒng)計模型還有:分層模型、多重線性模型、潛馬氏鏈模型、間接可加模型、網(wǎng)絡圖模型、時空序列模型和條件異方差模型等等。這些模型大多是在研究某類實際問題中提出,后來被推廣到更多的領域,成為有一定普遍性的統(tǒng)計模型。還有一種情況,特別是較新領域中的數(shù)據(jù),由于我們對該領域所知甚少,只好用半?yún)?shù)甚至非參數(shù)模型。近十多年半?yún)?shù)和非參數(shù)模型的統(tǒng)計方法和理論有很多討論。總之,由于人類所研究的問題和現(xiàn)象越來越復雜,所遇到的數(shù)據(jù)和相應的模型也將越來越復雜。對于實際中出現(xiàn)的各種復雜數(shù)據(jù),找出和建立適當?shù)哪P?#xff0c;并針對不同的模型研究有效的統(tǒng)計分析、推斷方法及其理論是統(tǒng)計學永遠要面對的挑戰(zhàn),也是它取之不盡、用之不竭的發(fā)展動力。
(2)模型選擇、統(tǒng)計診斷和穩(wěn)健方法
進行統(tǒng)計分析與推斷的第一步,就是對手中的數(shù)據(jù)建立適當?shù)哪P汀τ谝唤M數(shù)據(jù),往往有好多類模型可供選擇;在同一類模型中,還要確定變量個數(shù)或某種“階數(shù)”,這就是所說的模型選擇。然后才是進一步的統(tǒng)計推斷,即參數(shù)的點估計、區(qū)間估計或假設檢驗等。早期的模型選擇主要是線性回歸中自變量的選取,方法也局限于最小二乘法導出的統(tǒng)計量和AIC準則等。隨著數(shù)據(jù)和模型的復雜化,模型選擇問題更為重要。面對一組數(shù)據(jù),特別是一組新領域的復雜數(shù)據(jù),往往有數(shù)十類模型可供選擇。這里最為困難的是選擇哪一類模型,其次是在這一類模型中,選擇其“階數(shù)”或變量。到目前為止,對前一個問題還極少有討論。關于后一個問題,雖然取得了許多重要進展,但仍有許多方法和理論問題尚待解決,特別是關于時空序列、高階馬氏鏈和隱馬氏鏈的定階,以及廣義線性模型、生長曲線模型、含誤差的變量和協(xié)變量模型(EV模型)中的變量選取等較復雜的模型選擇問題。模型選擇問題在理論和應用上都很重要,是研究較多且有可能取得突破的研究方向。
統(tǒng)計診斷是研究所選定的模型與數(shù)據(jù)是否符合,找出明顯與模型不符的情況,包括少數(shù)“離群點”,對推斷結果影響大的“杠桿點”,以及其它不符合模型假定的地方(例如,常用的模型假定有:誤差等方差,回歸函數(shù)為線性等)。穩(wěn)健方法則是從另一個角度解決模型與數(shù)據(jù)的關系問題,即研究在模型與數(shù)據(jù)相符或者不很相符(即少有偏離)的情況,都能給出比較符合實際的推斷結果的統(tǒng)計方法。統(tǒng)計診斷和穩(wěn)健統(tǒng)計方法是在過去的三十多年里發(fā)展起來的統(tǒng)計分析方法,由于許多方法計算十分復雜,其發(fā)展曾一度減緩。近些年,隨著計算機的快速發(fā)展和普及,這兩個方向又再次受到的重視,對于比較復雜模型(參見前面的(1),(2)),的統(tǒng)計診斷和穩(wěn)健方法,包括相應的理論問題研究較多。而且,新的數(shù)據(jù)類型和新的模型不斷出現(xiàn),需要研究新的診斷和穩(wěn)健方法、算法及理論。
(3)降維技術
一方面由于高維數(shù)據(jù)分析十分困難,另一方面高維數(shù)據(jù)中的信息往往主要包含在一個或幾個低維結構中,因此降維是分析高維數(shù)據(jù)的一個重要手段。傳統(tǒng)的主成分分析,Fisher判斷等都屬于降維方法,但它們只適用于有線性結構的簡單數(shù)據(jù)。七十年代中開始的投影尋蹤是具有一定普遍意義的較好的降維技術,九十年代初提出的切片逆回歸也是一種降維方法。近幾年關于投影尋蹤和其他降維方法討論較多。這里有幾個難點:(I)怎樣針對一類實際問題確定尋找低維結構的準則;(II)如何判斷所找到的低維結構是否真實;(III)計算問題,因為真正可用于高維復雜數(shù)據(jù)的降維方法(例如投影尋蹤)計算量都很大,而且往往不能一步到位,需要多次反復。
(4)計算密集型方法
統(tǒng)計量及其分布是進行推斷的基礎。在許多復雜情況,所需要的統(tǒng)計量沒有顯表達式,有時即使有也很難計算。對此,往往提出適當?shù)乃惴ń柚嬎銠C求出所需要的量。而且,除了少量較簡單的參數(shù)模型外,無法得到統(tǒng)計量在有限樣本情況的精確分布(或某些分布特征),而這是進行統(tǒng)計推斷的關健。雖然許多情況有大樣本下的漸近分布,但在實際中用它作統(tǒng)計推斷精度較差,不能滿足要求。由此近二、三十年產(chǎn)生了許多計算密集型方法,以得到所需要的統(tǒng)計量、統(tǒng)計量的近似分布或分布特征,或給出比基于大樣本理論精度更高的推斷結果。例如EM算法及其各種推廣、投影尋蹤技術、偏最小二乘法(Partial leastsquare)、自助法、重要抽樣和馬氏鏈蒙特卡洛(MCMC)等。其中有些方法,例如,偏最小二乘和MCMC等,首先出現(xiàn)在某個實際領域,后來被統(tǒng)計學家注意,并推廣發(fā)展成具有一般性的方法。當前,還有一些處理和分析復雜數(shù)據(jù)的方法,已經(jīng)在某些實際領域中應用,例如神經(jīng)網(wǎng)絡、機器學習、數(shù)據(jù)采掘、數(shù)據(jù)庫知識發(fā)展和獨立成分分析等。一些統(tǒng)計學家已經(jīng)開始參與這些方法的研究。這應該是一個非常值得重視的領域。
(5)似然方法
在參數(shù)模型的統(tǒng)計推斷中,似然方法(極大似然估計和似然比檢驗等)占有十分重要的地位。近二、三十年,參數(shù)模型的似然方法有許多發(fā)展,出現(xiàn)了擬似然、偏似然、條件似然和懲罰似然等新方法。其中基于近似輔助統(tǒng)計量和條件似然的條件推斷尤為引人注目。然而在半?yún)?shù)和非參數(shù)模型下,極大似然估計和似然比檢驗統(tǒng)計量或者不存在,或者很難計算。這一困難近十年左右已有所突破。其中比較突出的是Sieve似然方法和利用各種輔助信息的經(jīng)驗似然方法。在一些相對簡單的情況已獲得成功,并得到了一些理論成果。但總的說來,這方面的研究還在開始階段,有許多復雜情況還有待研究。例如,似然方法在半?yún)?shù)和非參數(shù)情況,能不能達到簡單參數(shù)情況的優(yōu)良性質?怎么才能達到?這些問題均是研究的焦點。
(6)小樣本問題與信息融合
在高新技術和國防科技中,由于產(chǎn)品價格和試驗費用十分昂貴,在各種環(huán)境條件下所獲得的試驗數(shù)據(jù)中,能作為來自同總體樣本的樣本量相當小,而且大部分是不完全數(shù)據(jù)。在許多復雜問題中,樣本量的絕對數(shù)也許不算小,但相對于數(shù)據(jù)的維數(shù),或者參數(shù)個數(shù)而言,樣本量就相當小了。對這樣一些問題,經(jīng)典的精確統(tǒng)計方法大多不適用,而大樣本理論的統(tǒng)計推斷又精度較差。于是近二、三十年出現(xiàn)了自助法、隨機逼近、鞍點逼近和其他高階漸近逼近的方法。對于較復雜的數(shù)據(jù)和模型,基于樣本量較小的數(shù)據(jù)本身,給出盡可能精確的統(tǒng)計推斷,仍然是一個重要的研究方向。另一方面,在實際問題中除了來自所研究的總體的直接數(shù)據(jù)之外,還可能有其他一些與之有關的數(shù)據(jù),也包含一些有關所研究總體的信息。如何把這些數(shù)據(jù)充分利用起來,對于小樣本問題是十分重要的。貝葉斯分析是融合不同來源信息的較好方法。問題在于如何客觀地確定先驗分布,即避免先驗分布中的主觀成分。這就是近些年討論較多的客觀貝葉斯方法。
著名統(tǒng)計學家B. Efron(Statistical Science,13(1998),95-122)認為,信仰(Fiducial)方法有可能在客觀貝葉斯分析中起重要作用。信仰方法是由A. R.Fisher于二十世紀三十年代提出,它是在沒有先驗信息的情況下,對參數(shù)給出類似于后驗分布的信仰分布。但該方法遇到很多困難,沒有發(fā)展起來,而被認為是Fisher的一大失誤。Efron認為,信仰方法有可能在較復雜的問題中給出較好的近似信仰分布,從而有可能進行客觀的貝葉斯分析。顯然他把 Bayes推斷和 Fiducial推斷結合起來了。面對越來越大、越來越難、越來越復雜的實際問題,人們必然需要多種推斷方法,以及它們之間合理、有效的結合,并根據(jù)不同的實際問題,選用適當?shù)耐茢嘣砗头椒ā_@里有許多需要深入研究的基礎性問題。
結束語現(xiàn)代科學技術和社會經(jīng)濟中的課題,一般都是交叉性綜合性的,要涉及多個學科領域。同樣,在其數(shù)據(jù)的獲取和分析這一統(tǒng)計學方面,也不可能只涉及一、兩個研究方向。面對各種實際領域中的統(tǒng)計學問題,特別是挑戰(zhàn)性強的困難問題,應該有一些統(tǒng)計工作者與實際領域的專家相結合,在解決實際問題的過程中利用統(tǒng)計學的有關最新成果,同時探索新的統(tǒng)計概念、模型、方法和理論。以理論研究為主的統(tǒng)計學者,在關注國際統(tǒng)計學理論發(fā)展的同時,也應關心我國實際領域中的統(tǒng)計問題及其進展,提出和解決其中的理論問題。這樣,我國的統(tǒng)計學將在與國際接軌的同時,也將逐漸培育起自己的肥沃土壤,為我國的現(xiàn)代化建設和國際統(tǒng)計學的發(fā)展都作出應有的貢獻。
致謝在本文形成的過程中,曾得陳希孺院士,張堯庭、陳家鼎、茆詩松、王學仁、安鴻志、趙林城和韋博成等教授的幫助,特致衷心的感謝!
轉載于:https://www.cnblogs.com/xiami303/archive/2012/01/10/2318519.html
《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的高维、相依和不完全数据的统计分析(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分享20个非常有用的Web开发工具和框架
- 下一篇: TSVNCache占用CPU的解决办法