总体参数的估计(概念)
舉例:到底北京人同意北京大力發(fā)展軌道交通,由于不大可能詢問(wèn)所有的一千多萬(wàn)北京市民,人們只好進(jìn)行抽樣調(diào)查以得到樣本,并用樣本中同意發(fā)展軌道交通的比例來(lái)估計(jì)真實(shí)的比例,從不同的樣本得到的結(jié)論也不會(huì)完全一樣。雖然真實(shí)的比例在這種抽樣過(guò)程中永遠(yuǎn)不可能知道,但有可能知道估計(jì)出來(lái)的比例和真實(shí)的比例大致差多,從數(shù)據(jù)得到關(guān)于總體參數(shù)的一些結(jié)論的過(guò)程就叫做統(tǒng)計(jì)推斷。
總體代表人們所關(guān)心的那部分世界。而在利用樣本中的信息來(lái)對(duì)總體參數(shù)進(jìn)行推斷之前,人們往往對(duì)代表總體的變量假定了分布族。在假定了總體分布族之后,進(jìn)一步對(duì)總體的認(rèn)識(shí)就是要在這個(gè)分布族中選擇一個(gè)與人們所關(guān)心的問(wèn)題有關(guān)的具體分布。由于分布族成員是由參數(shù)決定的,如果能夠估計(jì)出參數(shù),對(duì)總體的具體分布就知道的差不多了。
那么,哪些是分布的參數(shù)呢?正態(tài)分布族中的成員被(總體)均值和標(biāo)準(zhǔn)差完全確定,Bernoulli分布族的成員被概率(或比例)p完全決定。因此如果能對(duì)這些參數(shù)進(jìn)行估計(jì),總體分布也就估計(jì)出來(lái)了。 估計(jì)當(dāng)然要根據(jù)從總體所抽取的樣本來(lái)確定。 那么樣本的(不包含未知總體參數(shù)的)函數(shù)稱為統(tǒng)計(jì)量,而用于估計(jì)的統(tǒng)計(jì)量稱為估計(jì)量。由于一個(gè)統(tǒng)計(jì)量對(duì)于不同的樣本取值不同,所以,估計(jì)量也是隨機(jī)變量,并有其分布。 當(dāng)然,如果樣本已經(jīng)得到,數(shù)據(jù)已經(jīng)代入,估計(jì)量就有了一個(gè)數(shù)值,也就不是隨機(jī)的了,這個(gè)數(shù)字稱為該估計(jì)量的一個(gè)實(shí)現(xiàn)或取值,也稱為一個(gè)估計(jì)值。
?
估計(jì),分為兩種,一種是點(diǎn)估計(jì),也就是用估計(jì)量的實(shí)現(xiàn)值來(lái)近似相應(yīng)的總體參數(shù)。另一種是區(qū)間估計(jì),它是包括估計(jì)量在內(nèi)(有時(shí)是以估計(jì)量為中心)的一個(gè)區(qū)間,該區(qū)間被認(rèn)為很可能包含總體參數(shù)。點(diǎn)估計(jì)給出一個(gè)數(shù)字,用起來(lái)方便,而區(qū)間估計(jì)給出一個(gè)區(qū)間,留有余地,不想點(diǎn)估計(jì)那么絕對(duì)。
?
區(qū)間估計(jì)
當(dāng)你描述一個(gè)人的體重時(shí),你不會(huì)說(shuō)這個(gè)人是82.11公斤,而是說(shuō)這個(gè)人是七八十公斤,或者在七十到八十公斤之間。提供的這個(gè)范圍就是某種區(qū)間估計(jì)。再例如,在調(diào)查某機(jī)構(gòu)的民意檢測(cè)中,該候選人的支持率在75%,誤差是3%,置信度是95%,這樣的說(shuō)法意味著下面三點(diǎn):
1、樣本中的支持率為75% ,這是用樣本比例作為對(duì)總體比例的點(diǎn)估計(jì)。
2、估計(jì)范圍為75%上下百分之3的誤差,那么區(qū)間為(72%,78%)。
3、如果用類似的方式,重復(fù)抽取大量(樣本量相同的)樣本時(shí),產(chǎn)生的大量類似區(qū)間中有些會(huì)覆蓋真正的P,而有些不會(huì),但這些區(qū)間中大約有95%會(huì)覆蓋真正的總體比例。
這樣得到的區(qū)間被稱為總體比例p的置信度為95%的置信區(qū)間(confidence interval)。這里的置信度又稱置信水平或置信系數(shù)。
?
兩個(gè)正態(tài)總體均值之差的區(qū)間估計(jì):
例如:我國(guó)兩個(gè)地區(qū)的一些城市2003年的城鎮(zhèn)家庭人均消費(fèi)性支出數(shù)據(jù)。這里,假定這種支出服從正態(tài)分布。在數(shù)據(jù)中(無(wú)論哪種形式)收入是一列,變量名為expend,而區(qū)域?yàn)榱硪涣?#xff0c;變量名為area。
希望分別得到這兩個(gè)總體均值和標(biāo)準(zhǔn)差的點(diǎn)估計(jì)(即樣本均值和樣本標(biāo)準(zhǔn)差)和個(gè)子總體均值的95%置信區(qū)間,利用R語(yǔ)句:
w = read.table("expend.txt",header = T) #讀入數(shù)據(jù)。
x = w[w[,2] == 1,1]; y=w[w[,2] == 2,1] #分開兩個(gè)區(qū)域
mean(x);sd(x);mean(y);sd(y)#得到個(gè)子的均值和標(biāo)準(zhǔn)差:
作為兩個(gè)總體均值估計(jì)量的樣本均值分別為4562.53和5413.72,而樣本標(biāo)準(zhǔn)差分別為599.831和785.121
?
總結(jié)
以上是生活随笔為你收集整理的总体参数的估计(概念)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: nginx、apach、php、mysq
- 下一篇: sublime text 3 快捷键大全