從幾個數理統計的基本概念談起

數學期望

數學期望的名稱來源於賭博,其意思是在賭博前「期望」贏得多少錢。它本不是一個很恰當的命名,但在概率論中已源遠流長,獲得大家的公認,也就站住了腳跟。用「均值」則更加形象。本文假設讀者已經熟知「概率」、「隨機變量」、「概率密度」、「分佈」等概率論基本概念。把隨即變量 XX (以後將隨機變量 XX 簡記為 rv XX,rv 即 random variable的縮寫)的數學期望記為 E(X)E(X) ,其定義為:

  1. 當 rv XX 為離散 rv ,取無窮個值 a1,a2,a_1,a_2,\cdots ,其概率分佈為 P(X=ai)=pi(i=1,2,)P(X=a_i)=p_i(i=1,2,\cdots)XX 的期望定義為級數之和:

E(X)=i=1aipi.E(X)=\sum_{i=1}^{\infin}a_ip_i.

但當然,該級數必須收斂才行,實際上我們要求更多,要求該級數絕對收斂,即:

i=1aipi<\sum_{i=1}^{\infin}\lvert a_i\rvert p_i < \infin

此時稱右邊的級數之和為 XX 的數學期望。

  1. 當 rv XX 為離散 rv,設其概率密度函數為 f(x)f(x) ,如果

xf(x)dx<\int_{-\infin}^\infin\lvert x\rvert f(x)dx < \infin

則稱

E(X)=xf(x)dxE(X)=\int_{-\infin}^\infin\lvert x\rvert f(x)dx

XX 的數學期望。

數學期望有如下性質:

  1. cc 為常數,則 E(c)=cE(c)=c
  2. E(X1++Xn)=E(X1)++E(Xn)E(X_1+\cdots +X_n)=E(X_1)+\cdots + E(X_n)
  3. E(aX)=aE(X)E(aX)=aE(X)

證明都要分連續 rv 和離散 rv,有點麻煩,此處不證明了。

数学期望刻画了随机变量取值的平均值,这里的平均值指以概率为权的加权平均。

方差

方差刻畫了隨機變量在其中心位置附近散佈的數字特徵,其中心位置指數學期望。試驗中, XX 的取值不一定就是 E(X)E(X) ,而會有所偏離。偏離的量 XE(X)X-E(X) 本身也是隨機的。現在要取該偏離 XE(X)X-E(X) 的某種有代表性的數字,來刻畫偏離(或者說散佈)的大小。我們就不能取 XE(X)X-E(X) 的均值,因為 E(XE(X))=E(X)E(X)=0E(X-E(X))=E(X)-E(X)=0 ,隨機變量在其期望周圍的散佈地距離和為 0。一種解決辦法是取其絕對值用以消除負號,再取期望,即 E(XE(XE))E(\lvert X-E(XE) \rvert) ,這個量叫 XX (或其分佈)的「平均絕對差」,是常用於刻畫散佈度的數字特徵之一。但由於絕對值在數學上處理不方便,統計學家們就考慮了另一種作法:先取平方,再取期望,即 E[(XE(X))2]E\left[ \left(X-E(X)\right)^2\right] 。記做 Var(C)Var(C),即:

Var(X)=E(XEX)2Var(X)=E(X-EX)^2

現展開括號做化簡:

Var(X)=E(XEX)2=E[X22XEX+(EX)2]=E(X2)2EXEX+(EX)2=E(X2)(EX)2\begin{aligned} Var(X)&=E(X-EX)^2 \\ &=E[X^2-2XEX+(EX)^2] \\ &=E(X^2)-2EX*EX+(EX)^2 \\ &=E(X^2)-(EX)^2 \end{aligned}

方差也有一些重要的性質:

  1. 設 rv X1,X2X_1, X_2 獨立,則 Var(X1+X2)=Var(X1)+Var(X2)Var(X_1+X_2)=Var(X_1)+Var(X_2)
  2. Var(aX)=E(a2X2)[E(aX)]2=a2E(X2)[aE(X)]2=a2Var(X)Var(aX)=E(a^2X^2)-[E(aX)]^2=a^2E(X^2)-[aE(X)]^2=a^2Var(X)

數理統計的基本概念

當我們用試驗或觀察的方式研究一個問題時,首先要取得必要的數據,然後對其進行分析,以對所提問題做出盡可能正確的回答。為什麼說「盡可能正確」呢?因為數據一般總是帶有隨機性的誤差。需要指出,這種誤差不是由於測量不準確而導致的誤差,而是由於觀察和試驗所涉及的一般只能是所研究事物的一部分,而究竟是哪一部分,則是隨機的。比如一個學校有上萬人,從中抽取 50 個人研究他們的智力,抽取的結果(那 50 個人)不同,所得數據就不同,這完全憑機會。我們說的隨機誤差主要指這個,由於數據帶有這樣的特性,也難保其不出錯。分析方法的要旨,就在於是可能產生的錯誤愈小愈好,這就需要使用概率論的工具。

統計中我們常常有一個研究對象,和所研究對象有關的全體所構成的集合稱作總體。實際問題中,問題所在意的不是總體本身,而是總體的某些研究者關心的指標。單是這樣還不行,這裡還有兩個問題:一是總體中這樣一大堆雜亂無章的數據沒有賦予什麼數學或概率的性質,因而無法使用有力的概率論工具去研究它;二是各種總體變得沒有區別。例如,大學生的智商也是一堆數,一大批元件的壽命也是一堆數,大家都一樣了。解決這些問題的途徑設計總體這個概念的核心—總體的概率分佈。例如學生的智商可以假定為服從正態分佈。總體的分佈不同,分析的風發也就不同,賦有一定概率分佈的總體就稱為統計總體

假設總體的容量有無限個,

假设总体的容量有无限个,所以抽取其中任意一个样本对总体的影响是可忽略的;这样来看,有放回的抽样和无放回的抽样在总体无限的情况是无差别的。下面我们也会采取这样的模型,即「无限总体」,这是由英国伟大的统计学家 R. A. Fisher 提出的。

样本在数理统计中具有双重性,在抽样前,样本是个随机变量,不同的样本来自同样的总体,它们相互独立,并且分布相同,和总体的分布一样,称为独立同分布,今后简记为iid(identical independent distribution);在抽样后,样本是一个数。

首先引入兩個重要的特殊函數。

Γ\Gamma 分佈

Γ(x)=0ettx1dt(x>0)\Gamma(x)=\int_0^\infin e^{-t}t^{x-1}dt \quad (x>0)

B\Beta 分佈

B(x,y)=01tx1(1t)y1dt(x>0,y>0)\Beta(x,y)=\int_0^1t^{x-1}(1-t)^{y-1}dt \quad (x>0,y>0)

直接算出

Γ(1)=0etdt=lima0aetdt=lima(ea+1)=1\Gamma(1)=\int_0^\infin e^{-t}dt = \lim_{a\to \infin}\int_0^a -e^{-t}dt = \lim_{a\to \infin}\left( -e^{-a}+1 \right)=1

做變量代換,令 t=u2t=u^2

統計三大分佈

卡方分布

定义: 设rv X1,X2,,XnN(0,1)X_1, X_2, \cdots , X_n \sim N(0,1),则X12+Xn2χn2X_1^2 + \cdots X_n^2 \sim \chi^2_n 。即,自由度为n的卡方分布等于n个标准正态分布平方的和。

卡方分布有一个 重要的性质: χm2+χn2=χm+n2\chi^2_m + \chi^2_n = \chi^2_{m+n},其证明就是把定义式写一遍,在此也就不证明了。

t分布

定义:设rv XN(0,1)X\sim N(0,1), rv Yχn2Y\sim \chi^2_n,则

XY/nt(n)\frac{X}{\sqrt{Y/n}}\sim t(n)

也就是说,t分布是两个分布的商,分子是标准正态分布,分母是卡方分布除以其自由度后的开方。

F分布

F分布在今天不会用到,不用还是一并介绍。

定义: 设rv Xχn2X \sim \chi^2_n,rv Yχm2Y \sim \chi^2_m,则

X/nY/mFm,n\frac{X/n}{Y/m}\sim F_{m,n}

F分布也是两个分布的商,分子是一个卡方分布除以其自由度,分母也是一个卡分布除以其自由度。

几个重要的引理

X1,X2,,XniidN(μ,σ2)X_1, X_2, \cdots , X_n\,\, iid \sim N(\mu ,\sigma^2)

Xˉ=Σi=1nXi/n\bar{X} = \Sigma_{i=1}^{n}X_i/n,则

(1)

Xˉμσ/nN(0,1)\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)

(2)

Σi=1n(XiXˉ)2σ2χn12\frac{\Sigma_{i=1}^n(X_i-\bar{X})^2}{\sigma^2} \sim \chi^2_{n-1}

(1)等同于证明

XˉN(μ,σ2n)\bar{X} \sim N(\mu, \frac{\sigma^2}{n})

也就是说,样本平均值的平均值和总体均值相等,样本方差比方差小。

我们首先看一下Xˉ\bar{X},它在此被视为一个随机变量,事实上Xˉ=X1++Xnn\bar{X} = \frac{X_1+\cdots +X_n}{n},在还未抽样前,X_1,\cdots ,X_n即为随机变量,因此Xˉ\bar{X}是一个完全由样本决定的量,这样的量称为「样本统计量」;而类似正态分布N(μ,σ2)N(\mu, \sigma^2)中的总体平均数μ\mu和总体方差σ2\sigma^2称为「参数」。

(1)的证明需要证明这样的一件事,即正态分布的可加性,也就是说,两个独立的正态分布相加还是正态分布,其均值为两分布的均值之后,其方差为两分布方差之和。即:

rvX1N(μ1,σ12)rvX2N(μ2,σ22)X1+X2N(μ1+μ2,σ12+σ22)rv\,X_1 \sim N(\mu_1,\sigma_1^2)\,\,\,\,\, rv\,X_2 \sim N(\mu_2,\sigma_2^2)\\ X_1 +X_2 \sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)

这个证明比较麻烦,见https://en.wikipedia.org/wiki/Sum_of_normally_distributed_random_variables,在此同样不证明了。

所以

X1++XnN(nμ,nσ2)X_1+\cdots +X_n \sim N(n\mu, n\sigma^2)

则:

XˉN(μ,σ2n)\bar{X} \sim N(\mu, \frac{\sigma^2}{n})

(2) 证明

注意XiX_iXˉ\bar{X}都是随机变量,如果直接把平方直接展开将无法处理:

Σi=1n(XiXˉ)2σ2=1σ2Σi=1n(Xi2+Xˉ22XiXˉ)\frac{\Sigma_{i=1}^n(X_i-\bar{X})^2}{\sigma^2} =\frac{1}{\sigma^2}\Sigma_{i=1}^n(X_i^2+\bar{X}^2-2X_i\bar{X})

不过注意一个分母有个σ2\sigma^2,然后我们知道这两件事:

1.XiμσN(0,1)2.Xˉμσ/nN(0,1)1. \frac{X_i-\mu}{\sigma} \sim N(0,1)\\ 2. \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)

这样构造一下似乎就有其雏形了:

(XiXˉ)=(Xiμ)(Xˉμ)(X_i-\bar{X}) = (X_i-\mu)-(\bar{X}-\mu)

则:

1σ2Σi=1n(XiXˉ)2=1σ2Σi=1n[(Xiμ)(Xˉμ)]2=1σ2Σi=1n[(Xiμ)2+(Xˉμ)22(Xiμ)(Xˉμ)]=Σi=1n(Xiμσ)2+n(Xiμσ)22(Xˉμ)σ2Σi=1n(Xiμ)=Σi=1n(Xiμσ)2+n(Xiμσ)22(Xˉμ)σ2(nXˉnμ)=Σi=1n(Xiμσ)2+n(Xiμσ)22n(Xˉμ)2σ2=Σi=1n(Xiμσ)2n(Xiμσ)2=Σi=1n(Xiμσ)2(Xiμσ/n)2\begin{aligned} \frac{1}{\sigma^2}\Sigma_{i=1}^n(X_i-\bar{X})^2&=\frac{1}{\sigma^2}\Sigma_{i=1}^n[(X_i-\mu)-(\bar{X}-\mu)]^2\\ &=\frac{1}{\sigma^2}\Sigma_{i=1}^n[(X_i-\mu)^2+(\bar{X}-\mu)^2-2(X_i-\mu)(\bar{X}-\mu)]\\ &=\Sigma_{i=1}^n(\frac{X_i-\mu}{\sigma})^2+n(\frac{X_i-\mu}{\sigma})^2-\frac{2(\bar{X}-\mu)}{\sigma^2}\Sigma_{i=1}^n(X_i-\mu)\\ &=\Sigma_{i=1}^n(\frac{X_i-\mu}{\sigma})^2+n(\frac{X_i-\mu}{\sigma})^2-\frac{2(\bar{X}-\mu)}{\sigma^2}(n\bar{X}-n\mu)\\ &=\Sigma_{i=1}^n(\frac{X_i-\mu}{\sigma})^2+n(\frac{X_i-\mu}{\sigma})^2-\frac{2n(\bar{X}-\mu)^2}{\sigma^2}\\ &=\Sigma_{i=1}^n(\frac{X_i-\mu}{\sigma})^2-n(\frac{X_i-\mu}{\sigma})^2\\ &=\Sigma_{i=1}^n(\frac{X_i-\mu}{\sigma})^2-(\frac{X_i-\mu}{\sigma/\sqrt{n}})^2 \end{aligned}

Σi=1n(Xiμσ)2χn2(Xiμσ/n)2χ12\Sigma_{i=1}^n(\frac{X_i-\mu}{\sigma})^2 \sim \chi^2_n \\ (\frac{X_i-\mu}{\sigma/\sqrt{n}})^2 \sim \chi^2_1

1σ2Σi=1n(XiXˉ)2χn12\frac{1}{\sigma^2}\Sigma_{i=1}^n(X_i-\bar{X})^2 \sim \chi^2_{n-1}

这个结论很有用,是t分布做统计推断的关键。

t检验

以往的观点认为总体平均值为μ\mu,今天我们对这个结论不太满意,于是对总体进行随机抽样,得到Xˉ\bar{X}。当然Xˉ\bar{X}μ\mu存在差异,但这不能说明这个差异存在显著性意义,即抽样总是带有误差,Xˉ\bar{X}μ\mu的差异一方面来自它们真正的差异(如果有的话),一方面来自随机误差。有假设检验的模型后,我们得以用概率的角度检验该抽象的极端程度,即,如果在原假设为真的情况下,若和当前抽样一样极端或更加极端的概率小于5%,则认为该平均数远离原假设参数的距离有显著差异。

即检验Xˉ\bar{X}的概率。将其转化为:

Xˉμσ/n\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}

的概率,很显然上述止式服从标准正态分布,便可求其概率。但是其中,总体标准差σ\sigma并不知道,于是我们选择用样本估计总体。最直接想到的是下面这个量:

Σi(XiXˉ)2n\frac{ \Sigma_i{(X_i-\bar{X})^2}}{n}

在点估计中可知,该样本统计量是「有偏的」,即对这个量求期望并不是总体方差,这个过程如下:

E(Σi(XiXˉ)2n)=1nE(Σi(XiXˉ)2)=1nEΣi[(Xiμ)(Xˉμ)]2=1nEΣi[(Xiμ)2+(Xˉμ)22(Xiμ)(Xˉμ)]=1nE[Σi(Xiμ)2+n(Xˉμ)22(Xˉμ)Σi(Xiμ)]=1nE[Σi(Xiμ)2+n(Xˉμ)22(Xˉμ)(nXˉnμ)]=1nE[Σi(Xiμ)2n(Xˉμ)2]=1n[nσ2nσ2/n]=n1nσ2\begin{aligned} E(\frac{ \Sigma_i{(X_i-\bar{X})^2}}{n})&=\frac{1}{n}E(\Sigma_i{(X_i-\bar{X})^2})\\ &=\frac{1}{n}E\Sigma_i[(X_i-\mu)-(\bar{X}-\mu)]^2\\ &=\frac{1}{n}E\Sigma_i[(X_i-\mu)^2+(\bar{X}-\mu)^2-2(X_i-\mu)(\bar{X}-\mu)]\\ &=\frac{1}{n}E[\Sigma_i(X_i-\mu)^2+n(\bar{X}-\mu)^2-2(\bar{X}-\mu)\Sigma_i(X_i-\mu)]\\ &=\frac{1}{n}E[\Sigma_i(X_i-\mu)^2+n(\bar{X}-\mu)^2-2(\bar{X}-\mu)(n\bar{X}-n\mu)]\\ &=\frac{1}{n}E[\Sigma_i(X_i-\mu)^2-n(\bar{X}-\mu)^2]\\ &=\frac{1}{n}[n\sigma^2-n\sigma^2/n]\\ &=\frac{n-1}{n}\sigma^2 \end{aligned}

所以要对其进行矫正,在把

Σi(XiXˉ)2nnn1=Σi(XiXˉ)2n1\frac{ \Sigma_i{(X_i-\bar{X})^2}}{n} \frac{n}{n-1}=\frac{ \Sigma_i{(X_i-\bar{X})^2}}{n-1}

即可,我们将其定义为样本方差:

S2=Σi(XiXˉ)2n1S^2=\frac{ \Sigma_i{(X_i-\bar{X})^2}}{n-1}

上面我们已求得

Σi(XiXˉ)2σ2χn12\frac{ \Sigma_i{(X_i-\bar{X})^2}}{\sigma^2} \sim \chi^2_{n-1}

(n1)S2σ2χn12\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}

这样我们就有了样本方差的分布。注意到

Xˉμσ/n\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}

服从标准正态分布,则很容易定义一个tt分布:

Xˉμσ/n(n1)S2σ2/(n1)=XˉμS/nt(n1)\frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}}\\ =\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t(n-1)

就好像把σ\sigmaSS顶替后由标准正态分布变成了tt分布一样。