注:你可以使用瀏覽器自帶的翻譯功能使用簡體字閱讀本文

上文提到無解的線性方程 Ax=bA\vec{x}=\vec{b} 的最小二乘解滿足 ATAx=ATbA^TA\vec{x}=A^T\vec{b} ,不過這個式子不一定能解出 x\vec{x}ATAA^TA 不一定可逆,所以不一定能解出: x=(ATA)1ATb\vec{x}=\left( A^TA\right)^{-1}A^T\vec{b} 。現在我們研究這個問題。

之後介紹一下一般線性模型的最小二乘算子和極大似然算子。最後介紹內積空間。我們要在複數域上定義內積空間,它兼容實屬域上的內積空間,如果讀者對複數內容欠缺了解,可參考下一篇文章。

無解線性系統最小二乘解的情況

定理 現有矩陣 Am×nA_{m \times n}xRn\forall \vec{x} \in \mathbb{R}^n 滿足 Ax=0    ATAx=0A\vec{x}=\vec{0} \iff A^TA\vec{x}=\vec{0}

Proof.

Ax=0A\vec{x}=\vec{0} ,則 AT(Ax)=AT0=0A^T\left(A\vec{x}\right)=A^T\vec{0}=\vec{0}

ATAx=0A^TA\vec{x}=\vec{0} ,則 xTATAx=xT0=0\vec{x}^TA^TA\vec{x}=\vec{x}^T\vec{0}=0 ,則 (Ax)TAx=0\left( A\vec{x} \right)^TA\vec{x}=0 ,則 Ax2=0\lVert A\vec{x} \rVert^2=0 ,故 Ax=0A\vec{x}=\vec{0}

注:上述定理表明 NulA=NulATA\text{Nul}A=\text{Nul}A^TA


定理 現有矩陣 Am×nA_{m \times n} ,若 ATAA^TA 可逆     \iffAA 滿秩。

Proof.

ATAx=0    Ax=0A^TA\vec{x}=\vec{0} \iff A\vec{x}=\vec{0} 。因 ATAA^TA 可逆,則 ATAx=0A^TA\vec{x}=\vec{0} 只有零解 ,則 Ax=0A\vec{x}=\vec{0} 也只有零解。故 AA 滿秩(AA 不一定可逆,因其不一定是方陣)。 ATAA^TA 可逆     \iff ATAA^TA 滿秩,可知 ATAA^TA 滿秩     A\iff A 滿秩。下面還要證明不僅滿秩的時候 AAATAA^TA 的秩相等,不滿秩的時候 rank(ATA)=rankA\text{rank}(A^TA) = \text{rank}A 也成立。


定理

對於任意矩陣 Am×nA_{m\times n}

rank(ATA)=rankA\text{rank}(A^TA) = \text{rank}A

Proof.

由秩-零化度定理可知

n=rankATA+nullATA=rankATA+dim Nul ATA=rankATA+dim Nul A=rankATA+null ArankATA=nnullA=rankA\begin{aligned} n &=\text{rank}A^TA+\text{null}A^TA \\ &=\text{rank}A^TA+\text{dim Nul } A^TA\\ &=\text{rank}A^TA+\text{dim Nul } A\\ &=\text{rank}A^TA+\text{null } A\\ \Rightarrow \\ &\text{rank}A^TA=n-\text{null}A = \text{rank}A \\ \end{aligned}

再補充一個下面求解一般線性模型會用到的結論。

一般來說對於兩個矩陣 Am×n,Bn×pA_{m\times n},B_{n\times p}

(AB)T=BTAT(AB)^T = B^TA^T

當遇到點乘的時候,設 b,cRn\vec{b},\vec{c} \in \mathbb{R}^n,有:

bc=bTc\vec{b}\cdot\vec{c}=\vec{b}^T\vec{c}

求轉置:

(bc)T=(bTc)T=cTb=[c1,,cn][b1bn]=c1b1++cnbn=b1c1++bncn=[b1,,bn][c1cn]=bTc\begin{aligned} \left(\vec{b}\cdot\vec{c}\right)^T &=\left(\vec{b}^T\vec{c}\right)^T \\ &=\vec{c}^T\vec{b} \\ &= \begin{bmatrix} c_1, \cdots, c_n \end{bmatrix} \begin{bmatrix} b_1 \\ \vdots \\ b_n \end{bmatrix} \\ &=c_1b_1 + \cdots + c_nb_n \\ &=b_1c_1 + \cdots + b_nc_n \\ &=\begin{bmatrix} b_1, \cdots, b_n \end{bmatrix} \begin{bmatrix} c_1 \\ \vdots \\ c_n \end{bmatrix} \\ &=\vec{b}^T\vec{c} \end{aligned}

稍複雜時,設 aRn,BRn×m,cRm\vec{a} \in \mathbb{R}^n, B \in \mathbb{R}^{n\times m}, \vec{c} \in \mathbb{R}^m ,有:

aTBc=aT(Bc)此時 BcRn=(Bc)Ta=cTBTa\begin{aligned} \vec{a}^TB\vec{c} &=\vec{a}^T(B\vec{c}) \quad \text{此時 } B\vec{c} \in \mathbb{R}^n\\ &= (B\vec{c})^T\vec{a} \\ &= \vec{c}^TB^T \vec{a} \end{aligned}

一般線性模型的最小二乘解

統計上我們習慣用 Xβ=yX\boldsymbol{\beta}=\boldsymbol{y} 代替 Ax=bA\vec{x} = \vec{b} (本小節暫時用粗體表示向量)。稱 XX設計矩陣 ,稱 β\boldsymbol{\beta}參數向量 ,稱 y\boldsymbol{y}觀測變量 。最簡單的線性回歸下,自變量只有一個,因變量也只有一個,並且它們的關係為線性,該模型為:

y=β0+β1xy=\beta_0+\beta_1x

試驗中觀察了 nn 次,得到 nn(xi,yi)(x_i,y_i) 。將這些點畫在圖中,它們之間好像可以畫出一條線。現在我們想確定 β0\beta_0β1\beta_1 ,使得 y=β0+β1xy=\beta_0+\beta_1x 和數據點最接近。現在假設找到了 β0\beta_0β1\beta_1 ,對於第 jj 個數據點 (xj,yj)(x_j,y_j) ,稱其縱坐標為 觀測值 ,擬和的直線上有一點 (xj,β0+β1xj)(x_j, \beta_0+\beta_1x_j) 與之橫坐標相同,稱其縱坐標為 預測值 。二者之差稱為 殘差

complex_plane
試驗數據的擬和

找到最合適的 β0\beta_0β1\beta_1 的過程也叫 回歸 ,回歸所得的線也叫回歸(曲)線,算出的參數教 回歸係數 。有諸多方式決定回歸線與實驗數據的接近程度。最簡單(因為算起來最簡單)的方式就是用殘差的平方表示接近程度,此方法得到的回歸線稱為 最小二乘線

下面介紹多重回歸的模型。該模型假設观测变量 yy 的影響因素有多個,即 x1,,xkx_1,\cdots, x_k (共 kk 個)。共進行了 nn 次試驗觀察,每次的結果分別是 (xi1,xi2,,xik,yi),i=1,2,,n\left(x_{i1}, x_{i2}, \cdots, x_{ik}, y_i\right), \,\, i=1,2,\cdots,n 。 每次觀測的模型如下:

y1=β0+β1x11+β2x12++βkx1k+ε1y2=β0+β1x21+β2x22++βkx2k+ε2yn=β0+β1xn1+β2xn2++βkxnk+εn\begin{aligned} y_{1} &=\beta_{0}+\beta_{1} x_{11}+\beta_{2} x_{12}+\cdots+\beta_{k} x_{1 k}+\varepsilon_{1} \\ y_{2} &=\beta_{0}+\beta_{1} x_{21}+\beta_{2} x_{22}+\cdots+\beta_{k} x_{2 k}+\varepsilon_{2} \\ & \vdots \\ y_{n} &=\beta_{0}+\beta_{1} x_{n 1}+\beta_{2} x_{n 2}+\cdots+\beta_{k} x_{n k}+\varepsilon_{n} \end{aligned}

將這 nn 個線性方程寫成矩陣形式:

[y1y2yn]=[1x11x12x1k1x21x22x2k1xn1xn2xnk][β0β1βk]+[ε1ε2εn]\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} =\begin{bmatrix} 1 & x_{11} & x_{12} & \ldots & x_{1 k} \\ 1 & x_{21} & x_{22} & \ldots & x_{2 k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n 1} & x_{n 2} & \ldots & x_{n k} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{k} \end{bmatrix}+ \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix}

或者:

y=Xβ+ε\boldsymbol{y}=X\boldsymbol{\beta} + \boldsymbol{\varepsilon}

yRn,XRn×(k+1),βRk+1,εRn\boldsymbol{y} \in \mathbb{R}^n,X \in \mathbb{R}^{n\times (k+1)},\boldsymbol{\beta}\in\mathbb{R}^{k+1}, \boldsymbol{\varepsilon} \in \mathbb{R}^n該模型有以下假設(前兩個假設稱為高斯-馬爾科夫假設):

  1. E(ε)=0E(\boldsymbol{\varepsilon})=\boldsymbol{0} 或者 E(y)=XβE(\boldsymbol{y})=X\boldsymbol{\beta }
  2. cov(ε)=σ2Icov(\boldsymbol{\varepsilon})=\sigma^2I
  3. rank(X)=k+1<n\text{rank}(X)=k+1<n

最小二乘期望找到 β\boldsymbol{\beta} 使得殘差的平方和最小,即對 εTε\boldsymbol{\varepsilon}^T\boldsymbol{\varepsilon}β\boldsymbol{\beta} 的偏導:

ε^Tε^=(yXβ^)T(yXβ^)=(yTβ^TXT)(yXβ^)=yTy2yTXβ^+2XTXβ^\begin{aligned} \hat{\boldsymbol{\varepsilon}}^T\hat{\boldsymbol{\varepsilon}} &=(\boldsymbol{y}-X\hat{\boldsymbol{\beta}})^T(\boldsymbol{y}-X\hat{\boldsymbol{\beta}}) \\ &=(\boldsymbol{y}^T-\hat{\boldsymbol{\beta}}^TX^T)(\boldsymbol{y}-X\hat{\boldsymbol{\beta}}) \\ &= \boldsymbol{y}^T\boldsymbol{y} -2\boldsymbol{y}^TX\hat{\boldsymbol{\beta}}+2X^TX\hat{\boldsymbol{\beta}} \end{aligned}

ε^Tε^β^=02XTy+2XTXβ^=0\frac{\partial\hat{\boldsymbol{\varepsilon}}^T\hat{\boldsymbol{\varepsilon}}}{\partial\hat{\boldsymbol{\beta}}} =0-2X^T\boldsymbol{y}+2X^TX\hat{\boldsymbol{\beta}} =0

即:

XTXβ^=XTyX^TX\hat{\boldsymbol{\beta}} = X^T\boldsymbol{y}

XX 滿秩,故 XTXX^TX 滿秩且可逆,則:

β^=(XTX)1XTy\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^T\boldsymbol{y}

有的時候自變量和因變量之間不必是線性關係,只要非線性關係可以轉換成線性關係即可,例如 y=β0+β1x1+β2x12+β3sin(x3)+εy=\beta_0+\beta_1x_1 + \beta_2x_1^2 + \beta _3\text{sin}{(x_3)}+\varepsilon 。如:

complex_plane

然後一樣求解。

一般線性模型一點補充

假設的說明

假設 1 表示 yiy_i 僅依賴於 x1,,xkx_1,\cdots,x_k,除此之外 yiy_i 的變異都是隨機的;

假設 2 表示

  • var(εi)=σ2\text{var}(\varepsilon_i) = \sigma^2,該假設假定 ε\varepsilon 的方差不依賴於 xix_i 的值,該假設也叫方差齊性。
  • cov(εi,εj)=0\text{cov}(\varepsilon_i,\varepsilon_j)=0 該假設假定 ε\varepsilon (或 yy)彼此不相關。

假設 3 表示

  • XX 滿秩:保證 XTXX^TX 可逆,使 (XTX)β=XTy(X^TX)\boldsymbol{\beta}=X^T\boldsymbol{y} 有解
  • k+1<nk+1 <n ,保證 Xβ=yX\boldsymbol{\beta} = \boldsymbol{y} 是個無解系統,否則
    • k+1=nk+1=n ,即方陣時:直接可求唯一解
    • k+1>nk+1>n 時,有無數解

有些情況我們會增加正態性假設。

一般線性模型的極大似然解

極大似然還有正態假設:yNn(Xβ,σ2I)\boldsymbol{y} \sim N_n\left(X\boldsymbol{\beta}, \sigma^2I\right) 或者 εNn(0,σ2I)\boldsymbol{\varepsilon} \sim N_n\left(\boldsymbol{0}, \sigma^2I\right) ,該假設下 σij=0\sigma_{ij}=0 表示隨機變量 yy (或者 ε\varepsilon)間獨立,或者說不相關。

有了正態性假設,可以得到極大似然算子。似然函數是 yy 的聯合密度函數,表示成 L(β,σ2)L(\boldsymbol{\beta}, \sigma^2)。現需要找到未知的 β\boldsymbol{\beta}σ2\sigma^2 使得對於給定的樣本(y\boldsymbol{y}XX)似然函數 L(β,σ2)L(\boldsymbol{\beta}, \sigma^2) 最大。此時被估計參數是求解參數的可能性最大。

L(β,σ2)=f(y;β,σ2)=1(2π)n/2σ2I1/2e(yXβ)T(σ2I)1(yXβ)/2=1(2πσ2)n/2e(yXβ)T(yXβ)/2σ2\begin{aligned} L(\boldsymbol{\beta}, \sigma^2) =f(\boldsymbol{y}; \boldsymbol{\beta}, \sigma^2) &=\frac{1}{(2\pi)^{n/2}\lvert\sigma^2I\rvert^{1/2}}e^{-(\boldsymbol{y}-X\boldsymbol{\beta})^T(\sigma^2I)^{-1}(\boldsymbol{y}-X\boldsymbol{\beta})/2} \\ &= \frac{1}{(2\pi\sigma^2)^{n/2}}e^{-(\boldsymbol{y}-X\boldsymbol{\beta})^T(\boldsymbol{y}-X\boldsymbol{\beta})/2\sigma^2} \end{aligned}

因為 yiy_i 間相互獨立,故 L(β,σ2)L(\boldsymbol{\beta}, \sigma^2) 也可通過 Πi=1nf(yi;xiTβ,σ2)\Pi_{i=1}^{n}f(y_i; \boldsymbol{x_i}^T\boldsymbol{\beta}, \sigma^2) 求得。有個指數不太方面求導,故取其對數:

lnL(β,σ2)=n2ln(2π)n2ln(σ2)12σ2(yXβ)T(yXβ)\text{ln}L(\boldsymbol{\beta}, \sigma^2) = -\frac{n}{2}\text{ln}(2\pi) - \frac{n}{2}\text{ln}(\sigma^2) - \frac{1}{2\sigma^2}(\boldsymbol{y}-X\boldsymbol{\beta})^T(\boldsymbol{y}-X\boldsymbol{\beta})

求偏導

lnL(β,σ2)β=12σ2(2XTXβ2XTy)=0XTXβ=XTyβ=(XTX)1XTy\frac{\partial\, \text{ln}L(\boldsymbol{\beta}, \sigma^2)}{\partial\boldsymbol{\beta}} = \frac{1}{2\sigma^2}\left(2X^TX\boldsymbol{\beta}-2X^T\boldsymbol{y}\right) = 0 \\ \Rightarrow X^TX\boldsymbol{\beta} = X^T\boldsymbol{y} \\ \Rightarrow \boldsymbol{\beta} = (X^TX)^{-1}X^T\boldsymbol{y}

然後發現極大似然和最小二乘對 β\boldsymbol{\beta} 的點估計一樣。

一般線性模型的進一步探討

探討一 回歸線過均值點

xˉ=1n(x1+xn),yˉ=1n(y1+yn)\bar{x}=\frac{1}{n}(x_1+\cdots x_n), \bar{y}=\frac{1}{n}(y_1+\cdots y_n) ,證明數據點 (x1,y1),,,(xn,yn)(x_1,y_1), ,\cdots,(x_n,y_n) 的最小二乘線經過 (xˉ,yˉ)(\bar{x}, \bar{y}) ,即證明 (xˉ,yˉ)(\bar{x}, \bar{y}) 滿足方程 yˉ=β^0+β^1xˉ\bar{y}=\hat{\beta}_0+\hat{\beta}_1\bar{x}

Proof.

把設計矩陣寫成 X=[1,x]X=\begin{bmatrix} \boldsymbol{1}, \boldsymbol{x} \end{bmatrix} ,因殘差向量 ε=yXβ^\boldsymbol{\varepsilon}=\boldsymbol{y}-X\hat{\boldsymbol{\beta}}ColX\text{Col}\,X 正交(根據最小二乘定義),而 1\boldsymbol{1} 也在 ColX\text{Col}\,X 中(XX 第一列),所以有:

0=1ε=1(yXβ^)=1Ty(1TX)β^=y[n,x][β0^β1^]=ynβ0^β1^x=nyˉnβ0^nβ1^xˉ(y=nyˉ,x=nxˉ)yˉ=β0^+β1^xˉ\begin{aligned} 0 &=\boldsymbol{1}\cdot\boldsymbol{\varepsilon} \\ &= \boldsymbol{1}\cdot\left(\boldsymbol{y}-X\hat{\boldsymbol{\beta}}\right)\\ &=\boldsymbol{1}^T\boldsymbol{y} - \left(\boldsymbol{1}^T X\right)\hat{\boldsymbol{\beta}} \\ &=\sum y- \begin{bmatrix} n , \sum x \end{bmatrix} \begin{bmatrix} \hat{\beta_0} \\ \hat{\beta_1} \end{bmatrix} \\ &= \sum y - n\hat{\beta_0} - \hat{\beta_1}\sum x \\ &= n\bar{y} - n\hat{\beta_0} - n\hat{\beta_1}\bar{x} \qquad (\sum y =n\bar{y}, \sum x=n\bar{x}) \\ \Rightarrow \\ &\bar{y} =\hat{\beta_0} + \hat{\beta_1}\bar{x} \end{aligned}

若自變量有多個,同理可得:

0=1ε=1(yXβ^)=1Ty(1TX)β^=y[n,x1,,xk][β0^β1^βk^]=ynβ0^β1^x1βk^xk=nyˉnβ0^nβ1^xˉ1nβk^xˉkyˉ=β0^+β1^xˉ1+cdots+βk^xˉk\begin{aligned} 0 &=\boldsymbol{1}\cdot\boldsymbol{\varepsilon} \\ &= \boldsymbol{1}\cdot\left(\boldsymbol{y}-X\hat{\boldsymbol{\beta}}\right)\\ &=\boldsymbol{1}^T\boldsymbol{y} - \left(\boldsymbol{1}^T X\right)\hat{\boldsymbol{\beta}} \\ &=\sum y- \begin{bmatrix} n , \sum x_1, \cdots, \sum x_k \end{bmatrix} \begin{bmatrix} \hat{\beta_0} \\ \hat{\beta_1} \\ \vdots \\ \hat{\beta_k} \end{bmatrix} \\ &= \sum y - n\hat{\beta_0} - \hat{\beta_1}\sum x_1 - \cdots - \hat{\beta_k}\sum x_k \\ &= n\bar{y} - n\hat{\beta_0} - n\hat{\beta_1}\bar{x}_1 - \cdots - n\hat{\beta_k}\bar{x}_k\\ \Rightarrow \\ &\bar{y} =\hat{\beta_0} + \hat{\beta_1}\bar{x}_1 + cdots + \hat{\beta_k}\bar{x}_k \end{aligned}


探討二 平均偏差形式

平均偏差形式指將自變量的均值規劃為 0 ,即 xi=0,for(x1,y1),,(xn,yn)\sum x_i=0, \text{for} (x_1,y_1), \cdots, (x_n,y_n) 。證明此時 XTXX^TX 為對角矩陣。

Proof.

XTX=[111x1x2xk][1x11x21xk]=[nxixi(xi2)]=[n00(xi2)]\begin{aligned} X^TX &= \begin{bmatrix} 1 & 1 & \cdots & 1 \\ x_1 & x_2 & \cdots & x_k \end{bmatrix} \begin{bmatrix} 1 & x_1 \\ 1 & x_2 \\ \vdots & \vdots \\ 1 & x_k \end{bmatrix} \\ &= \begin{bmatrix} n & \sum x_i \\ \sum x_i & \sum(x_i^2) \end{bmatrix} \\ &=\begin{bmatrix} n & 0 \\ 0 & \sum(x_i^2) \end{bmatrix} \end{aligned}

定義 SST SSR SSE

設線性方程 Xβ=yX\boldsymbol{\beta}=\boldsymbol{y} 的最小二乘解為 β^\hat{\boldsymbol{\beta}} ,有如下三個定義:

  1. SSR=Xβ^2SSR=\lVert X\hat{\boldsymbol{\beta}}\rVert^2 回歸項的平方和
  2. SSE=yXβ^2SSE=\lVert \boldsymbol{y} - X\hat{\boldsymbol{\beta}}\rVert^2殘差項的平方加
  3. SST=y2SST=\lVert \boldsymbol{y}\rVert^2 全部項的回歸和

討論三 回歸方程平方和的關係

證明: SST=SSR+SSESST=SSR+SSE

Proof.

SST=y2=y^+ε2=y^2+ε2(因 y^ 與ε 正交)=Xβ^2+yXβ^2=SSR+SSE\begin{aligned} SST=\lVert \boldsymbol{y} \rVert^2 &= \lVert \hat{\boldsymbol{y}} + \boldsymbol{\varepsilon} \rVert^2 \\ &= \lVert \hat{\boldsymbol{y}} \rVert^2 + \lVert\boldsymbol{\varepsilon} \rVert^2 \quad \text{(因 } \hat{\boldsymbol{y}} \text{ 與}\boldsymbol{\varepsilon}\text{ 正交)} \\ &= \lVert X\hat{\boldsymbol{\beta}}\rVert^2 + \lVert \boldsymbol{y} - X\hat{\boldsymbol{\beta}}\rVert^2 \\ &= SSR + SSE \end{aligned}

在統計中,該等式對於回歸理論和方差分析都非常重要。


討論四 SSESSE 的標準式

證明:

Xβ^2=β^XTy\lVert X\hat{\boldsymbol{\beta}} \rVert^2=\hat{\boldsymbol{\beta}}X^T\boldsymbol{y}

Proof.

β^\hat{\boldsymbol{\beta}} 滿足: XTXβ^=XTyX^TX\hat{\boldsymbol{\beta}}=X^T\boldsymbol{y} ,上式左邊等於:

SSR=Xβ^2=(Xβ^)T(Xβ^)=β^TXTXβ^=β^T(XTXβ^)=β^TXTy\begin{aligned} SSR=\lVert X\hat{\boldsymbol{\beta}} \rVert^2 &= (X\hat{\boldsymbol{\beta}})^T(X\hat{\boldsymbol{\beta}}) \\ &= \hat{\boldsymbol{\beta}}^TX^TX\hat{\boldsymbol{\beta}} \\ &= \hat{\boldsymbol{\beta}}^T(X^TX\hat{\boldsymbol{\beta}}) \\ &= \hat{\boldsymbol{\beta}}^TX^T\boldsymbol{y} \end{aligned}

這樣得到 SSESSE 的標準式:

SSE=yTyβ^TXTySSE = \boldsymbol{y}^T\boldsymbol{y}-\hat{\boldsymbol{\beta}}^TX^T\boldsymbol{y}

內積空間簡介

歐式內積即此前介紹過的點乘,現考慮複數的點乘。若 v=[v1,,vn]TCn\vec{v} = \begin{bmatrix} v_1,\cdots,v_{n} \end{bmatrix}^T \in \mathbb{C}^n ,歐式內積空間中的範數的平方為:

v2=vTv=vv=v12++vn2=v1v1++vnvn\begin{aligned} \lVert\vec{v}\rVert^2 &= \vec{v}^T\vec{v} = \vec{v}\cdot\vec{v} \\ &= \lvert v_1\rvert^2+\cdots+\lvert v_n\rvert^2 \\ &= v_1\overline{v_1}+\cdots+v_n\overline{v_n} \end{aligned}

可將 v2\lVert \vec{v} \rVert^2 看成 zz 與自己的歐式內積,上面的式子顯示 w=[w1,,wn]TCn\vec{w} = \begin{bmatrix} w_1,\cdots,w_{n} \end{bmatrix}^T \in \mathbb{C}^nzz 的歐式內積應為:

vw=w1z1++wnzn\vec{v}\cdot\vec{w} = w_1\overline{z_1} + \cdots +w_n\overline{z_n}

所以 w\vec{w}z\vec{z} 的位置交換的時候,需要共軛:

wv=vw\vec{w}\cdot\vec{v} = \overline{\vec{v}\cdot\vec{w}}

基本定義

定義 內積

F\mathbb{F} 上的向量空間 VV 上有一函數,它把 VV 中每一個有序向量對 (u,v)(\vec{u},\vec{v}) 映射到一個數 u,vF\langle \vec{u},\vec{v} \rangle\in \mathbb{F} 上,該函數稱為 內積 ,並有如下特性(這些特性也是定義,即公理):

  • 非負確定性:v,v0,v,v=0    v=0,vV\langle \vec{v},\vec{v} \rangle \geq 0 ,\,\, \langle \vec{v},\vec{v} \rangle = 0 \iff \vec{v}=\vec{0},\,\, \forall \vec{v} \in V
  • 首位可加性:u+v,w=u,w+v,w,u,v,wV\langle \vec{u}+\vec{v}, \vec{w} \rangle = \langle \vec{u}, \vec{w} \rangle + \langle \vec{v}, \vec{w} \rangle, \,\, \forall \vec{u},\vec{v}, \vec{w}\in V
  • 首位齊次性: λu,v=λu,v,u,vV\langle \lambda \vec{u}, \vec{v} \rangle=\lambda\langle \vec{u}, \vec{v} \rangle, \,\, \forall \vec{u},\vec{v}\in V
    • 上面兩條可以合併為首位線性:αu+βv,w=αu,w+βv,w,u,v,wV\langle \alpha\vec{u}+\beta\vec{v}, \vec{w} \rangle = \alpha\langle \vec{u}, \vec{w} \rangle + \beta\langle \vec{v}, \vec{w} \rangle, \,\, \forall \vec{u},\vec{v}, \vec{w}\in V
  • 共軛對稱性:u,v=v,u,u,vV\langle \vec{u},\vec{v} \rangle = \overline{\langle \vec{v},\vec{u} \rangle}, \,\, \forall \vec{u},\vec{v}\in V

實屬的共軛複數就是它自己,如果在實屬域上考慮內積,最後一條的共軛複數可簡化為: u,v=v,u\langle \vec{u},\vec{v} \rangle =\langle \vec{v},\vec{u} \rangle,可加性和齊次性不再局限於首位。

內積

  • Fn\mathbb{F}^n 上的 歐式內積空間 的定義為:

(w1,,wn),(z1,,zn)=w1z1++wnzn.\langle \left( w_1, \cdots, w_n \right), \left( z_1, \cdots, z_n \right) \rangle = w_1\overline{z_1} + \cdots + w_n\overline{z_n}.

  • c1,,cnc_1, \cdots, c_n 為正數,那麼 Fn\mathbb{F}^n 上的一個內積可定義為:

(w1,,wn),(z1,,zn)=c1w1z1+cnwnzn.\langle \left( w_1, \cdots, w_n \right), \left( z_1, \cdots, z_n \right) \rangle = c_1w_1\overline{z_1} + \cdots c_nw_n\overline{z_n}.

在實屬域上,(w1,,wn),(z1,,zn)=c1w1z1+cnwnzn\langle\left( w_1, \cdots, w_n \right),\left( z_1, \cdots, z_n \right)\rangle=c_1w_1 z_1 + \cdots c_nw_nz_n,可以定義對角矩陣 A=[c1,0,,00,c2,,00,0,,cn]A=\begin{bmatrix} &c_1, &0, &\cdots, &0 &\\ &0, &c_2, &\cdots, &0 &\\ &0,&0, &\cdots, &c_n &\end{bmatrix} , 和 Rn\mathbb{R}^n 上兩個向量 w=[w1wn],z=[z1zn]\vec{w}=\begin{bmatrix} w_1 \\ \vdots \\ w_n \end{bmatrix}, \vec{z}=\begin{bmatrix} z_1 \\ \vdots \\ z_n \end{bmatrix},則:

wTAz=[w1wn][c1,0,,00,c2,,00,0,,cn][z1zn]=c1w1z1++cnwnzn\begin{aligned} \vec{w}^TA\vec{z} &= \begin{bmatrix} w_1 \cdots w_n \end{bmatrix} \begin{bmatrix} &c_1, &0, &\cdots, &0 &\\ &0, &c_2, &\cdots, &0 &\\ &0,&0, &\cdots, &c_n &\end{bmatrix} \begin{bmatrix} z_1 \\ \vdots \\ z_n \end{bmatrix}\\ &=c_1w_1z_1 + \cdots + c_nw_nz_n \end{aligned}

  • 也可以在連續(實屬域上)函數的向量空間上定義內積空間,如假設 f,gf,g[a,b][a,b] 上連續(連續函數可積),則:

f,g=abf(t)g(t)dt\langle f,g \rangle = \int_a^bf(t)g(t)dt

(1)檢查對稱性

f,g=abf(t)g(t)dtg,f=abg(t)f(t)dt=abf(t)g(t)dt\begin{aligned} &\langle f,g \rangle = \int_a^bf(t)g(t)dt \\ &\langle g,f \rangle = \int_a^bg(t)f(t)dt = \int_a^bf(t)g(t)dt \end{aligned}

(2)檢查線性

αf+βg,h=ab[αf(t)+βg(t)]h(t)dt=ab[αf(t)h(t)+βg(t)h(t)]dt=αabf(t)h(t)dt+βabg(t)h(t)dt=αf,h+βg,h\begin{aligned} \langle \alpha f+\beta g,h \rangle &= \int_a^b\left[\alpha f(t)+\beta g(t)\right]h(t)dt \\ &= \int_a^b\left[\alpha f(t)h(t)+\beta g(t)h(t)\right]dt\\ &= \alpha\int_a^bf(t)h(t)dt+\beta\int_a^bg(t)h(t)dt\\ &= \alpha\langle f,h \rangle + \beta\langle g,h \rangle \end{aligned}

(3)檢查非負確定性

f,f=abf(t)f(t)dt=ab[f(t)]2dt0\begin{aligned} \langle f,f \rangle &= \int_a^bf(t)f(t)dt \\ &= \int_a^b\left[f(t)\right]^2dt \geq 0 \end{aligned}

函數 [f(t)]2\left[f(t)\right]^2[a,b]\left[a,b\right] 上連續且非負,若 [f(t)]2\left[f(t)\right]^2 的定積分為 0 ,則 [f(t)]2\left[f(t)\right]^2 必須在 [a,b]\left[a,b\right] 上處處為 0,反之亦然。

  • 多項式函數上也可以定義出內積:

p,q=0p(x)q(x)exdx\langle p,q \rangle = \int_0^{\infty}p(x)q(x)e^{-x}dx

定義 內積空間

一個 內積空間 是一個向量空間 VVVV 上的一個內積。

最常見的內積空間的例子是 Fn\mathbb{F}^n 和歐式內積。

內積的基本性質

  • uV\forall \vec{u} \in V ,把 v\vec{v} 帶到 u,v\langle \vec{u}, \vec{v} \rangle 的函數是 VVF\mathbb{F} 的一個線性映射
  • 0,u=0,uV\langle \vec{0},\vec{u} \rangle=0, \,\, \forall \vec{u} \in V
  • u,0=0,uV\langle \vec{u},\vec{0} \rangle=0, \,\, \forall \vec{u} \in V
  • u,v+w=u,v+u,w,u,v,wV\langle \vec{u}, \vec{v}+\vec{w} \rangle = \langle \vec{u}, \vec{v} \rangle + \langle \vec{u}, \vec{w} \rangle, \,\, \forall \vec{u},\vec{v}, \vec{w} \in V
  • u,λv=λu,v,λF,u,vV\langle \vec{u}, \lambda\vec{v}\rangle = \overline{\lambda}\langle \vec{u}, \vec{v}\rangle, \,\, \forall \lambda\in\mathbb{F},\,\, \forall \vec{u}, \vec{v} \in V

Proof.

1.\, 檢驗一個映射是否是線性映射只消確認其是否符合疊加原理

c1u1+c2u2,v=c1u1,v+c2u2,v(首位可加性)=c1u1,v+c2u2,v(首位齊次性)\begin{aligned} &\langle c_1\vec{u_1}+c_2\vec{u_2},\vec{v} \rangle \\ =& \langle c_1\vec{u_1},\vec{v} \rangle + \langle c_2\vec{u_2},\vec{v} \rangle \text{(首位可加性)} \\ =& c_1\langle \vec{u_1},\vec{v} \rangle + c_2\langle \vec{u_2},\vec{v} \rangle \text{(首位齊次性)} \end{aligned}

故滿足疊加性,為線性映射。

2.\, 性質 1 說明內積可以看作一個線性映射,故一定有 00\vec{0} \mapsto 0

3.\,u,0=0,u=0=0\langle \vec{u},\vec{0} \rangle=\overline{\langle \vec{0},\vec{u} \rangle}=\overline{0}=0

4.\, 對於 u,v,wV\forall \vec{u},\vec{v}, \vec{w} \in V :

u,v+w=v+w,u=v,u+w,u=v,u+w,u=u,v+u,w\begin{aligned} \langle \vec{u}, \vec{v}+\vec{w} \rangle &= \overline{\langle \vec{v}+\vec{w},\vec{u}\rangle} \\ &= \overline{\langle \vec{v},\vec{u}\rangle + \langle \vec{w},\vec{u}\rangle} \\ &= \overline{\langle \vec{v},\vec{u}\rangle} + \overline{\langle \vec{w},\vec{u}\rangle} \\ &= \langle \vec{u},\vec{v}\rangle + \langle \vec{u},\vec{w}\rangle \end{aligned}

5.\,對於 λF,u,vV\forall \lambda\in\mathbb{F},\,\, \forall \vec{u}, \vec{v} \in V

u,λv=λv,u=λv,u=λv,u=λu,v\begin{aligned} \langle \vec{u}, \lambda\vec{v}\rangle &= \overline{\langle \lambda\vec{v}, \vec{u}\rangle} \\ &= \overline{\lambda\langle \vec{v}, \vec{u}\rangle} \\ &= \overline{\lambda}\,\overline{\langle \vec{v}, \vec{u}\rangle} \\ &= \overline{\lambda}\,\langle \vec{u}, \vec{v}\rangle \end{aligned}

範數,距離和正交性

定義 範數

對於 vV\vec{v} \in V ,其 範數 v\lVert \vec{v} \rVert 被定義為:

v=v,v.\lVert \vec{v} \rVert = \sqrt{\langle \vec{v} , \vec{v} \rangle} .

vV\vec{v} \in V ,下列性質顯然成立:

  1. v=0    v=0\lVert \vec{v} \rVert=0 \iff \vec{v} = \vec{0}
  2. λv=λv,λF\lVert \lambda\vec{v} \rVert= \lvert \lambda \rvert \, \lVert \vec{v} \rVert, \,\, \forall \lambda \in \mathbb{F}

Proof.

1略

2中:

λv2=λv,λv=λλv,v=λ2v2\begin{aligned} \lVert \lambda\vec{v} \rVert^2 &= \langle \lambda\vec{v},\lambda\vec{v} \rangle \\ &=\lambda\overline{\lambda} \langle \vec{v},\vec{v} \rangle \\ &=\lvert \lambda \rvert^2 \lVert \vec{v} \rVert^2 \end{aligned}