方差分析及回归分析
本文最后更新于 2024年12月6日 晚上
方差分析及回归分析
单因素试验的方差分析
分组的依据称为因素,因素的不同状态称为因素的水平,只有一个因子,按因子的不同水平来分组的试验称为单因素试验
假设因素有个水平,n个对象参与了试验,假定对应于因素第j个水平的组中有\(n_j\)个试验对象,响应变量数据为\(X_{1j},X_{2j},\cdots,X_{n_jj},j=1,2,\cdots,s\)
通常假定:
\(\begin{align}&X_{ij}=\mu_j+\varepsilon_{ij}\\&\varepsilon\sim N(0,\sigma^2),各\varepsilon_{ij}独立\\&i=1,2,\cdots,n_j,j=1,2,\cdots,s\end{align}\)
检验假设:
\(H_0:\mu_1=\mu_2=\cdots=\,\mu_s\)
\(H_1:\mu_1,\mu_2,,\cdots,\mu_s不全相等\)
\(\mu=\frac{1}{n}\sum^s_{j=1}n_j\mu_j,\sum^s_{j=1}n_j=n\)
水平\(A_j\)的效应:\(\delta_j=\mu_j-\mu,j=1,2,\cdots,s\)
注意:\(n_1\delta_1+n_2\delta_2+\dots+n_s\delta_s=0\)
总偏差平方和\(S_T=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X)^2\)
\(\overline X=\frac{1}{n}\sum^s_{j=1}\sum^{n_j}_{i=1}X_{ij}=\frac{1}{n}\sum^s_{j=1}n_j\overline X_{\cdot j}\)
效应平方和\(S_A=\sum^s_{j=1}n_j(\overline X_j-\overline X)^2=\sum^s_{j=1}n_j\overline X_j^2-n\overline X^2\)
误差平方和\(S_E=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})^2\)
性质1:\(S_T=S_A+S_E\) \[ \begin{aligned} &证明:\\ S_T&=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X)^2\\ &=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j}+\overline X_{\cdot j}-\overline X)\\ &=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})^2+\sum^s_{j=1}\sum^{n_j}_{i=1}(\overline X_{\cdot j}-\overline X)^2+2\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{\cdot j-\overline X})(X_{ij}-\overline X_{\cdot j})\\ &=S_A+S_E\\ 补充:&\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{\cdot j-\overline X})(X_{ij}-\overline X_{\cdot j})=\sum^s_{j=1}(X_{\cdot j-\overline X})\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})=0\\ \end{aligned} \] 性质2:\(E(S_T)=\sum^s_{j=1}n_j\delta_j^2+(n-1)\sigma^2\)
\(E(S_A)=\sum^s_{j=1}n_j\delta_j^2+(s-1)\sigma^2\)
\(E(S_E)=(n-s)\sigma^2\) \[ \begin{aligned} 证明:\\ E(S_T)=&E\left(\sum^s_{j=1}\sum^{n_j}_{i=1}\left(X_{ij}-\overline X\right)^2\right)=E(\sum^s_{j=1}\sum^{n_j}_{i=1}X_{ij}^2-n\overline X^2)\\ =&\sum^s_{j=1}\sum^{n_j}_{i=1}E\left(X_{ij}^2\right)-nE(\overline X^2)\\ =&\sum^s_{j=1}\sum^{n_j}_{i=1}[\sigma^2+(\mu+\delta_j)^2]-n[\dfrac{\sigma^2}{n}+\mu^2]\\ =&n\sigma^2+n\mu^2+2\mu\sum^s_{j=1}n_j\delta_j+\sum^s_{j=1}n_j\delta_j^2-\sigma^2-n\mu^2=\sum^s_{j=1}n_j\delta^2_j+(n-1)\sigma^2\\ 补充:&E(\overline X)=\mu,E(\overline X^2)=\mu^2+\dfrac{\sigma^2}{n}\\ E(S_E)=&\sum^s_{j=1}E\left\{\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})^2\right\}=\sum^s_{j=1}(n_j-1)\sigma^2=(n-s)\sigma^2\\ E(S_A)=&E(S_T-S_E)=\sum^s_{j=1}n_j\delta_j^2+(s-1)\sigma^2 \end{aligned} \] 性质3:
- \(S_A,S_E\)相互独立
- \(\dfrac{x_E}{\sigma^2}\sim\chi^2(n-s)\)
- 当\(H_0\)为真时,\(\dfrac{S_A}{\sigma^2}\sim\chi^2(s-1)\)
\(\Rightarrow F=\dfrac{\dfrac{S_A}{s-1} }{\dfrac{S_E}{n-s} }\sim F(s-1,n-s)\)
在给定水平\(\alpha\)时,检验拒绝域为\(F=\dfrac{\dfrac{S_A}{s-1} }{\dfrac{S_E}{n-s} }\geq F_\alpha(s-1,n-s)\)
未知参数的估计
- \(\hat\sigma^2=\dfrac{S_E}{n-s}\)
- \(\hat\mu=\overline X\)
- \(\hat\mu_j=\overline X_j\)
- \(\hat\delta_j=\overline X_j-\overline X\)
以上估计均为相应参数的无偏估计
\(\mu_j-\mu_k=\delta_j-\delta_k(j\neq k)\)区间估计
\(\left(\overline X_{\cdot j}-\overline X_{\cdot k}\mp t_{\alpha/2}(n-s)\sqrt{\overline S_E(1/n_j+1/n_k)}\right)\)为\(\mu_j-\mu_k\)的水平为\(1-\alpha\)的置信区间
双因素试验的方差分析
双因素等重复试验的方差分析

\(\begin{align}&X_{ijk}=\mu_{ij}+\varepsilon_{ijk}\\&\varepsilon\sim N(0,\sigma^2),各\varepsilon_{ijk}独立\\&i=1,\dots,r,j=1,\dots,s,k=1,\dots,t\\&\mu_{ij},\sigma^2均为未知参数\end{align}\)
总平均\(\mu=\dfrac{1}{rs}\sum^r_{i=1}\sum^s_{j=1}\mu_{ij}\)
\(\mu_{i\cdot}=\frac{1}{s}\sum^s_{j=1}\mu_{ij},i=1,\dots,r,\\\mu_{\cdot j}=\frac{1}{r}\sum^r_{i=1}\mu_{ij},j=1,\dots,s\)
\(水平A_i的效应\alpha_i=\mu_{i\cdot}-\mu,i=1,\dots,r\)
\(水平B_j的效应\beta_j=\mu_{\cdot j}-\mu,j=1,\dots,s\)
\(\sum^r_{i=1}\alpha_i=0,\sum^s_{j=1}\beta_j=0\)
\(水平A和水平B的交互效应\gamma_{ij}=\mu_{ij}-\mu_{i\cdot}-\mu_{\cdot j}+\mu\)
\(\sum^r_{i=1}\gamma_{ij}=0,\sum^s_{j=1}\gamma_{ij}=0\)
模型:\(\begin{cases}X_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+\varepsilon_{ijk}\\\varepsilon_{ijk}\sim N(0,\sigma^2)\\i=1,\dots,r,j=1,\dots,s,k=1,\dots,t.\\\sum^r_{i=1}\alpha_i=0,\sum^s_{j=1}\beta_j=0,\sum^r_{i=1}\gamma_{ij}=0.\sum^s_{j=1}\gamma_{ij}=0.\\\mu,\alpha_i,\beta_i,\gamma_{ij},\sigma^2均未知\end{cases}\)
分别校验假设
\(𝐻_{01}: 𝛼_1 = 𝛼_2 = ⋯ = 𝛼_𝑟 = 0, 𝐻_{11}: 𝛼_1, . . . , 𝛼_𝑟 不全是零\\𝐻_{02}: 𝛽_1 = 𝛽_2 = ⋯ = 𝛽_𝑠 = 0, 𝐻_{12}: 𝛽_1, . . . , 𝛽_𝑠 不全是零\\𝐻_{03}: 𝛾_{11} = 𝛾_{12} = ⋯ = 𝛾_{𝑟𝑠} = 0, 𝐻_{13}: 𝛾_{11}, . . . , 𝛾_{𝑟𝑠} 不全是零\)
总偏差平方和\(S_T=\sum^r_{i=1}\sum^s_{j=1}\sum^t_{k=1}(X_{ijk}-\overline X)^2\)
误差平方和\(S_E=\sum^r_{i=1}\sum^s_{j=1}\sum^t_{k=1}(X_{ijk}-\overline X_{ij\cdot})^2\)
因素A的效应平方和:\(S_A=st\sum^r_{i=1}(\overline X_{i\cdot\cdot}-\overline X_{ij\cdot})^2\)
因素B的效应平方和:\(S_B=rt\sum^s_{i=1}(\overline X_{\cdot j\cdot}-\overline X)\)
AB交互效应平方和:\(S_{A\times B}=t\sum^r_{i=1}\sum^s_{j=1}(\overline X_{ij\cdot}-\overline X_{i\cdot\cdot}-\overline X_{\cdot j\cdot}+\overline X)^2\)
性质1:\(S_T=S_A+S_B+S_{A\times B}+S_E\)
性质2:
\(E\left(\dfrac{S_E}{rs(t-1)}\right)=\sigma^2\)
\(E\left(\dfrac{S_A}{r-1}\right)=\sigma^2+\dfrac{st\sum^r_{i=1}\alpha^2_i}{r-1}\)
\(E(\dfrac{S_B}{s-1})=\sigma^2+\dfrac{rt\sum^s_{j=1}\beta_j^2}{s-1}\)
\(E\left(\dfrac{S_{A\times B} }{r-1}\right)=\sigma^2+\dfrac{t\sum^r_{i=1}\sum^s_{j=1}\gamma^2_{ij} }{(r-1)(s-1)}\)
各个假设的拒绝域
\(H_{01}\):\(F_A\geq F_\alpha(r-1,rs(t-1))\)
\(H_{02}:F_B\geq F_\alpha(s-1,rs(t-1))\)
\(H_{03}:F_{A\times B}=\dfrac{\dfrac{S_A}{(r-1)(s-1)} }{\dfrac{S_E}{rs(t-1)} }\sim F((r-1)(s-1),rs(t-1))\)
\(F_{A\times B}\geq F_\alpha((r-1)(s-1),rs(t-1))\)

双因素无重复试验的方差分析

一元线性回归分析
估计\(\mu(x)=a+bx\)的问题称为求一元线性回归问题
基本假设:\(\begin{cases}Y=a+bx+\varepsilon\\E(\varepsilon)=0,D(\varepsilon)=\sigma^2\end{cases}\)
正态假设:\(\varepsilon\sim N(0,\sigma^2)\)
针对的问题
- a,b的估计
- \(\sigma^2\)的估计
- 线性假设的显著性检验
- 回归系数b的置信区间
- 回归函数\(\mu(x)=a+bx\)的点估计和置信区间
最小二乘估计
\(Q(a,b)=\sum^n_{i=1}(y_i-a-bx_i)^2\)
\(Q(\hat a,\hat b)=\min\limits_{a,b} Q(a,b)\)
\(\dfrac{\delta Q}{\delta a}=-2\sum^n_{i=1}(y_i-a-bx_i)=0\)
\(\dfrac{\delta Q}{\delta b}=-2\sum^n_{i=1}(y_i-a-bx_i)x_i=0\)
正规方程组:\(\left(\sum\limits^n_{i=1}x_i\right)a+\left(\sum\limits^n_{i=1}x_i^2\right)b=\sum\limits^n_{i=1}x_iy_i\)
a,b的最小二乘估计:\(\hat a=\hat y-\hat x\hat b,\hat b=\dfrac{S_{xy} }{S_{xx} }\)
\(Q_e=\sum^n_{i=1}e^2_i=\sum^n_{i=1}(y_i-\hat y_i)^2=Q(\hat a,\hat b)\)
\(Q_e=S_{yy}-\hat bS_{xy}\)
误差方差的估计\(\hat\sigma^2=\dfrac{Q_e}{n-2}\)
线性假设的显著性检验
\(H_0:b=0,H_1:b\neq 0\)
若原假设被拒绝,则说明回归效果是显著的
\(\hat b\sim N(b,S^{-1}_{xx}\sigma^2)\)
\(\dfrac{(n-2)\hat \sigma^2}{\sigma}=\dfrac{Q_e}{\sigma^2}\sim \chi^2(n-2)\)
\(\hat b与Q_e独立\)
检验拒绝域\(|t|=\dfrac{1}{\hat\sigma}\sqrt{S_{xx} }\geq t_{\alpha/2}(n-2)\)
回归系数b的置信区间
\(\dfrac{\hat b-b}{\hat\sigma}\sqrt{S_{xx} }\sim t(n-2)\)
\(\dfrac{|\hat b-b|}{\hat \sigma}\sqrt{S_{xx} }\leq t_{\alpha/2}(n-2)\)
b的置信水平为\(1-\alpha\)的置信区间: \(\left(\hat b\pm t_{\alpha/2}(n-2)\times \dfrac{\hat \sigma}{\sqrt{S_{xx} } }\right)\)
\(\mu(x)=a+bx\)函数值的点估计和置信空间
点估计:\(\hat y_0=\hat\mu(x_0)=\hat a+\hat bx_0\)
置信空间:\(\hat Y_0\pm t_{\alpha/2}(n-2)\hat\sigma\sqrt{\dfrac{1}{n}+\dfrac{(x_o-\overline x)^2}{S_xx} }\)