方差分析及回归分析

本文最后更新于 2024年12月6日 晚上

方差分析及回归分析

单因素试验的方差分析

分组的依据称为因素,因素的不同状态称为因素的水平,只有一个因子,按因子的不同水平来分组的试验称为单因素试验

假设因素有个水平,n个对象参与了试验,假定对应于因素第j个水平的组中有\(n_j\)个试验对象,响应变量数据为\(X_{1j},X_{2j},\cdots,X_{n_jj},j=1,2,\cdots,s\)

通常假定:

\(\begin{align}&X_{ij}=\mu_j+\varepsilon_{ij}\\&\varepsilon\sim N(0,\sigma^2),各\varepsilon_{ij}独立\\&i=1,2,\cdots,n_j,j=1,2,\cdots,s\end{align}\)

检验假设:

\(H_0:\mu_1=\mu_2=\cdots=\,\mu_s\)

\(H_1:\mu_1,\mu_2,,\cdots,\mu_s不全相等\)

\(\mu=\frac{1}{n}\sum^s_{j=1}n_j\mu_j,\sum^s_{j=1}n_j=n\)

水平\(A_j\)效应:\(\delta_j=\mu_j-\mu,j=1,2,\cdots,s\)

注意:\(n_1\delta_1+n_2\delta_2+\dots+n_s\delta_s=0\)

总偏差平方和\(S_T=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X)^2\)

\(\overline X=\frac{1}{n}\sum^s_{j=1}\sum^{n_j}_{i=1}X_{ij}=\frac{1}{n}\sum^s_{j=1}n_j\overline X_{\cdot j}\)

效应平方和\(S_A=\sum^s_{j=1}n_j(\overline X_j-\overline X)^2=\sum^s_{j=1}n_j\overline X_j^2-n\overline X^2\)

误差平方和\(S_E=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})^2\)

性质1:\(S_T=S_A+S_E\) \[ \begin{aligned} &证明:\\ S_T&=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X)^2\\ &=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j}+\overline X_{\cdot j}-\overline X)\\ &=\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})^2+\sum^s_{j=1}\sum^{n_j}_{i=1}(\overline X_{\cdot j}-\overline X)^2+2\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{\cdot j-\overline X})(X_{ij}-\overline X_{\cdot j})\\ &=S_A+S_E\\ 补充:&\sum^s_{j=1}\sum^{n_j}_{i=1}(X_{\cdot j-\overline X})(X_{ij}-\overline X_{\cdot j})=\sum^s_{j=1}(X_{\cdot j-\overline X})\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})=0\\ \end{aligned} \] 性质2:\(E(S_T)=\sum^s_{j=1}n_j\delta_j^2+(n-1)\sigma^2\)

\(E(S_A)=\sum^s_{j=1}n_j\delta_j^2+(s-1)\sigma^2\)

\(E(S_E)=(n-s)\sigma^2\) \[ \begin{aligned} 证明:\\ E(S_T)=&E\left(\sum^s_{j=1}\sum^{n_j}_{i=1}\left(X_{ij}-\overline X\right)^2\right)=E(\sum^s_{j=1}\sum^{n_j}_{i=1}X_{ij}^2-n\overline X^2)\\ =&\sum^s_{j=1}\sum^{n_j}_{i=1}E\left(X_{ij}^2\right)-nE(\overline X^2)\\ =&\sum^s_{j=1}\sum^{n_j}_{i=1}[\sigma^2+(\mu+\delta_j)^2]-n[\dfrac{\sigma^2}{n}+\mu^2]\\ =&n\sigma^2+n\mu^2+2\mu\sum^s_{j=1}n_j\delta_j+\sum^s_{j=1}n_j\delta_j^2-\sigma^2-n\mu^2=\sum^s_{j=1}n_j\delta^2_j+(n-1)\sigma^2\\ 补充:&E(\overline X)=\mu,E(\overline X^2)=\mu^2+\dfrac{\sigma^2}{n}\\ E(S_E)=&\sum^s_{j=1}E\left\{\sum^{n_j}_{i=1}(X_{ij}-\overline X_{\cdot j})^2\right\}=\sum^s_{j=1}(n_j-1)\sigma^2=(n-s)\sigma^2\\ E(S_A)=&E(S_T-S_E)=\sum^s_{j=1}n_j\delta_j^2+(s-1)\sigma^2 \end{aligned} \] 性质3:

  1. \(S_A,S_E\)相互独立
  2. \(\dfrac{x_E}{\sigma^2}\sim\chi^2(n-s)\)
  3. \(H_0\)为真时,\(\dfrac{S_A}{\sigma^2}\sim\chi^2(s-1)\)

\(\Rightarrow F=\dfrac{\dfrac{S_A}{s-1} }{\dfrac{S_E}{n-s} }\sim F(s-1,n-s)\)

在给定水平\(\alpha\)时,检验拒绝域\(F=\dfrac{\dfrac{S_A}{s-1} }{\dfrac{S_E}{n-s} }\geq F_\alpha(s-1,n-s)\)

未知参数的估计

  1. \(\hat\sigma^2=\dfrac{S_E}{n-s}\)
  2. \(\hat\mu=\overline X\)
  3. \(\hat\mu_j=\overline X_j\)
  4. \(\hat\delta_j=\overline X_j-\overline X\)

以上估计均为相应参数的无偏估计

\(\mu_j-\mu_k=\delta_j-\delta_k(j\neq k)\)区间估计

\(\left(\overline X_{\cdot j}-\overline X_{\cdot k}\mp t_{\alpha/2}(n-s)\sqrt{\overline S_E(1/n_j+1/n_k)}\right)\)\(\mu_j-\mu_k\)的水平为\(1-\alpha\)的置信区间

双因素试验的方差分析

双因素等重复试验的方差分析

双因素等重复试验的方差分析

\(\begin{align}&X_{ijk}=\mu_{ij}+\varepsilon_{ijk}\\&\varepsilon\sim N(0,\sigma^2),各\varepsilon_{ijk}独立\\&i=1,\dots,r,j=1,\dots,s,k=1,\dots,t\\&\mu_{ij},\sigma^2均为未知参数\end{align}\)

总平均\(\mu=\dfrac{1}{rs}\sum^r_{i=1}\sum^s_{j=1}\mu_{ij}\)

\(\mu_{i\cdot}=\frac{1}{s}\sum^s_{j=1}\mu_{ij},i=1,\dots,r,\\\mu_{\cdot j}=\frac{1}{r}\sum^r_{i=1}\mu_{ij},j=1,\dots,s\)

\(水平A_i的效应\alpha_i=\mu_{i\cdot}-\mu,i=1,\dots,r\)

\(水平B_j的效应\beta_j=\mu_{\cdot j}-\mu,j=1,\dots,s\)

\(\sum^r_{i=1}\alpha_i=0,\sum^s_{j=1}\beta_j=0\)

\(水平A和水平B的交互效应\gamma_{ij}=\mu_{ij}-\mu_{i\cdot}-\mu_{\cdot j}+\mu\)

\(\sum^r_{i=1}\gamma_{ij}=0,\sum^s_{j=1}\gamma_{ij}=0\)

模型:\(\begin{cases}X_{ijk}=\mu+\alpha_i+\beta_j+\gamma_{ij}+\varepsilon_{ijk}\\\varepsilon_{ijk}\sim N(0,\sigma^2)\\i=1,\dots,r,j=1,\dots,s,k=1,\dots,t.\\\sum^r_{i=1}\alpha_i=0,\sum^s_{j=1}\beta_j=0,\sum^r_{i=1}\gamma_{ij}=0.\sum^s_{j=1}\gamma_{ij}=0.\\\mu,\alpha_i,\beta_i,\gamma_{ij},\sigma^2均未知\end{cases}\)

分别校验假设

\(𝐻_{01}: 𝛼_1 = 𝛼_2 = ⋯ = 𝛼_𝑟 = 0, 𝐻_{11}: 𝛼_1, . . . , 𝛼_𝑟 不全是零\\𝐻_{02}: 𝛽_1 = 𝛽_2 = ⋯ = 𝛽_𝑠 = 0, 𝐻_{12}: 𝛽_1, . . . , 𝛽_𝑠 不全是零\\𝐻_{03}: 𝛾_{11} = 𝛾_{12} = ⋯ = 𝛾_{𝑟𝑠} = 0, 𝐻_{13}: 𝛾_{11}, . . . , 𝛾_{𝑟𝑠} 不全是零\)

总偏差平方和\(S_T=\sum^r_{i=1}\sum^s_{j=1}\sum^t_{k=1}(X_{ijk}-\overline X)^2\)

误差平方和\(S_E=\sum^r_{i=1}\sum^s_{j=1}\sum^t_{k=1}(X_{ijk}-\overline X_{ij\cdot})^2\)

因素A的效应平方和:\(S_A=st\sum^r_{i=1}(\overline X_{i\cdot\cdot}-\overline X_{ij\cdot})^2\)

因素B的效应平方和:\(S_B=rt\sum^s_{i=1}(\overline X_{\cdot j\cdot}-\overline X)\)

AB交互效应平方和:\(S_{A\times B}=t\sum^r_{i=1}\sum^s_{j=1}(\overline X_{ij\cdot}-\overline X_{i\cdot\cdot}-\overline X_{\cdot j\cdot}+\overline X)^2\)

性质1:\(S_T=S_A+S_B+S_{A\times B}+S_E\)

性质2:

\(E\left(\dfrac{S_E}{rs(t-1)}\right)=\sigma^2\)

\(E\left(\dfrac{S_A}{r-1}\right)=\sigma^2+\dfrac{st\sum^r_{i=1}\alpha^2_i}{r-1}\)

\(E(\dfrac{S_B}{s-1})=\sigma^2+\dfrac{rt\sum^s_{j=1}\beta_j^2}{s-1}\)

\(E\left(\dfrac{S_{A\times B} }{r-1}\right)=\sigma^2+\dfrac{t\sum^r_{i=1}\sum^s_{j=1}\gamma^2_{ij} }{(r-1)(s-1)}\)

各个假设的拒绝域

\(H_{01}\):\(F_A\geq F_\alpha(r-1,rs(t-1))\)

\(H_{02}:F_B\geq F_\alpha(s-1,rs(t-1))\)

\(H_{03}:F_{A\times B}=\dfrac{\dfrac{S_A}{(r-1)(s-1)} }{\dfrac{S_E}{rs(t-1)} }\sim F((r-1)(s-1),rs(t-1))\)

\(F_{A\times B}\geq F_\alpha((r-1)(s-1),rs(t-1))\)

双因素试验方差分析表

双因素无重复试验的方差分析

双因素无重复试验的方差分析表

一元线性回归分析

估计\(\mu(x)=a+bx\)的问题称为求一元线性回归问题

基本假设:\(\begin{cases}Y=a+bx+\varepsilon\\E(\varepsilon)=0,D(\varepsilon)=\sigma^2\end{cases}\)

正态假设:\(\varepsilon\sim N(0,\sigma^2)\)

针对的问题

  1. a,b的估计
  2. \(\sigma^2\)的估计
  3. 线性假设的显著性检验
  4. 回归系数b的置信区间
  5. 回归函数\(\mu(x)=a+bx\)的点估计和置信区间

最小二乘估计

\(Q(a,b)=\sum^n_{i=1}(y_i-a-bx_i)^2\)

\(Q(\hat a,\hat b)=\min\limits_{a,b} Q(a,b)\)

\(\dfrac{\delta Q}{\delta a}=-2\sum^n_{i=1}(y_i-a-bx_i)=0\)

\(\dfrac{\delta Q}{\delta b}=-2\sum^n_{i=1}(y_i-a-bx_i)x_i=0\)

正规方程组:\(\left(\sum\limits^n_{i=1}x_i\right)a+\left(\sum\limits^n_{i=1}x_i^2\right)b=\sum\limits^n_{i=1}x_iy_i\)

a,b的最小二乘估计:\(\hat a=\hat y-\hat x\hat b,\hat b=\dfrac{S_{xy} }{S_{xx} }\)

\(Q_e=\sum^n_{i=1}e^2_i=\sum^n_{i=1}(y_i-\hat y_i)^2=Q(\hat a,\hat b)\)

\(Q_e=S_{yy}-\hat bS_{xy}\)

误差方差的估计\(\hat\sigma^2=\dfrac{Q_e}{n-2}\)

线性假设的显著性检验

\(H_0:b=0,H_1:b\neq 0\)

若原假设被拒绝,则说明回归效果是显著的

\(\hat b\sim N(b,S^{-1}_{xx}\sigma^2)\)

\(\dfrac{(n-2)\hat \sigma^2}{\sigma}=\dfrac{Q_e}{\sigma^2}\sim \chi^2(n-2)\)

\(\hat b与Q_e独立\)

检验拒绝域\(|t|=\dfrac{1}{\hat\sigma}\sqrt{S_{xx} }\geq t_{\alpha/2}(n-2)\)

回归系数b的置信区间

\(\dfrac{\hat b-b}{\hat\sigma}\sqrt{S_{xx} }\sim t(n-2)\)

\(\dfrac{|\hat b-b|}{\hat \sigma}\sqrt{S_{xx} }\leq t_{\alpha/2}(n-2)\)

b的置信水平为\(1-\alpha\)的置信区间: \(\left(\hat b\pm t_{\alpha/2}(n-2)\times \dfrac{\hat \sigma}{\sqrt{S_{xx} } }\right)\)

\(\mu(x)=a+bx\)函数值的点估计和置信空间

点估计:\(\hat y_0=\hat\mu(x_0)=\hat a+\hat bx_0\)

置信空间:\(\hat Y_0\pm t_{\alpha/2}(n-2)\hat\sigma\sqrt{\dfrac{1}{n}+\dfrac{(x_o-\overline x)^2}{S_xx} }\)


方差分析及回归分析
https://meteor041.git.io/2024/12/06/方差分析及回归分析/
作者
meteor041
发布于
2024年12月6日
许可协议