样本及抽样分布
本文最后更新于 2024年12月13日 晚上
样本及抽样分布
随机样本
在相同条件下对总体X进行n次重复的,独立的观察,将n次观察结果按试验的次序记为\(X_1,X_2,...,X_n\),成为来自总体\(X\)的一个简单随机样本,n称为这个样本的容量
\((X_1,X_2,...,X_n)\)的分布函数:
\(F^*(x_1,x_2,...,x_n)=\prod\limits_{i=1}^nF(x_i)\)
\((X_1,X_2,...,X_n)\)的概率密度:
\(f^*(x_1,x_2,...,x_n)=\prod\limits_{i=1}^nf(x_i)\)
直方图和箱线图
直方图
- 高为\(\frac{f_i}{n\Delta}\)
箱线图
样本p分位数\(x_p\):
- 至少有\(np\)个观察值小于或等于\(x_p\)
- 至少有\(np(1-p)\)个观察值大于或等于\(x_p\)
\(x_p=\begin{cases}x_{[np]+1},np不是整数\\\frac{1}{2}[x_{(np)}+x_{(np+1)}],np是整数\end{cases}\)
\(p=0.5\rightarrow\)样本中位数
\(p=0.25\rightarrow\)样本第一四分位数
\(p=0.75\rightarrow\)样本第三四分位数
疑似异常值
\(Q_1-Q_2\mathop =\limits^{记为}IQR\)
\(若数据小于Q_1-1.5IQR或者大于Q_2+1.5IQR,就认为它是疑似异常值\)
抽样分布
\(X_1,X_2,\dots,X_n\)是来自总体X的一个样本,\(g(X_1,X_2,\dots,X_n)\)是\(X_1,X_2,\dots,X_n\)的函数,若\(g\)中不含未知参数,则称\(g(X_1,X_2,\dots,X_n)\)是一统计量
- 样本平均值\(\bar{X}=\frac{1}{n}\sum\limits_{i=1}^nX_i\)
- 样本方差\(S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar X)^2\)
- 样本k阶原点矩\(A_k=\frac{1}{n}\sum\limits^n_{i=1}X_i^k,k=1,2,\dots\)
\(S^2\)称为无偏估计(unbiased estimator)
无偏估计:估计出来的参数的数学期望等于被估计的参数的真实值.
样本的均值a是否为无偏估计\(\mu\)?
\(E(a)=\frac{1}{n}E(\sum_{i=1}^n x_i)=\frac{1}{n}\sum^n_{i=1}E(x_i)=\frac{1}{n}\sum^n_{i=1}\mu=\mu\)
样本的方差\(b=\frac{1}{n}\sum^n_{i=1}(X_i-\mu)^2\)是否是无偏估计?
\(E(b)=E(\frac{1}{n}\sum^n_{i=1}(X_i-\mu)^2)= \frac{1}{n}\sum^n_{i=1}E(X_i)-\frac{1}{n}E([2a\cdot n\cdot a])+E(a^2)=E(X_i^2)-E(a^2)=E^2(X)+D(X)-[E^2(a)+D(a)]=\mu^2+\sigma^2-\mu^2-\frac{1}{n}\sigma^2=\frac{n-1}{n}\sigma^2\) ### 经验分布函数
\(S(x)表示X_1,X_2,...,X_n中不大于x的随机变量的个数\)
\(F_n(x)=\frac{1}{n}S(x),-\infty<x<\infty\)
\(F_n(x)=\begin{cases}0,x<x_{(1)},\\\frac{k}{n},x_{(k)}\leq x<x_{(k+1)},\\1,x\geq x_{(n)},\end{cases}\)
可证:\(P\{\lim\limits_{n\rightarrow \infty}\sup\limits_{-\infty<x<\infty}|F_x(x)-F(x)|=0\}=1\)
\(\chi^2\)分布
分布
假设\(X_1,X_2,...,X_n\)是来自总体\(N(0,1)\)的样本且都服从标准正态分布\(N(0,1)\)
则称统计量\(\chi^2=X_1^2+X_2^2+...+X^2_n\sim\chi^2(n)\)
\(f(x)=\begin{cases}\frac{1}{ 2^{\frac{n}{2} }\Gamma(\frac{n}{2}) }e^{-\frac{x}{2} } x^{ \frac{n}{2}-1},x>0\\0,x\leq 0\end{cases}\)
其中\(\Gamma(x)=\int^{+\infty}_0t^{x-1}e^{-t}dt\)
在\(x>0\)时收敛,称为\(\Gamma\)函数
分布性质
- \(E(\chi^2(x))=n,D(\chi^2(n))=2n\)
- \(若X_1= \chi^2(n_1),X_2=\chi^2(n_2),X_1,X_2相互独立,X_1+X_2\sim \chi^2(n_1+n_2)\)
- \(\chi^2(x)\)的\(\alpha\)分位数:\(n>45时,\chi^2_\alpha(n)\approx\frac{1}{2}(z_\alpha+\sqrt{2n-1})^2\)
\(t\)分布
分布
\(X\sim N(0,1),Y\sim \chi^2(n),X,Y相互独立\)
\(T=\frac{X}{\sqrt{Y/N} }\),则称T所服从的分布称为自由度为\(n\)的\(T\)分布
其密度函数:
\(f(t)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\frac{t^2}{n})^{-\frac{n+1}{2} },-\infty<t<\infty\)
分布性质
- \(n\rightarrow \infty,f_n(t)\rightarrow \phi(t)=\frac{1}{\sqrt{2\pi} }e^{-\frac{t^2}{2} }\)
- \(f_n(t)\)是偶函数
\(F\)分布
\(f(t,n,m)=\begin{cases}\frac{\Gamma(\frac{n+m}{2})}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}(\frac{n}{m})^{\frac{n}{2} }t^{\frac{n}{2}-1}(1+\frac{n}{m}t)^{-\frac{n+m}{2} },t>0\\0,t\leq 0\end{cases}\)
性质
- \(P(F\leq F_\alpha(n,m))=\alpha\)
- \(\frac{1}{F}\sim F(m,n)\)
\(F_{1-\alpha}(n,m)=\frac{1}{F_\alpha(m,n)}\)
正态总体的样本均值与样本方差的分布
\(\bar X,S^2\)分别为样本均值,样本方差
\(E(\bar X)=\mu,D(\bar X)=\frac{\sigma^2}{n}{},E(S^2)=\sigma^2\)
\(\bar X\sim N(\mu, \frac{\sigma^2}{n})\)