• 1. 卡平方分布定义: 设 是来自正态总体N(0,1)的样本,则称统计量 所服从的分布为自由度是n的 分布。 记作 1第四章  抽 样 分 布
    • 2. 卡平方分布的实用形式 设 是来自X( X~N(μ,σ2 ) )的一个样本,则 这是 分布的实用形式。2第四章  抽 样 分 布
    • 3. 卡平方分布的临界值对于给定的概率a>0 及 我们称满足 的    为分布    的概率为α的临界值。3第四章  抽 样 分 布
    • 4. t分布定义: 设X ~ N(0,1 ),Y ~ ,且X和Y相互独立,则称随机变量 为服从参数为n的 t 分布,称n为分布的自由度 简记为4第四章  抽 样 分 布
    • 5. t分布的临界值对于给定的T~t(n)及概率a>0 ,我们称满足条件 的数值 为分布t(n)的概率为α的双侧(尾)临界值; 称满足条件    的数值 为分布t(n)的概率为α的单侧(尾)临界值。5第四章  抽 样 分 布
    • 6. t分布临界值的获得 为了方便工作,已将不同自由度下,对应于不同a值的t分布临界值列成了 t 值表,供统计工作者使用。 例如 当 n=13 α=0.05 时6第四章  抽 样 分 布
    • 7. t分布的实用定理(1) 设    是来自正态总体N(μ,σ2 )的一个样本,则有: 证17第四章  抽 样 分 布
    • 8. t分布的实用定理(2)设 和 分别是来自正态总体N(μ1,σ2)和N(μ2,σ2)的样本,且它们相互独立,则8第四章  抽 样 分 布
    • 9. t分布的实用定理(2) 当n1=n2=n时,上式可简化为:9第四章  抽 样 分 布
    • 10. F分布定义: 设X~X2 (n1),Y~X2 (n2),并且X和Y相互独立,则称随机变量 服从第一自由度为n1,第二自由度为n2的F分布,记为 F~F(n1,n2)10第四章  抽 样 分 布
    • 11. F分布的概率密度F分布的概率密度为 11第四章  抽 样 分 布
    • 12. F分布特点F分布有两个自由度,因此它的密度曲线种类较多,当n1,n2都趋于无穷时,分布图形趋于对称;12第四章  抽 样 分 布
    • 13. F分布特点当T~t(n)时,有T2 ~F(1,n); 如果X~F(n1,n2) ,则有1/X~F(n2,n1); 对于给定的概率a>0及F~F(n1,n2),我们称满足条件 的Fα(n1,n2)为分布F(n1,n2)的概率为α的临界值。13第四章  抽 样 分 布
    • 14. F分布特点 具有如下性质: 利用此式可以求出F分布表中没有列出的 临界值。14第四章  抽 样 分 布
    • 15. 例5.8设F~F(4,20),求该分布在a=0.01 和 a=0.99 时的临界点值。 解: 从F分布表可直接查得 F0.01 (4,20)=4.431 F0.99 (4,20)=F(1-0.01) (4,20) =1/F0.01 (20,4) =1/14.02 =0.07133 15第四章  抽 样 分 布
    • 16. F分布的实用定理设 和 分别是来自方差为 和 的正态总体的两个独立样本方差,样本容量分别为n1和n2,则16第四章  抽 样 分 布
    • 17. F分布的实用定理 即 特别当 = 时,有17第四章  抽 样 分 布
    • 18. 参数估计 数理统计的基本任务是如何根据样本所提供的信息,对总体的分布以及分布的参数作出统计推断。统计推断的主要内容分为两大类:总体参数估计和统计假设检验。18§6   参数估计的意义和内容
    • 19. 参数估计的基本任务  19§6   参数估计的意义和内容
    • 20. 参数估计的意义和内容当被研究的随机变量的分布类型已知时,要想完全确定随机变量的分布函数,还需确定分布函数中的参数值。通过样本确定分布函数中参数值的过程称为参数估计。另外在某些具体问题中事先并不知道总体的分布类型,而所关心的仅仅是总体的某些数字特征,如总体的数学期望、方差等。随机变量的数字特征同它的概率分布中的参数之间通常有一定的关系,因而对数字特征的估计也被称为参数估计。20§6   参数估计的意义和内容
    • 21. 参数估计的方法 参数估计的方法是从样本出发,构造出一些适当的统计量作为总体某些参数(或数字特征)的估计量。当取得一个样本值时,就以相应的统计量的值作为总体参数的估计值。 用于估计末知参数的统计量称为估计量21§6   参数估计的意义和内容
    • 22. 参数估计的类型 根据对被估计参数给出的值的情况,参数估计分为两种。 点估计 区间估计22§6   参数估计的意义和内容
    • 23. 参数点估计的方法 矩法是最常用的求点估计量的方法。 此外还有:极大似然法、顺序统计量法及最小卡平方法等。23§6.1 参数的点估计
    • 24. 参数的矩估计所谓矩估计,就是用样本矩作为总体矩的估计值。 许多分布中的参数其本身即是总体的各阶矩或矩的函数,如正态分布N(m,s2)中的参数m,s2就是这个分布的一阶原点矩和二阶中心矩。 统计学上可以证明,在总体矩存在的条件下,当样本容量n无限增大时,样本矩与其相应的总体矩任意接近的概率趋于1。24§6.1 参数的点估计
    • 25. 参数的矩估计因此,自然考虑用样本矩作为相应总体矩的估计量,也可以用样本数字特征作为相应的总体数字特征的估计量,从而求出末知参数的估计值,这种方法叫作矩估计法(也称为数字特征法),简称矩法。用矩法获得的估计值,叫矩估计值。矩法的思想实质是采用样本的经验分布和样本矩去替换总体的分布和总体矩的原则,称之为替换原则。25§6.1 参数的点估计
    • 26. 正态分布参数的矩估计对于正态分布,其期望和方差的矩估计量分别为:26§6.1 参数的点估计
    • 27. 估计量的评选准则用样本统计量作为总体参数的估计量时,其估计量的选取方法可以有多种。例如对于总体的数学期望,由矩估计法可用样本均值作为它的估计量,另外也可用样本的加权平均数作为它的估计量,甚至更为简单地用其中的一个观测值作为它的估计量。问题是哪个估计量是最佳的? 下面是几种常用的衡量估计量好坏的准则。27§6.1 参数的点估计
    • 28. 无偏性 定义:设 是未知参数 的估计量,若E( )= 则称 为 的无偏估计量。 这个准则表明,对于确定的参数来说,当我们用一个随机变量去估计它时,尽管不能保证它刚好等于该参数 ,但却要求它在参数附近摆动,也就是要求估计值没有系统偏差。 28§6.1 参数的点估计
    • 29. 例设 是来自总体X的一个样本,若X的期望和方差都存在,且 试证明:29§6.1 参数的点估计
    • 30. 例 解解:证 30§6.1 参数的点估计
    • 31. 例 解31§6.1 参数的点估计
    • 32. 例 解 证 可见它们都是无偏估计量。32§6.1 参数的点估计
    • 33. 有效性 一个参数的无偏估计量一般来说不是唯一的,对于同一个参数的多个无偏估计量,可以比较它们的方差来进一步比较它们的优劣。 定义:设  和  是参数  的两个无偏估计量,若var(  )<var(  ),则称  为有效估计量。 33§6.1 参数的点估计
    • 34. 例从一个期望为μ,方差为σ2 的总体中抽取两个样本,样本容量分别为n1和n2,且n1<n2,试问两个样本平均值  和  作为总体均值μ的估计量哪个更有效? 解: 又∵n1<n2 ∴var(  )>var(  )  ∴   是μ的有效估计量。34§6.1 参数的点估计
    • 35. 相容性在大数定律一节,我们看到当样本容量趋于无穷大时,样本平均数以概率1收敛于总体平均数。对于总体参数的估计量来说,我们也希望有上述性质。 定义:设 是未知参数 的估计量,如果对于任意给定的ε>0,有 则称  为  的相容估计量。35§6.1 参数的点估计
    • 36. 相容估计量贝努里定理表明,频率是f的相容估计量 由切贝雪夫定理知, 是 的相容估计量 样本的二阶中心矩 不是 的无偏估计量,却是它的相容估计量36§6.1 参数的点估计
    • 37. 相容估计量 当 时 即37§6.1 参数的点估计
    • 38. 最优估计量 即 都是最优估计量38§6.1 参数的点估计
    • 39. 抽样误差 由抽样引起的样本值与总体参数之间的差异称为抽样误差。 引起抽样误差的直接原因是由于总体中各个体之间存在差异,或重复试验中一些服从某种分布的偶然误差的存在。 39§6.1 参数的点估计
    • 40. 均数抽样误差的计算均数抽样误差的大小用样本平均数的波动情况来反映。 描述样本平均数波动情况的统计量就是样本平均数 这个随机变量的方差或标准差, 即 或     记均数抽样误差为: 统计学上把  称为标准误差,简称标准误。40§6.1 参数的点估计
    • 41. 抽样误差的估计 在实际工作中,由于总体方差是未知的,所以标准误也无法算得。但我们知道样本方差是总体方差的无偏估计量,因此可用S2 代替  计算出样本平均数方差的估计值,记为 式中 称为估计样本平均数方差41§6.1 参数的点估计
    • 42. 估计标准误估计样本平均数标准差则由下式给出: 称 为估计标准误。将S的计算式代入上式得42§6.1 参数的点估计
    • 43. 百分数资料的估计标准误由于百分数资料属于两点分布资料,前面已证明过,对于两点分布 其 E(X)=f var(X)=f(1-f) 故其标准误为 而其估计标准误为: 43§6.1 参数的点估计
    • 44. 例 随机抽取大田中10个玉米果穗,其长度记录如下: 12 16 17 14 15   11 16 15 17 19  设数据符合正态分布,试估计其总体平均数、方差、标准差及标准误。 解: 44§6.1 参数的点估计
    • 45. 例  解45§6.1 参数的点估计
    • 46. 例 从一大袋种子中随机抽取80粒进行萌发测试,结果其中有8粒不萌发种子。试估计该总体的均值、方差、及标准误。 解 设X=“不发芽种子”,则X服从两点分布46§6.1 参数的点估计
    • 47. 参数的区间估计点估计是用样本统计量直接给出总体相应参数的估计值,由于抽样误差的存在,不同的样本将会得到不同的点估计值。因此 =μ是不成立的。 由大数定律我们知道,当样本容量较大时, 的取值“多数”“靠近”总体均值,但这个“多数”多到什么程度,“靠近”又近到什么程度还是不清楚,也就是说点估计缺乏明确的精度概念。而区间估计在一定程度上可以弥补这个不足。47§6.2 参数的区间估计
    • 48. 置信区间定义:设 和 是建立在样本 上的两个统计量,如果对给定的 0<α<1, P( ≤ ≤ )=1-α成立,则称区间 [ , ] 为 的区间估计。1-α是预先给定的,称为置信水平(或置信概率,或置信度);该区间 也被称为参数 的置信度为1-α的置信区间。称 为置信下限,称 为置信上限。 称 为置信距,称( - )/2 为置信半径。48§6.2 参数的区间估计
    • 49. 置信区间的意义 置信区间的意义是:若反复抽样多次,每次的样本容量相等,每次的样本值确定一个区间[ , ],每个这样的区间要么包含 ,要么不包含 ,在这些区间中,包含 的占 100(1-α)%,不包含 的占100α%。 由此可见,区间估计给出了估计准确性的概率水平。49§6.2 参数的区间估计
    • 50. 区间估计的主要内容50§6.2 参数的区间估计
    • 51. 已知var(X),求数学期望的置信区间正态总体数学期望的置信区间 已知var(X),求E(X)的置信区间 设样本 来自正态总体X,且已知总体方差var(X)=σ2 , 这时 即51§6.2 参数的区间估计
    • 52. 已知var(X),求数学期望的置信区间对于给定的α(0<α<1) 使 成立的uα/2是存在的 即52§6.2 参数的区间估计
    • 53. 已知var(X),求数学期望的置信区间 最后得:53§6.2 参数的区间估计
    • 54. 已知var(X),求数学期望的置信区间由此我们得到了μ的置信水平为1-α的置信区间为 此区间通常简写为 对于给定的a,置信区间不是唯一的,但以长度最小的区间为最好的区间估计,一般对于对称分布,最好的区间估计应是对称区间,如上面所给出的区间就是这样一个区间。54§6.2 参数的区间估计
    • 55. 已知var(X),求数学期望的置信区间另外,在有些问题中,事先并不知道总体服从什么分布,在这种情况下,只要样本容量n充分大(一般n≥30),依中心极限定理, 近似服从正态分布 此时,也可用 作为总体E(X)的一个近似置信区间。55§6.2 参数的区间估计
    • 56. 例 某棉田36个单行的皮棉平均产量为4.1斤,设皮棉单行产量服从正态分布,且已知 σ2=0.09。求置信度1-a=99%时,该棉田单行皮棉产量的置信区间。56§6.2 参数的区间估计
    • 57. 例 解解:a=1-0.99=0.01,a/2=0.005, n=36, =4.1, s2=0.09 由标准正态分布表(实际用t分布表)查得 u0.05/2 =2.58 ,于是所求区间为 [4.1±2.58× ]=[4.0,4.2]57§6.2 参数的区间估计
    • 58. 区间估计的主要内容58§6.2 参数的区间估计
    • 59. 未知var(X),求E(X)的置信区间 当总体方差s2未知时,可由样本方差S2 估计s2,此时就不能再使用服从标准正态分布的U变量,而代之以T变量。由抽样分布一节我们知道 59§6.2 参数的区间估计
    • 60. 未知var(X),求E(X)的置信区间 由此,用和上面介绍的U变量完全类似的方法,我们有:60§6.2 参数的区间估计
    • 61. 未知var(X),求E(X)的置信区间 最后得到μ的置信水平为1-α的置信区间为:61§6.2 参数的区间估计
    • 62. 例 已知小麦的千粒重服从正态分布,但μ和σ2均未知。今从中抽取8个样品,测得平均千粒重为35.2克,样本标准差为1.64克。试估计该小麦置信度为95%的千粒重范围。 解:已知 =35.2 n=8 s=1.64 a=1-0.95=0.05 由此可得所求置信区间为: [35.2±2.365×1.64/ ]= [35.2±1.37]62§6.2 参数的区间估计
    • 63. 区间估计的主要内容63§6.2 参数的区间估计
    • 64. 两个总体期望之差的区间估计根据两个总体方差的不同情形,计算期望差的置信区间时,有三种不同的情况。 两总体方差已知 此时 即64§6.2 参数的区间估计
    • 65. 两个总体期望之差的区间估计得到    的置信度为1- a的置信区间为: 若两总体不是正态的,只要n1,n2足够大(大于30),则可用上式作为μ的1- a近似置信区间。若总体方差未知,只要样本容量足够大(大于50)则可将上式中的   和   用相应的样本方差代替,求出总体均值差的近似置信区间。65§6.2 参数的区间估计
    • 66. 例 测得100头某品种牛的平均体高 =133 cm,s1 =4.07 cm;而另一品种120 头牛的平均体高 =131 cm,s2 =2.92 cm。问这两种牛的体高至少能差多少?至多能差多少?( a=0.05)66§6.2 参数的区间估计
    • 67. 例  解解:设体高服从正态分布,由于样本容量充分大,所以所求置信区间可由下式求出 查表得 ,将已知数据代入上式得 =[2±0.95] =[1.05,2.95]67§6.2 参数的区间估计
    • 68. 均值差置信区间的意义若 的置信下限大于0,则可以认为 若 的置信上限小于0,则可以认为 若 的置信下限小于0而上限大于0,则可以认为68§6.2 参数的区间估计
    • 69. 区间估计的主要内容69§6.2 参数的区间估计
    • 70. σ2未知,两总体期望差的区间估计两总体方差相等 由t分布一节知道,此时 由此得到总体均值差的1- a置信区间为70§6.2 参数的区间估计
    • 71. σ2未知,两总体期望差的区间估计当两总体方差不等时, 不服从自由度为(n1+n2-2)的t分布。但此时如采用 修正自由度,T'将近似服从自由度为df'的t分布71§6.2 参数的区间估计
    • 72. 两总体方差不相等 由此得到两总体方差不相等时的总体均值差的1- a置信区间为:72§6.2 参数的区间估计
    • 73. 配对实验 配对实验是指这样的实验,来自两个总体的样本值是成对出现的,它的特点是n1=n2,一个样本中的某个数据必然对应于另一个样本中的相应数据。由于同一配对内两个供试材料的实验条件很接近,而且这一配对内的系统误差又可以通过这一对数据的差数来消除,从而使处理效果更加明显,因而可以减小实验误差,提高实验精度。73§6.2 参数的区间估计
    • 74. 配对数据的置信区间 配对实验的两个样本相互之间不独立,且每个样本也不再是简单随机样本。 将配对数据的两个相应数据相减,可以得到一个新样本。统计学上证明这个新样本的总体是服从正态分布的。对新样本期望的区间估计,相当于对原来两样本的期望差进行区间估计。74§6.2 参数的区间估计
    • 75. 例为检验两种不同蛋白质检测方法是否存在差异,对不同来源的七种蛋白质样品分别用这两种方法进行测试对比,得到如下测试结果: 试确定两种检测方法均值差的置信度为95%的置信区间。75§6.2 参数的区间估计
    • 76. 例 解解: 此题是典型的配对数据,如前所述,求原来两总体均值差的置信区间相当于求新总体D的均值置信区间。 对于来自D的样本,我们可以求出   n=7 76§6.2 参数的区间估计
    • 77. 例 解将以上数据代入单个总体均值置信区间公式, 得所求置信区间为: =[13.7±2.447× ] =[13.7±3.7 ] =[10.0, 17.4]77§6.2 参数的区间估计
    • 78. 正态总体方差的区间估计从卡平方分布一节内容可知,对来自正态总体的样本来说,随机变量 因此,对于给定的置信水平1-α,可以查 分布表,求出 和 使得 78§6.2 参数的区间估计
    • 79. 正态总体方差的区间估计 由此解得:79§6.2 参数的区间估计
    • 80. 正态总体方差的区间估计 从而得到总体方差1-α置信度的置信区间为:80§6.2 参数的区间估计
    • 81. 例从某小麦品种的麦田中随机抽取10株,它们的株高分别为:90,105,101,95,100,100,101,105,93,97 cm。试给出该小麦品种株高方差的置信度为95%的置信区间。 解:由题给数据算得样本方差为 S2=24.23 n=10 查表得81绪论
    • 82. 例将以上数据带入公式得: 即:所求小麦品种株高的方差的95%置信度的置信区间为:[11.46, 80.77]82绪论
    • 83. 百分数资料的区间估计百分数资料为来自两点分布总体的数据。其E(X)=f ,var(X)=f(1-f)。但从两点分布总体中抽取的样本却服从二项分布,且该样本中反映总体某特征的样品数x与样本容量n的比值就是参数f的样本估计值,即 根据德莫佛─拉普拉斯定理,服从二项分布的随机变量Xn~B(n,f)在n充分大时有, 83§6.2 参数的区间估计
    • 84. 百分数资料的区间估计 此式也可写为84§6.2 参数的区间估计
    • 85. 百分数资料的区间估计于是根据: 求出 从而得到参数f的置信度为1-a的置信区间为85§6.2 参数的区间估计
    • 86. 百分数资料的区间估计 可见在估计f的置信区间时要用到f本身。实践表明,当样本容量n较大时,以点估计值p代替f产生的误差极小,故f的置信区间近似等于86§6.2 参数的区间估计
    • 87. 例从动物饲养室抽取100只小白鼠检查,发现染病率为28%。试求小白鼠染病率95%置信度的置信区间? 解:设小白鼠的染病率为f,则根据题意有 p=0.28 1-p=1-0.28=0.72 n=100 a=0.05时查表得 =1.96,所求f的95%置信度的置信区间为 =[0.28±0.088] = [0.19,0.37]87§6.2 参数的区间估计
    • 88. 单侧置信区间前面我们讲的置信区间都是双侧的,而且是在一定置信度下最短的一个置信区间。在许多实际问题中,我们取1-α区间时不象双尾区间那样把α均匀分在两尾,而是将α取在一尾,这样得到的置信区间我们称之为单侧置信区间。 单侧置信区间的求法原理与双侧置信区间的求法类似,所得置信区间只需将双侧区间中的双尾临界点值换成单尾临界点值即可。88§5.4 参数的区间估计
    • 89. 双侧区间89内容回顾
    • 90. 上侧区间90内容回顾
    • 91. 下侧区间91内容回顾
    • 92. 例5.16利用动物测得某化学药品的致死剂量(mg/ l)如下:45,38,56,62,68,59,41,49。假设致死剂量服从正态分布,试求平均致死剂量μ的95%单侧置信区间? 解: 此题总体方差未知,故应使用t分布。如所求为双侧置信区间,则应为 92§5.4 参数的区间估计
    • 93. 例5.16如将此式中的 换为 就可得到单侧置信区间。此时μ的1- α置信度的上限单侧置信区间为: 93§5.4 参数的区间估计
    • 94. 例5.16它的下限单侧置信区间为94§5.4 参数的区间估计
    • 95. 例5.16本例中,由题给条件可以算得: =52.3 s=10.7 n=8 α =0.05 =1.895 该题主要考虑的是致死剂量的最高浓度问题,因此所求应为上限单侧置信区间,将以上数据代入公式得:95§5.4 参数的区间估计
    • 96. 假设检验 参数估计是一种利用样本对总体进行推断的方法, 假设检验也是一种用样本对总体推断的方法,但问题的提法有所不同。96§5.0 假设检验  问题的提出
    • 97. 例1有一批种子需经检验合格才能出售,按国家标准,萌发率必须达到99%,才可获准出售。今从中任意抽取5粒,发现其中有不萌发种子,问这批种子是否能出售? 设这批种子的不萌发率为f,则这个问题就可转化为,如何根据抽样的结果来判断不等式f≤0.01是否成立。97§5.0 假设检验  问题的提出
    • 98. 例2某实验要求动物材料的体重要合适(均值等于10),若偏小需再饲养,若偏大则应淘汰。现测得10个这种动物的体重为: 试问这批动物的体重是否合格? 用X表示这批动物的体重,则X为一个随机变量,此时的问题就是: 判断 E(X)=10 是否成立?98§5.0 假设检验  问题的提出
    • 99. 例3考查温度对光合作用的影响,比较30℃和40℃下光合强度的差别,分别在这两个温度下做了6次实验,所得数据如下: 问在这两种温度下,光合作用的强度有无差别? 如用X表示30℃下的光合强度,用Y表示40℃下的光合强度,该题的问题就是,如何判断E(X)=E(Y)成立与否?30℃17.718.820.019.118.216.340℃24.422.523.326.822.625.499§5.0 假设检验  问题的提出
    • 100. 例4问240个学生统计课成绩数据是否服从正态分布? 设X为学生统计课成绩,则此题的问题是判断       X~N(μ,σ2) 是否成立?100§5.0 假设检验  问题的提出