• 1. 第五章 参数估计基础
    • 2. 抽样分布与抽样误差 抽样研究的目的是用样本信息推断总体特征,即用样本资料计算的统计指标推断总体参数 常用的统计推断方法有参数估计(总体均数和总体概率的估计)和假设检验
    • 3. 抽样分布与抽样误差 样本均数的抽样分布与抽样误差 假定某年某地所有13岁女学生身高服从总体均数 =155.4cm, 总体标准差 =5.3cm的正态分布N(,2)。在这样一个有限的总体中作随机抽样,共抽100次。每次均抽取30例(ni = 30)组成一份样本,可以算出每一份样本的平均身高.最终计算得到153.6, 153.1, 154.9,····157.7等100个样本均数,列于表5-1第2栏。现将这100个样本均数看成新的随机变量绘制频数分布表,如表5-2所示
    • 4. 抽样分布与抽样误差样本均数的抽样分布具有以下特点: 1. 各样本均数未必等于总体均数; 2. 样本均数之间存在差异; 3. 样本均数的分布很有规律,围绕着总体均数(155.4cm),中间多、两边少,左右基本对称,也服从正态分布。 4.样本均数的变异较之原变量的变异大大缩小
    • 5. 抽样分布与抽样误差 抽样误差:抽样造成的这种样本均数与样本均数之间、样本均数与总体均数之间的差异。 标准误:用于表示均数抽样误差大小的指标,也叫样本均数的标准差,它反映了样本均数之间的离散程度。
    • 6. 抽样分布与抽样误差
    • 7. 抽样分布与抽样误差 表5-2 从正态总体N (155.4, 5.32)抽样得到中的100个样本均数的频数分布(ni =30) 组段下限值(cm)频数频率%152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~ 1 4 4 22 25 21 17 3 2 1 1.0 4.0 4.0 22.0 25.0 21.0 17.0 3.0 2.0 1.0合计 100 100.0
    • 8. 抽样分布与抽样误差标准误的计算公式(5-1),(5-2): 样本均数标准误的大小与标准差成正比,则与样本含量n的平方根成反比,即在同一总体中随机抽样,样本含量n越大,抽样误差越小。所以在实际应用中可通过增加样本含量n来减小样本均数的标准误,从而降低抽样误差。
    • 9. 抽样分布与抽样误差 非正态总体样本均数的抽样实验(实验5-2)。 图5-1(a)是一个正偏峰的分布, 用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图
    • 10. 抽样分布与抽样误差图5-1(b)~ (e) 显示,样本均数的总体均数也为仍等于原来的总体均数 ,样本均数的标准误为仍满足(5-1)式 ; 当样本量n较小时,样本均数的分布当然并非正态分布,样本量足够大时(例如,n  50),样本均数的分布近似于正态分布。
    • 11. 抽样分布与抽样误差
    • 12. 抽样分布与抽样误差
    • 13. 抽样分布与抽样误差
    • 14. 抽样分布与抽样误差
    • 15. 抽样分布与抽样误差
    • 16. 抽样分布与抽样误差例5-1 2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白量的均数为125 g /L,标准差为15 g /L。试估计该样本均数的抽样误差。 = = = 2.89g /L   
    • 17. 抽样分布与抽样误差样本频率的抽样分布与抽样误差 实验4.2 :在一口袋内装有形状、重量完全相同的黑球和白球,已知黑球比例为20%(总体概率π=20%),从口袋中每摸一次看清颜色后放回去,搅匀后再摸,重复摸球35次(n=35), 计算摸到黑球的百分比(样本频率p i)。重复这样的实验100次,每次得到100个黑球的比例分别为14.4%, 19.8%, 20.2%, 22.5%,······等,将其频数分布列于表5-3。
    • 18. 表5-3 总体概率为20%时的随机抽样结果(ni = 35) 黑球比例%样本频数% 5.0~ 3 3.0 8.0~ 7 7.011.0~ 5 5.014.0~ 8 8.017.0~ 1616.020.0~ 2222.022.0~ 1515.025.0~ 7 7.028.0~ 7 7.031.0~ 5 5.034.0~ 3 3.040.0~ 2 2.0合计100 100.0
    • 19. 抽样分布与抽样误差频率的抽样误差:这种样本率样本频率与样本率样本频率之间、样本率样本频率与总体率总体概率之间的差异。 频率的标准误:表示频率的抽样误差的指标
    • 20. 抽样分布与抽样误差 样本频率 的总体均数参数为π, 率的标准误计算公式(5-3): 公式(5-4)
    • 21. 抽样分布与抽样误差例5-2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。 p = 41.5% = 0.415,n = 776 =
    • 22. t分布t分布的概念 从正态分布N(,2)抽得样本的均数也服从正态分布,记为N(, )。对正态变量 作变换 实际工作中,当 未知时,常用 来代替 对正态变量 采用的不是z 变换, 而是t变换
    • 23. t分布英国统计学家W.S.Gosset于1908年以“Student”笔名发表论文,证明它服从自由度 = n  1的t分布,即 ~ t分布,  = n  1 (5-7) 又称Student t分布(Student’s t-distribution)。实际上,t分布十分有用,它是总体均数的区间估计和假设检验的理论基础。
    • 24. t分布t分布的图形和t分布表 从前述实验4.1的13岁女学生身高这个正态总体中分别作样本量为 3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作(5-6) 式的t转变换,并将t值绘制相应的直方图(见实验5-4)。如图5-12(a)、(b)所示。可以看出,这两个t值分布图并不完全一样,样本量为3的图(a)较之样本量为50的图(b)显得矮胖,两侧尾部稍高。
    • 25. t分布
    • 26. t分布
    • 27. t分布t值的分布与自由度 有关(实际是样本含量n不同)。t 分布的图形不是一条曲线,而是一簇曲线。 υ=∞(标准正态分布)υ=5υ=1012345-1-2-3-4-5f(t)0.10.20.3图5-3 不同自由度下的t分布图
    • 28. t分布t 分布的图形有如下特征: ①单峰分布,以0为中心,左右对称,类似于标准正态分布。 ②自由度 越小,则越大,t值越分散,曲线的峰部越矮,尾部越高; ③随着自由度 逐渐增大,t分布逐渐逼近标准正态分布;当 趋于 时,t分布就完全成为标准正态分布,故标准正态分布是t分布的特例。
    • 29. t分布 统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度  下的t界值表(附表2)。 t界值表:横标目为自由度 ,纵标目为概率P。 t临界值:表中数字表示当  和P 确定时,对应的值。 单侧概率 (one-tailed probability):用t,υ表示 双侧概率 (two-tailed probability):用t/2,υ表示
    • 30. t分布例如, 当 =16,单侧概率P =0.05时,由表中查得单侧t0.05,16=1.746;而当 =16,双侧概率P =0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有 单侧:P(t  t0.05,16)=0.05 和 P(t  t0.05,16)=0.05 双侧:P(t  t0.05/2,16)+P(t  t0.05/2,16)=0.05
    • 31. t分布更一般的表示方法如图5-4(a)和(b)中阴影部分所示为: 单侧:P(t  t, )= 和 P(t  t, )= 双侧:P(t  t/2, )+P(t  t/2, )=
    • 32. t分布从t界值表中或表的右上角图列亦可看出: ①在相同自由度时,│t│值越大,概率P越小; ②而在相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16 = t0.05,16 =1.746。
    • 33. 总体均数及总体概率的估计参数估计的概念 参数估计:指用样本指标(统计量)估计总体指标(参数)。 参数估计有 点估计(point estimation) 区间估计(interval estimation)
    • 34. 总体均数及总体概率的估计点估计:用样本统计量直接作为总体参数的点估计值,即直接用随机样本的样本均数作为总体均数 的点估计值, 用样本频率p作为总体概率 的点估计值。 用27例健康成年男性血红蛋白量的样本均数作为总体均数的点估计值, 用776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点估计值 缺点:没有考虑抽样误差,无法评价其可信度估计值它与真值之间的差距。
    • 35. 总体均数及总体概率的估计区间估计:结合样本统计量和标准误可以确定一个具有较大的可信度置信度(如95%或99%)的包含总体参数的区间,该区间称为总体参数的1 可信区间或置信区间(confidence interval , CI)。 置信度: 值一般取0.05或0.01,故1 为0.95或0.99。 通常用样本均数和均数的标准误估计总体均数的95%(或99%)置信区间,或用样本频率和率的及其标准误估计总体概率的95%(或99%)置信区间。 如果没有特别说明,一般作双侧的区间估计
    • 36. 总体均数及总体概率的估计置信区间的计算 总体均数的置信区间 根据总体标准差 是否已知及样本含量n的大小,总体均数置信区间的计算有t分布和Z分布(标准正态分布)两种方法。 1. t分布方法 当总体标准差未知时,正态总体N(, 2)的样本均数的t变换结果
    • 37. 总体均数及总体概率的估计服从 t分布,若“砍去”t分布双侧尾部面积 = 0.05 = 5%,故有95%的t值满足不等式: t0.05/2,  < < t0.05/2,  t0.05/2,  <  < + t0.05/2,  :( t0.05/2,  , + t0.05/2,  )
    • 38. 总体均数及总体概率的估计总体均数 的(1-  ) 可信区间置信区间的一般计算式为  t/2,  均数的单侧置信区间为  > t/2,  或  < + t/2, 
    • 39. 总体均数及总体概率的估计例5-3:已知某地27名健康成年男子的血红蛋白量均数=125 g /L,标准差S = 15 g /L。试问该市地健康正常成年男子血红蛋白血清胆固醇平均含量的95%置信区间和99%置信区间各是多少? 解:本例n =27, = 27 – 1=26,查t界值表(附表2), = 0.05时,双侧 t0.05/2, 26=2.056, = 0.01时,t0.01/2, 26= 2.779;按公式(5-9)
    • 40. 总体均数及总体概率的估计 95%CL:125 2.056 =(119.06,130.94) g /L 99%CL:125 2.779 =(116.98,133.02)g /L 该市健康成年男子血红蛋白平均含量: 95%置信区间为(119.06, 130.94)g /L,99%置信区间为(116.98, 133.02)g /L。
    • 41. 总体均数及总体概率的估计正态分布近似方法 (1)当总体标准差 已知时 总体均数的双侧置信区间为  z/2
    • 42. 总体均数及总体概率的估计(2)当 未知但n足够大时(n  50),t分布的极限分布是标准正态分布,可用z/2代替公式(5-9)中的t/2, ,则总体均数的双侧置信区间为  z/2
    • 43. 总体均数及总体概率的估计同理, 与(5-8)和(5-9)式相对应, 单侧置信区间则为 z 或 z + z 或 + z
    • 44. 总体均数及总体概率的估计例5-4 某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2 cm,标准差为4.5 cm,试估计该市2000年19岁健康男大学生平均身高的95%置信区间。 1.96 = 172.2 1.96 =(171.3,173.1) 该市2000年19岁健康男大学生平均身高的95%置信区间为(171.3,173.1)cm。
    • 45. 总体均数及总体概率的估计总体概率的置信区间 根据样本含量n和样本频率p的大小,可以采用查表法和正态近似法计算总体概率的置信区间。 查表法 当样本含量n较小,比如n  50,特别是p很接近0或100%时,可以通过查相应统计用表(附表3),确定总体概率的置信区间。
    • 46. 总体均数及总体概率的估计例5-6  某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间 查概率的置信区间表(附表3),在n = 39的横行,X=2的纵列交叉处的数值为1~17 即该手术合并症发生概率的95%置信区间为1% ~ 17%
    • 47. 总体均数及总体概率的估计注意:附表3中仅列出X  n/2部分;当X > n/2时,应以nX值查表,然后从100中减去查得的数值即为所求的置信区间。 例5-7 某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。 n = 31,X = 25 > n/2,所以用nX = 6查附表3,得8 ~38,再用100减去所查的数值 该药物治疗脑血管梗塞有效概率的95%置信区间为62% ~ 92%。
    • 48. 总体均数及总体概率的估计正态近似法 当n足够大,且样本频率p和(1p)均不太小时,如np与n(1p) 均大于5时,p的抽样分布接近正态分布,此时可按公式(5-12)求总体概率的置信区间 p  z/2Sp 公式中Sp为频率p的标准误。欲求95%置信区间,用z0.05/2=1.96,欲求99%置信区间,用z0.01/2=2.58。
    • 49. 总体均数及总体概率的估计例5-8 用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。 解: 本例n比较大,且np = 94及n(1p) = 26均大于5,用公式(5-12)估计总体概率的置信区间
    • 50. 总体均数及总体概率的估计 p  z/2 Sp= p  z0.05/2 = 0.783  1.96 = 0.709 ~ 0.857 即该仪器乳腺癌总体检出率的95%可信区间置信区间为(70.9% , 85.7% )。

    该用户的其他文档