10

2024-05

当前位置: 一佳范文网 > 范文大全 > 公文范文 >

第十章,第3节,变量间相关关系与统计案例

| 浏览量:

 第 第 3 节 节

 变量间的相关关系与统计案例 最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2 列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.

 知 识 梳 理 1.相关关系与回归分析 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数. (1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程 (1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x n ,y n ),其回归方程为y^ =b ^x+a^__,则b^=∑ni = 1

 (x i -x-)(y i -y-)∑ni = 1

 (x i -x-) 2= 错误! ! , 错误! ! = 错误! !-b^x-.其中,b^是回归方程的斜率,a^是在 y 轴上的截距. 回归直线一定过样本点的中心(x-,y-). 3.回归分析

 (1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心:对于一组具有线性相关关系的数据(x 1 ,y 1 ),(x 2 ,y 2 ),…,(x n ,y n ),其中(x-,y-)称为样本点的中心. (3)相关系数 当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量负相关. r 的绝对值越接近于 1,表明两个变量的线性相关性越强. r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75 时,认为两个变量有很强的线性相关性. (4)相关指数:R 2 =1-∑ni = 1

 (y i -y^i )

 2∑ni = 1

 (y i -y-)

 2.其中∑ni = 1

 (y i -y^i ) 2 是残差平方和,其值越小,则 R 2 越大(接近 1),模型的拟合效果越好. 4.独立性检验 (1)利用随机变量 K 2 来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量 X和 Y,它们的可能取值分别为{x 1 ,x 2 }和{y 1 ,y 2 },其样本频数列联表(2×2 列联表)为

 y 1

 y 2

 总计 x 1

 a b a+b x 2

 c d c+d 总计 a+c b+d a+b+c+d 则随机变量 K 2 =n(ad-bc) 2(a+b)(a+c)(b+d)(+d) ,其中 n=a+b+c+d 为样本容量. [微点提醒] 1.求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点(x-,y-). 2.根据 K 2 的值可以判断两个分类变量有关的可信程度,若 K 2 越大,则两分类变量有关的把握越大.

 3.根据回归方程计算的y^ 值,仅是一个预报值,不是真实发生的值. 基 础 自 测

 1.判断下列结论正误(在括号内打“√”或“×”) (1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(

 ) (2)通过回归直线方程y^ =b ^x+a^可以估计预报变量的取值和变化趋势.(

 ) (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.(

 ) (4)事件 X,Y 关系越密切,则由观测数据计算得到的 K 2 的观测值越大.(

 ) 答案 (1)√ (2)√ (3)× (4)√

 2.(选修 1-2P10 探究改编)为调查中学生近视情况,测得某校男生 150 名中有 80名近视,在 140 名女生中有 70 名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力(

 ) A.回归分析

 B.均值与方差 C.独立性检验

 D.概率 解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 答案 C 3.(选修 1-2P5 讲解改编)两个变量 y 与 x 的回归模型中,分别选择了 4 个不同模型,它们的相关指数 R 2 如下,其中拟合效果最好的模型是(

 ) A.模型 1 的相关指数 R 2 为 0.98 B.模型 2 的相关指数 R 2 为 0.80 C.模型 3 的相关指数 R 2 为 0.50 D.模型 4 的相关指数 R 2 为 0.25 解析 在两个变量 y 与 x 的回归模型中,它们的相关指数 R 2 越近于 1,模拟效果越好,在四个选项中 A 的相关指数最大,所以拟合效果最好的是模型 1. 答案 A

 4.(2019·焦作模拟)已知变量 x 和 y 的统计数据如下表:

 x 3 4 5 6 7 y 2.5 3 4 4.5 6 根据上表可得回归直线方程为y^ =b ^x-0.25,据此可以预测当 x=8 时,y^ =(

 ) A.6.4

  B.6.25

  C.6.55

  D.6.45 解析 由题意知x-= 3+4+5+6+75=5, y-= 2.5+3+4+4.5+65=4, 将点(5,4)代入y^ =b ^x-0.25,解得b^=0.85, 则y^ =0.85x-0.25, 所以当 x=8 时,y^ =0.85×8-0.25=6.55,故选 C. 答案 C 5.(2015·全国Ⅱ卷)根据下面给出的 2004 年至 2013 年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是(

 )

 A.逐年比较,2008 年减少二氧化硫排放量的效果最显著 B.2007 年我国治理二氧化硫排放显现成效 C.2006 年以来我国二氧化硫年排放量呈减少趋势 D.2006 年以来我国二氧化硫年排放量与年份正相关 解析 对于 A 选项,由图知从 2007 年到 2008 年二氧化硫排放量下降得最多,故A 正确.对于 B 选项,由图知,由 2006 年到 2007 年矩形高度明显下降,因此 B正确.对于 C 选项,由图知从 2006 年以后除 2011 年稍有上升外,其余年份都是逐年下降的,所以 C 正确.由图知 2006 年以来我国二氧化硫年排放量与年份负相关,D 不正确. 答案 D 6.(2019·丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支

 持与不支持)的关系,运用 2×2 列联表进行独立性检验,经计算 K 2 =6.705,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动没有关系”(

 ) P(K 2 ≥k 0 ) 0.100 0.050 0.025 0.010 0.001 k 0

 2.706 3.841 5.024 6.635 10.828 A.99.9%

  B.99%

  C.1%

  D.0.1% 解析 因为 6.635<6.705<10.828,因此有 1%的把握认为“学生性别与支持该活动没有关系”,故选 C. 答案 C

 考点一 相关关系的判断 【例 1】

 (1)观察下列各图形,

 其中两个变量 x,y 具有相关关系的图是(

 ) A.①②

  B.①④

  C.③④

  D.②③ (2)甲、乙、丙、丁四位同学各自对 A,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表:

 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 106 115 124 103 则哪位同学的试验结果体现 A,B 两变量有更强的线性相关性(

 ) A.甲

  B.乙

  C.丙

  D.丁 解析 (1)由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系. (2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于 1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了 A,B 两变量有更强的

 线性相关性. 答案 (1)C (2)D 规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关. 2.利用相关系数判定,当|r|越趋近于 1 相关性越强.当残差平方和越小,相关指数R 2 越大,相关性越强.若 r>0,则正相关;r<0 时,则负相关. 3.线性回归直线方程中:b^>0 时,正相关;b^<0 时,负相关. 【训练 1】

 (1)已知变量 x 和 y 满足关系 y=-0.1x+1,变量 y 与 z 正相关.下列结论中正确的是(

 ) A.x 与 y 正相关,x 与 z 负相关 B.x 与 y 正相关,x 与 z 正相关 C.x 与 y 负相关,x 与 z 负相关 D.x 与 y 负相关,x 与 z 正相关 (2)x 和 y 的散点图如图所示,则下列说法中所有正确命题的序号为________.

 ①x,y 是负相关关系; ②在该相关关系中,若用 y=c 1 ec 2 x 拟合时的相关指数为 R 2 1 ,用y^ =b ^x+a^拟合时的相关指数为 R 2 2 ,则 R 2 1 >R 2 2 ; ③x,y 之间不能建立线性回归方程. 解析 (1)由 y=-0.1x+1,知 x 与 y 负相关,即 y 随 x 的增大而减小,又 y 与 z正相关,所以 z 随 y 的增大而增大,减小而减小,所以 z 随 x 的增大而减小,x与 z 负相关. (2)在散点图中,点散布在从左上角到右下角的区域,因此 x,y 是负相关关系,故①正确;由散点图知用 y=c 1 ec 2 x 拟合比用y^ =b ^x+a^拟合效果要好,则 R 2 1 >R 2 2 ,故②正确;x,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.

 答案 (1)C (2)①② 考点二 线性回归方程及应用 【例 2】

 (2018·日照调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表 1:

 年份 x 2013 2014 2015 2016 2017 储蓄存款 y(千亿元) 5 6 7 8 10 表 1 为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表 2:

 时间代号 t 1 2 3 4 5 z 0 1 2 3 5 表 2 (1)求 z 关于 t 的线性回归方程; (2)通过(1)中的方程,求出 y 关于 x 的回归方程; (3)用所求回归方程预测到 2022 年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y^ =b ^x+a^, 其中b^= 错误! ! , 错误! ! = 错误! ! - 错误! ! 错误! ! ) 解 (1)t-=3,z-=2.2,∑5i = 1 t i z i =45,∑5i = 1 t2i =55, b^= 45-5×3×2.255-5×9=1.2, a^=z--b^t-=2.2-3×1.2=-1.4, 所以z^ =1.2t-1.4. (2)将 t=x-2 012,z=y-5,代入z^ =1.2t-1.4, 得 y-5=1.2(x-2 012)-1.4,即y^ =1.2x-2 410.8. (3)因为y^ =1.2×2 022-2 410.8=15.6, 所以预测到 2022 年年底,该地储蓄存款额可达 15.6 千亿元.

 规律方法 1.(1)正确理解计算b^,a^的公式和准确的计算是求线性回归方程的关键. (2)回归直线方程y^ =b ^x+a^必过样本点中心(x-,y-). 2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测. (2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程. 【训练 2】

 (2018·全国Ⅱ卷)如图是某地区 2000 年至 2016 年环境基础设施投资额y(单位:亿元)的折线图.

 为了预测该地区 2018 年的环境基础设施投资额,建立了 y 与时间变量 t 的两个线性回归模型.根据 2000 年至 2016 年的数据(时间变量 t 的值依次为 1,2,…,17)建立模型①:y^ =-30.4+13.5t;根据 2010 年至 2016 年的数据(时间变量 t 的值依次为 1,2,…,7)建立模型②:y^ =99+17.5t. (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由. 解 (1)利用模型①,该地区 2018 年的环境基础设施投资额的预测值为y^ =-30.4+13.5×19=226.1(亿元). 利用模型②,该地区 2018 年的环境基础设施投资额的预测值为 y^ =99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:

 (ⅰ)从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线 y

 =-30.4+13.5t 上下,这说明利用 2000 年至 2016 年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010 年相对 2009 年的环境基础设施投资额有明显增加,2010 年至 2016 年的数据对应的点位于一条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016 年的数据建立的线性模型y^ =99+17.5t 可以较好地描述 2010 年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (ⅱ)从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型①得到的预测值 226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠. 以上给出了 2 种理由,考生答出其中任意一种或其他合理理由均可得分. 考点三 独立性检验 【例 3】

 (2019·湖南长沙雅礼中学、河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数 PM2.5 浓度,制定了空气质量标准:

 空气污染指数 (0,50] (50,100] (100,150] (150,200] (200,300] (300,+∞) 空气质量等级 优 良 轻度污染 中度污染 重度污染 严重污染 某市政府为了打造美丽城市,节能减排,从 2010 年开始考察了连续六年 11 月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从 2016 年 11 月1 日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双 号出行(尾号是字母的,前 13 个视为单号,后 13 个视为双号).王先生有一辆车,若 11 月份被限行的概率为 0.05.

 (1)求频率分布直方图中 m 的值; (2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取 6 天,再从这6 天中随机抽取 2 天,求至少有一天空气质量是中度污染的概率; (3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的 11 月份共 60 天的空气质量进行统计,其结果如下表:

 空气质量 优 良 轻度污染 中度污染 重度污染 严重污染 天数 11 27 11 7 3 1 根据限行前 6 年 180 天与限行后 60 天的数据,计算并填写 2×2 列联表,并回答是否有 90%的把握认为空气质量的优良与汽车尾气的排放有关.

 空气质量优、良 空气质量污染 总计 限行前

 限行后

 总计

 参考数据:

 P(K 2 ≥k 0 ) 0.15 0.10 0.05 0.025 0.010 0.005 k 0

 2.072 2.706 3.841 5.024 6.635 7.879 参考公式:K 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 ,其中 n=a+b+c+d. 解 (1)因为限行分单双号,王先生的车被限行的概率为 0.05, 所以空气重度污染和严重污染的概率应为 0.05×2=0.1, 由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得 m=0.003. (2)因为空气质量良好与中度污染的天气的概率之比为 0.3∶0.15=2∶1, 按分层抽样的方法从中抽取 6 天,则空气质量良好的天气被抽取的有 4 天,记作A 1 ,A 2 ,A 3 ,A 4 , 空气中度污染的天气被抽取的有 2 天,记作 B 1 ,B 2 , 从这 6 天中随机抽取 2 天,所包含的基本事件有(A 1 ,A 2 ),(A 1 ,A 3 ),(A 1 ,A 4 ),(A 1 ,B 1 ),(A 1 ,B 2 ),(A 2 ,A 3 ),(A 2 ,A 4 ),(A 2 ,B 1 ),(A 2 ,B 2 ),(A 3 ,A 4 ),(A 3 ,B 1 ),(A 3 ,B 2 ),(A 4 ,B 1 ),(A 4 ,B 2 ),(B 1 ,B 2 ),共 15 个, 记事件 A 为“至少有一天空气质量是中度污染”,则事件 A 所包含的事件有(A 1 ,

 B 1 ),(A 1 ,B 2 ),(A 2 ,B 1 ),(A 2 ,B 2 ),(A 3 ,B 1 ),(A 3 ,B 2 ),(A 4 ,B 1 ),(A 4 ,B 2 ),(B 1 ,B 2 ),共 9 个, 故 P(A)=915 =35 ,即至少有一天空气质量是中度污染的概率为35 . (3)2×2 列联表如下:

 空气质量优、良 空气质量污染 总计 限行前 90 90 180 限行后 38 22 60 总计 128 112 240 由表中数据可得,K 2 = 240×(90×22-90×38)2180×60×128×112≈3.214>2.706,所以有 90%的把握认为空气质量的优良与汽车尾气的排放有关. 规律方法 1.在 2×2 列联表中,如果两个变量没有关系,则应满足 ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强. 2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:

 (1)根据样本数据制成 2×2 列联表:

 (2)根据公式 K 2 =n(ad-bc)

 2(a+b)(a+c)(b+d)(c+d)

 计算 K2 的观测值 k; (3)比较观测值 k 与临界值的大小关系,作统计推断. 【训练 3】

 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取 50名学生,得到如下 2×2 列联表:

 理科 文科 男 13 10 女 7 20 已知 P(K 2 ≥3.841)≈0.05,P(K 2 ≥5.024)≈0.025.根据表中数据,得到 K 2 的观测值k= 50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.

 解析 K 2 的观测值 k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为 5%. 答案 5%

 [思维升华] 1.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 2.独立性检验是根据 K 2 的值判断两个分类变量有关的可信程度. [易错防范] 1.求回归方程,关键在于正确求出系数 a^,b^ ,由于 a^ ,b^ 的计算量大,计算时应仔细谨慎,分步进行,避免因计算而产生错误. 2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值. 3.独立性检验中统计量 K 2 的观测值 k 0 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.

 基础巩固题组 (建议用时:40 分钟) 一、选择题 1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(

 )

  A.r 2 <r 4 <0<r 3 <r 1

  B.r 4 <r 2 <0<r 1 <r 3

 C.r 4 <r 2 <0<r 3 <r 1

  D.r 2 <r 4 <0<r 1 <r 3

 解析 由散点图知图(1)与图(3)是正相关,故 r 1 >0,r 3 >0,图(2)与图(4)是负相关,故 r 2 <0,r 4 <0,且图(1)与图(2)的样本点集中在一条直线附近,因此 r 2 <r 4 <0<r 3 <r 1 ,故选 A. 答案 A 2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数 R 2 来刻画回归的效果,R 2 值越接近于 1,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是(

 ) A.①②

  B.②③

  C.①③

  D.①②③ 答案 D 3.在一次对性别与说谎是否相关的调查中,得到如下数据:

 说谎 不说谎 总计 男 6 7 13 女 8 9 17 总计 14 16 30 根据表中数据,得到如下结论正确的一项是(

 ) A.在此次调查中有 95%的把握认为是否说谎与性别有关 B.在此次调查中有 99%的把握认为是否说谎与性别有关 C.在此次调查中有 99.5%的把握认为是否说谎与性别有关 D.在此调查中没有充分的证据显示说谎与性别有关

 解析 由已知得 k= 30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过 50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关. 答案 D 4.(2019·衡水中学调研)已知变量 x,y 之间的线性回归方程为y^ =-0.7x+10.3,且变量 x,y 之间的一组相关数据如下表所示,则下列说法错误..的是(

 ) x 6 8 10 12 y 6 m 3 2 A.变量 x,y 之间呈负相关关系 B.可以预测,当 x=20 时,y^ =-3.7 C.m=4 D.该回归直线必过点(9,4) 解析 由-0.7<0,得变量 x,y 之间呈负相关关系,故 A 正确;当 x=20 时,y^ =-0.7×20+10.3=-3.7,故 B 正确;由表格数据可知x-= 14 ×(6+8+10+12)=9,y-= 14 (6+m+3+2)=11+m4,则 11+m4=-0.7×9+10.3,解得 m=5,故 C 错;由m=5,得y-= 6+5+3+24=4,所以该回归直线必过点(9,4),故 D 正确.故选 C. 答案 C 5.通过随机询问 110 名性别不同的学生是否爱好某项运动,得到如下的列联表:

 男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计 60 50 110 K 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 算得, K 2 = 110×(40×30-20×20)260×50×60×50≈7.8.

 得到的正确结论是(

 ) A.有 99%以上的把握认为“爱好该项运动与性别有关” B.有 99%以上的把握认为“爱好该项运动与性别无关” C.有 95%以上的把握认为“爱好该项运动与性别有关” D.有 95%以上的把握认为“爱好该项运动与性别无关” 解析 根据独立性检验的定义,由 K 2 ≈7.8>6.635,可知我们有 99%的把握认为“爱好该项运动与性别有关”. 答案 A 二、填空题 6.某单位为了了解用电量 y(度)与气温 x(℃)之间的关系,随机统计了某 4 天的用电量与当天气温,并制作了对照表:

 气温(℃) 18 13 10 -1 用电量(度) 24 34 38 64 由表中数据得回归直线方程y^ =b ^x+a^中的b^=-2,预测当气温为-4 ℃时,用电量约为________度. 解析 根据题意知x-= 18+13+10+(-1)4=10,y-= 24+34+38+644=40.所以a^=40-(-2)×10=60,y^ =-2x+60.所以当 x=-4 时,y=(-2)×(-4)+60=68,所以用电量约为 68 度. 答案 68 7.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取 50 名同学(男 30,女 20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)

 几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计 30 20 50 根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概

 率不超过________. 附表:

 P(K 2 ≥k 0 ) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0

 2.072 2.706 3.841 5.024 6.635 7.879 10.828 解析 由列联表计算 K 2 的观测值 k= 50(22×12-8×8)230×20×20×30≈5.556>5.024.∴推断犯错误的概率不超过 0.025. 答案 0.025 8.(2019·广东深中、华附、省实、广雅四校联考)如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的线性回归方程为y^ =b ^x+1,则b^=________.

 解析 由题图知x-= 0+1+3+44=2, y-= 0.9+1.9+3.2+4.44=2.6, 将(2,2.6)代入y^ =b ^x+1 中,解得b^=0.8. 答案 0.8 三、解答题 9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了 80 人,结果如下表:

 满意 不满意 男用户 30 10 女用户 20 20 (1)根据上表,现用分层抽样的方法抽取对产品满意的用户 5 人,在这 5 人中任选2 人,求被选中的恰好是男、女用户各 1 人的概率; (2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由. P(K 2 ≥k 0 ) 0.100 0.050 0.025 0.010

 k 0

 2.706 3.841 5.024 6.635 注:K 2 =n(ad-bc)

 2(a+b)(c+d)(a+c)(b+d)

 ,n=a+b+c+d. 解 (1)用分层抽样的方法在满意产品的用户中抽取 5 人,则抽取比例为550 =110 . 所以在满意产品的用户中应抽取女用户 20×110 =2(人),男用户 30×110 =3(人). 抽取的 5 人中,三名男用户记为 a,b,c,两名女用户记为 r,s,则从这 5 人中任选 2 人,共有 10 种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs. 其中恰好是男、女用户各 1 人的有 6 种情况:ar,as,br,bs,cr,cs. 故所求的概率为 P=610 =0.6. (2)由题意,得 K 2 的观测值为 k=80×(30×20-20×10)

 2(30+20)×(10+20)×(30+10)×(20+20)

 = 163≈5.333>5.024. 又 P(K 2 ≥5.024)=0.025. 故有 97.5%的把握认为“产品用户是否满意与性别有关”. 10.某省级示范高中高三年级对各科考试的评价指标中,有“难度系数”和“区分度 ” 两 个 指 标 . 其 中 , 难 度 系 数 =年级总平均分满分, 区 分 度 =实验班的平均分-普通班的平均分满分. (1)某次数学考试(满分为 150 分),随机从实验班和普通班各抽取三人,实验班三人的成绩分别为 147,142,137;普通班三人的成绩分别为 97,102,113.通过样本估计本次考试的区分度(精确到 0.01); (2)以下表格是该校高三年级 6 次数学考试的统计数据:

 难度系数 x 0.64 0.71 0.74 0.76 0.77 0.82 区分度 y 0.18 0.23 0.24 0.24 0.22 0.15 ①计算相关系数 r,|r|<0.75 时,认为相关性弱;|r|≥0.75 时,认为相关性强.通过计算说明,能否利用线性回归模型描述 y 与 x 的关系(精确到 0.01);

 ②t i =|x i -0.74|(i=1,2,…,6),求出 y 关于 t 的线性回归方程,并预测 x=0.75时 y 的值(精确到 0.01). 附注:

 参考数据:∑6i = 1 x i y i =0.930 9,∑6i = 1 (x i -x-) 2 ∑6i = 1 (y i -y-) 2 ≈0.011 2,∑6i = 1 t i y i =0.048 3, ∑6i = 1 (t i -t-) 2 ≈0.007 3. 参考公式:相关系数 r=∑ni = 1

 (x i -x-)(y i -y-)∑ni = 1

 (x i -x-) 2 ∑ni = 1

 (y i -y-) 2=∑ni = 1 x i y i -nx- y-∑ni = 1 (x i -x-) 2 ∑ni = 1

 (y i -y-) 2, 回归直线 y=bt+a 的斜率和截距的最小二乘估计分别为 b^=∑ni = 1

 (t i -t-)(y i -y-)∑ni = 1 (t i -t-) 2=∑ni = 1 t i y i -nt- y-∑ni = 1 (t i -t-) 2,a^=y--b^t-. 解 (1)易求得实验班三人成绩的平均值为 147+142+1373=142, 普通班三人成绩的平均值为 97+102+1133=104, 故估计本次考试的区分度为 142-104150≈0.25. (2)①由题中表格知, x-= 0.64+0.71+0.74+0.76+0.77+0.826=0.74, y-= 0.18+0.23+0.24+0.24+0.22+0.156=0.21, 故 r=∑6i = 1 x i y i -6x- y-∑6i = 1 (x i -x-) 2 ∑6i = 1 (y i -y-) 2≈ 0.930 9-6×0.74×0.210.011 2≈-0.13. 因为|r|<0.75,所以相关性弱. 故不能利用线性回归模型描述 y 与 x 的关系. ②y 与 t 的值如下表:

 t 0.10 0.03 0 0.02 0.03 0.08 区分度 y 0.18 0.23 0.24 0.24 0.22 0.15

 因为b^=∑6i = 1 t i y i -6t- y-∑6i = 1

 (t i -t-)

 2≈0.048 3-6× 0.266×0.210.007 3≈-0.86, 所以a^=y--b^t-≈0.21+0.86× 0.266≈0.25, 所以所求回归方程为 y=-0.86t+0.25, 当 x=0.75 时,t=0.01,y≈0.24.

 能力提升题组 (建议用时:20 分钟) 11.(2019·黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是(

 ) A.若 K 2 的观测值为 k=6.635,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,那么在 100 个吸烟的人中必有 99 人患有肺癌 B.由独立性检验可知,在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有 99%的可能患有肺癌 C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得判断出现错误 D.以上三种说法都不正确 解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过 0.01 的前提下认为吸烟与患肺癌有关系,是指有 1%的可能性使得判断出现错误.故选 C. 答案 C 12.(2019·承德期末)某城市收集并整理了该市 2018 年 1 月份至 10 月份各月最低气温与最高气温(单位:℃)的数据,绘制了下面的折线图.

  已知该城市各月的最低气温与最高气温具有较好的线性关系,则根据折线图,下列结论错误的是(

 ) A.最低气温与最高气温为正相关 B.10 月的最高气温不低于 5 月的最高气温 C.月温差(最高气温减最低气温)的最大值出现在 1 月 D.最低气温低于 0 ℃的月份有 4 个 解析 在 A 中,最低气温与最高气温为正相关,故 A 正确; 在 B 中,10 月的最高气温不低于 5 月的最高气温,故 B 正确; 在 C 中,月温差(最高气温减最低气温)的最大值出现在 1 月,故 C 正确; 在 D 中,最低气温低于 0 ℃的月份有 3 个,故 D 错误.故选 D. 答案 D 13.在 2018 年 3 月 15 日那天,某市物价部门对本市的 5 家商场的某商品的一天销售量及其价格进行调查,5 家商场的售价 x 元和销售量 y 件之间的一组数据如下表所示:

 价格 x 9 9.5 m 10.5 11 销售量 y 11 n 8 6 5 由散点图可知,销售量 y 与价格 x 之间有较强的线性相关关系,其线性回归方程是y^ =-3.2x+40,且 m+n=20,则其中的 n=________. 解析 x-= 9+9.5+m+10.5+115=8+ m5 , y-= 11+n+8+6+55=6+ n5 . 回归直线一定经过样本中心(x-,y-), 即 6+ n5 =-3.2 8+ m5+40,即 3.2m+n=42.

 又因为 m+n=20,即  3.2m+n=42,m+n=20, 解得  m=10,n=10,故 n=10. 答案 10 14.(2018·山东、湖北部分重点中学模拟)某地级市共有 200 000 名中小学生,其中有 7%的学生在 2017 年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为 5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助 1 000 元、1 500 元、2 000 元.经济学家调查发现,当地人均可支配收入较上一年每增加有 n%,一般困难的学生中有 3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有 2n%转为一般困难,特别困难的学生中有 n%转为很困难.现统计了该地级市 2013 年到 2017年共 5 年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份 x 取 13 时代表 2013 年,x 与 y(万元)近似满足关系式 y=C 1 ·2C 2 x,其中 C 1 ,C 2 为常数(2013 年至 2019 年该市中学生人数大致保持不变).

 y- k- ∑5i = 1

 (k i -k-) 2

 ∑5i = 1 (y i -y-) 2

 ∑5i = 1 (x i -x-)(y i -y-) ∑5i = 1 (x i -x-)(k i -k-) 2.3 1.2 3.1 4.6 2 1 其中 k i =log 2

 y i ,k-= 15 ∑5i = 1 k i . (1)估计该市 2018 年人均可支配收入; (2)求该市 2018 年的“专项教育基金”的财政预算大约为多少. 附:①对于一组具有线性相关关系的数据(u 1 ,v 1 ),(u 2 ,v 2 ),…,(u n ,v n ),其回归 直 线 方 程 v^= β^u + α^的 斜 率 和 截 距 的 最 小 二 乘 估 计 分 别 为 β^=

 ∑ni = 1

 (u i -u-)(v i -v-)∑ni = 1

 (u i -u-)

 2,α^=v--β^u-. ② 2- 0.7

 2- 0.3

 2 0.1

 2 1.7

 2 1.8

 2 1.9

 0.6 0.8 1.1 3.2 3.5 3.73 解 (1)因为x-= 15 ×(13+14+15+16+17)=15,所以∑5i = 1

 (x i -x-) 2 =(-2) 2 +(-1) 2+0 2 +1 2 +2 2 =10. 由 k=log 2

 y 得 k=log 2

 C 1 +C 2 x, 所以 C 2 =∑5i = 1

 (x i -x-)(k i -k-)∑5i = 1

 (x i -x-)

 2=110 , log 2

 C 1 =k--C 2 x-=1.2-110 ×15=-0.3, 所以 C 1 =2- 0.3 =0.8,所以 y=0.8×2 x10 . 当 x=18 时,y=0.8×2 1.8 =0.8×3.5=2.8(万元). 即该市 2018 年人均可支配收入为 2.8 万元. (2)由题意知 2017 年时该市享受“国家精准扶贫”政策的学生有 200 000×7%=14 000 人, 一般困难、很困难、特别困难的中学生依次有 7 000 人、4 200 人、2 800 人,2018年人均可支配收入比 2017 年增长 0.8×21.8 -0.8×2 1.70.8×2 1.7=2 0.1 -1=0.1=10%, 所以 2018 年该市特别困难的中学生有 2 800×(1-10%)=2 520 人. 很困难的的学生有 4 200×(1-20%)+2 800×10%=3 640 人, 一般困难的学生有 7 000×(1-30%)+4 200×20%=5 740 人. 所以 2018 年的“专项教育基金”的财政预算大约为 5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).

推荐访问:第十章 变量 案例

最新推荐New Ranking

1幼儿园中班六一活动方案

温暖的阳光,诱人的花香,激动的脸庞,六一国际儿童节在小朋友和老师的热烈期盼中来到了我们的身旁。...

2某市医疗保障工作要点

2022年是党的二十大召开之年,也是医保助力共同富裕的奋进之年。2022年全市医疗保障工作的总体要求是...

3区委书记在市委招商专题汇报会上讲话提纲

今年来,XX区积极响应中央、省、市号召,立足当前经济形势,抢抓发展机遇,充分挖掘中心城区区位优势...

4在局推进基层正风反腐工作会议上讲话

同志们:今天召开这次会议主要是贯彻落实3月24日我区基层正风反腐专项治理工作会议精神,部署开展我局...

5农村“五治”工作实施方案

为深入学习贯彻XXX关于实施乡村振兴战略重要讲话精神,打赢改善农村人居环境这场硬仗,践行为民宗旨、厚...

6在市政协五届一次会议开幕会上讲话

市政协四届一次会议以来的五年,是XX砥砺前行、克难攻坚的五年,也是拼搏进取、满载荣光的五年。五年...

7市全面推行证明事项告知承诺制工作实施方案

为进一步深化“放管服”改革,深入开展“减证便民”行动,优化营商环境,激发市场主体活力和社会创造...

8党课讲稿:意识形态领域形势何以发生全局性根本性转变

党的十九届六中全会通过的《中共中央关于党的百年奋斗重大成就和历史经验的决议》(以下简称《决议》...

9研讨发言:科技创新引领,构建现代产业体系(集团公司董事长,党委书记)

中央经济工作会议把“强化国家战略科技力量”“增强产业链供应链自主可控能力”提到了前所未有的战略...

10在全省药品监管工作会议上经验交流发言

2021年,全市市场监管系统在省药监局和市委、市政府的正确领导下,坚持以XXX“四个最严”为指导,聚焦...