首页

2025年高考数学一轮讲义第10章 第3课时 成对数据的统计分析

资源预览文档简介为自动调取,内容显示的完整度及准确度或有误差,请您下载后查看完整的文档内容。

1/11

2/11

剩余9页未读,查看更多内容需下载

第3课时 成对数据的统计分析[考试要求] 1.了解样本相关系数的统计含义.2.理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.3.会利用统计知识进行数据分析.1.变量的相关关系两个变量______,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系,即不确定性关系.2.相关关系的分类(1)按变量间的增减性分为__相关和__相关.①正相关:当一个变量的值增加时,另一个变量的相应值也呈现____的趋势;②负相关:当一个变量的值增加时,另一个变量的相应值呈现____的趋势.(2)按变量间是否有线性特征分为____相关和______相关(曲线相关).①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在________附近,我们称这两个变量线性相关;②非线性相关或曲线相关:如果两个变量具有相关性,但不是____相关,我们称这两个变量非线性相关或曲线相关.3.相关关系的刻画(1)散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.(2)样本相关系数r的计算式r=___________________=__________________.(3)样本相关系数r的性质①样本相关系数r的取值范围为____________;②若r>0时,成对样本数据__相关;③若r<0时,成对样本数据__相关;④样本相关系数与相关程度11/11 当|r|越接近__时,成对样本数据的线性相关程度越强;当|r|越接近__时,成对样本数据的线性相关程度越弱.提醒:当两个变量的相关系数|r|=1时,两个变量呈函数关系.4.一元线性回归模型与最小二乘法(1)一元线性回归模型称Y=bx+a+e,Ee=0,De=σ2为Y关于x的一元线性回归模型.其中,Y称为______或响应变量,x称为______或解释变量,__称为截距参数,__称为斜率参数;e是Y与________之间的随机误差,如果e=__,那么Y与x之间的关系就可以用一元线性函数模型来描述.(2)最小二乘法将y=bx+a称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计,其中b=____________,a=________.5.刻画回归效果的方式(1)残差图法在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越__,说明模型拟合精度越高.(2)残差平方和法残差平方和为______,残差平方和越________,模型拟合效果越好.(3)决定系数法R2=1-.R2的值越趋近于1,模型的拟合效果越好.6.列联表与独立性检验(1)分类变量X,Y的2×2列联表:XY合计Y=0Y=1X=0aba+bX=1cdc+d11/11 合计a+cb+dn=a+b+c+d则χ2=__.(2)利用χ2的取值推断分类变量X和Y是否____的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.(3)χ2独立性检验中几个常用的小概率值和相应的临界值.α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828[常用结论]经验回归方程必过样本点的中心(x,y).一、易错易混辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.(  )(2)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.(  )(3)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.(  )(4)经验回归方程y=bx+a中,若a<0,则变量x和y负相关.(  )二、教材经典衍生1.(人教A版选择性必修第三册P103习题8.1T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是(  )A       BC       D2.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为(  )11/11 A.12  B.-1  C.0  D.-123.(人教A版选择性必修第三册P113练习T2改编)从某学校随机选取8名女大学生,关于其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为y=0.849x-85.712,则身高172cm的女大学生的体重约为________kg.4.(人教A版选择性必修第三册P133例4改编)为了调查患肺癌是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:吸烟肺癌合计肺癌患者非肺癌患者吸烟者20m40不吸烟者n5560合计2575100根据列联表数据,求得χ2=________(保留3位有效数字),那么,在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.附:χ2=nad-bc2a+bc+da+cb+d.α0.0500.0100.001xα3.8416.63510.828考点一 成对数据的相关性[典例1] (1)(2023·天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中相关系数r=0.8245,下列说法正确的是(  )A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈现负相关C.花瓣长度和花萼长度呈现正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245(2)(多选)(2023·广东湛江一模)11/11 某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:编号12345678910身高/cm165168170172173174175177179182体重/kg55896165677075757880由表中数据制作成如下所示的散点图:由最小二乘法计算得到经验回归直线l1的方程为y=b1x+a1,相关系数为r1,决定系数为R12;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线l2的方程为y=b2x+a2,相关系数为r2,决定系数为R22.则以下结论中正确的有(  )A.a1>a2    B.b1>b2C.r1<r2D.R12>R22[听课记录]                                                                                                                                        判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性经验回归方程中:b>0时,正相关;b<0时,负相关.[跟进训练]1.(1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn11/11 不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-12x+1上,则这组样本数据的样本相关系数为(  )A.-1  B.0 C.-12  D.1(2)已知一组成对数据(18,24),(13,34),(10,38),(-1,m)的经验回归方程为y=-2x+59.5,则该组数据的相关系数r=________(精确到0.001).考点二 回归模型 一元线性回归模型[典例2] (2023·河北唐山三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如表所示:第n年12345678910居民年收入x32.231.132.935.737.138.039.043.044.646.0商品销售额y25.030.034.037.039.041.042.044.048.051.0依据表格数据,得到下面一些统计量的值.i=110xii=110yii=110xi-x2i=110yi-y2i=110xi-x·(yi-y)379.6391246.904568.9m(1)根据表中数据,得到样本相关系数r≈0.95.以此推断,y与x的线性相关程度是否很强?(2)根据统计量的值与样本相关系数r≈0.95,建立y关于x的经验回归方程(系数精确到0.01);(3)根据(2)的经验回归方程,计算第1个样本点(32.2,25.0)对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,b的值将变大还是变小(不必说明理由,直接判断即可).附:样本(xi,yi)(i=1,2,…,n)的相关系数r=,2.304≈1.518,b=,a=y-bx.11/11 [听课记录]                                                                                                                                        非线性回归模型[典例3] (2023·广东广州二模)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如图所示的散点图,并计算得:x=6.8,y=70,=350.(1)根据散点图可知,可用函数模型y=bx+a拟合y与x的关系,试建立y关于x的经验回归方程;(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y(单位:元)的关系为m=-y2500+2y25+200y-10+100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润M的预报值最大?(注:年利润=年销售额-年投入成本)参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程v=α+βu的斜率和截距的最小二乘估计公式分别为β=,α=v-βu.[听课记录]                                                                                                                                       11/11  回归分析问题的类型及解题方法(1)求经验回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.②利用公式,求出回归系数b.③利用经验回归方程过样本点的中心求系数a.(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.(3)利用经验回归方程判断正、负相关,决定正相关还是负相关的是系数b.(4)经验回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.提醒:非线性处理策略要通过换元、取对数等手段把非线性问题转化为线性问题.[跟进训练]2.某研究所为了研究某种昆虫的产卵数y(单位:个)与温度x(单位:℃)之间的关系,现将收集到的温度xi和一组昆虫的产卵数yi(i=1,2,…,6)的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.经计算得到以下数据:x=16i=16xi=26,y=16i=16yi=33,i=16xi-xyi-y=557,i=16xi-x2=84,i=16yi-y2=3930,i=16yi-yi2=236.64.(1)若用线性回归模型来拟合数据的变化关系,求y关于x的经验回归方程y=bx+a(结果精确到0.1);(2)若用非线性回归模型来拟合数据的变化关系,求得y关于x的经验回归方程y=0.06e0.2303x,且决定系数为R2=0.9672.①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;11/11 ②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).附参考公式:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程y=bx+a截距和斜率的最小二乘估计公式分别为:b=,a=y-bx,相关系数:R2=1-.参考数据:e8.0605≈3167.                                                                                                                                                                                                                                                     考点三 独立性检验[典例4] (2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.218.820.221.322.523.225.826.527.530.132.634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的增加量从小到大排序为7.89.211.412.413.215.516.518.018.819.219.820.221.622.823.623.925.128.232.336.5(1)计算试验组的样本平均数;(2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表;组别小白鼠体重的增加量合计<m≥m11/11 对照组试验组合计②根据①中的列联表,依据小概率值α=0.05的独立性检验,能否以此推断小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:χ2=nad-bc2a+bc+da+cb+d.α0.1000.0500.010xα2.7063.8416.635[听课记录]                                                                                                                                        独立性检验的一般步骤(1)根据样本数据完成2×2列联表.(2)根据公式χ2=nad-bc2a+ba+cb+dc+d计算.(3)比较χ2与临界值的大小关系,作统计推断.[跟进训练]3.(2020·新高考Ⅰ卷改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:PM2.5浓度SO2浓度[0,50](50,150](150,475][0,35]32184(35,75]6812(75,115]3710(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:PM2.5浓度SO2浓度11/11 [0,150](150,475][0,75](75,115](3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?附:χ2=nad-bc2a+bc+da+cb+d,α0.0500.0100.001xα3.8416.63510.828                                                                                                                                                                                                                  11/11

版权提示

  • 温馨提示:
  • 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
  • 2. 本文档由用户上传,版权归属用户,莲山负责整理代发布。如果您对本文档版权有争议请及时联系客服。
  • 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
  • 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服vx:lianshan857处理。客服热线:13123380146(工作日9:00-18:00)

文档下载

发布时间:2024-10-02 15:00:01 页数:11
价格:¥1 大小:571.31 KB
文章作者:180****8757

推荐特供

MORE