首页

2025年高考数学一轮复习教学课件第10章 第3课时 成对数据的统计分析

资源预览文档简介为自动调取,内容显示的完整度及准确度或有误差,请您下载后查看完整的文档内容。

1/44

2/44

3/44

4/44

剩余40页未读,查看更多内容需下载

必备知识·关键能力·学科素养·核心价值第十章统计与成对数据的统计分析 第3课时 成对数据的统计分析对应学生用书第275页 考试要求了解样本相关系数的统计含义.会利用统计知识进行数据分析.理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题. 链接教材 夯基固本第3课时 成对数据的统计分析1.变量的相关关系两个变量______,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系,即不确定性关系.2.相关关系的分类(1)按变量间的增减性分为__相关和__相关.①正相关:当一个变量的值增加时,另一个变量的相应值也呈现____的趋势;②负相关:当一个变量的值增加时,另一个变量的相应值呈现____的趋势.有关系正负增加减小 (2)按变量间是否有线性特征分为____相关和______相关(曲线相关).①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在________附近,我们称这两个变量线性相关;②非线性相关或曲线相关:如果两个变量具有相关性,但不是____相关,我们称这两个变量非线性相关或曲线相关.3.相关关系的刻画(1)散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.(2)样本相关系数r的计算式r=____________________________=____________________________.线性非线性一条直线线性 (3)样本相关系数r的性质①样本相关系数r的取值范围为__________;②若r>0时,成对样本数据__相关;③若r<0时,成对样本数据__相关;④样本相关系数与相关程度当|r|越接近_时,成对样本数据的线性相关程度越强;当|r|越接近_时,成对样本数据的线性相关程度越弱.提醒:当两个变量的相关系数|r|=1时,两个变量呈函数关系.[-1,1]正负10 4.一元线性回归模型与最小二乘法(1)一元线性回归模型称为Y关于x的一元线性回归模型.其中,Y称为______或响应变量,x称为______或解释变量,_称为截距参数,_称为斜率参数;e是Y与______之间的随机误差,如果e=_,那么Y与x之间的关系就可以用一元线性函数模型来描述.(2)最小二乘法将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中=,=.因变量自变量abbx+a0- 5.刻画回归效果的方式(1)残差图法在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越__,说明模型拟合精度越高.(2)残差平方和法残差平方和为,残差平方和越__,模型拟合效果越好.(3)决定系数法R2=1-.R2的值越趋近于1,模型的拟合效果越好.窄小 6.列联表与独立性检验(1)分类变量X,Y的2×2列联表:XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d则χ2=.(2)利用χ2的取值推断分类变量X和Y是否____的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.独立 (3)χ2独立性检验中几个常用的小概率值和相应的临界值.[常用结论]经验回归方程必过样本点的中心().α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828 一、易错易混辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()(2)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.()(3)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.()(4)经验回归方程=x+中,若<0,则变量x和y负相关.()√√×× 二、教材经典衍生1.(人教A版选择性必修第三册P103习题8.1T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是()D[观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.]ABCD√ 2.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为()A.B.-1C.0D.-B[∵测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),∴=1,=-20,样本相关系数r==-1.故选B.]3.(人教A版选择性必修第三册P113练习T2改编)从某学校随机选取8名女大学生,关于其身高x(单位:cm)和体重y(单位:kg)的经验回归方程为=0.849x-85.712,则身高172cm的女大学生的体重约为________kg.60.316[当x=172时,=0.849×172-85.712=60.316.]60.316√ 4.(人教A版选择性必修第三册P133例4改编)为了调查患肺癌是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:根据列联表数据,求得χ2=________(保留3位有效数字),那么,在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.吸烟肺癌合计肺癌患者非肺癌患者吸烟者20m40不吸烟者n5560合计257510022.2 附:χ2=.22.2[由20+m=40,得m=20.由20+n=25,得n=5.故χ2=≈22.2>10.828=x0.001.所以在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.]α0.0500.0100.001xα3.8416.63510.828 典例精研 核心考点第3课时 成对数据的统计分析考点一 成对数据的相关性[典例1](1)(2023·天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中相关系数r=0.8245,下列说法正确的是()A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈现负相关C.花瓣长度和花萼长度呈现正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245√ (2)(多选)(2023·广东湛江一模)某服装生产商为了解青少年的身高和体重的关系,在15岁的男生中随机抽测了10人的身高和体重,数据如下表所示:编号12345678910身高/cm165168170172173174175177179182体重/kg55896165677075757880由表中数据制作成如下所示的散点图:由最小二乘法计算得到经验回归直线l1的方程为=1x+1,相关系数为r1,决定系数为;经过残差分析确定(168,89)为离群点(对应残差过大),把它去掉后,再用剩下的9组数据计算得到经验回归直线l2的方程为=2x+2,相关系数为r2,决定系数为.则以下结论中正确的有()A.1>2B.1>2C.r1<r2D.>√√ (1)C(2)AC[(1)∵相关系数r=0.8245,且散点图呈左下角到右上角的带状分布,∴花瓣长度和花萼长度呈正相关.若从样本中抽取一部分,则这部分的相关系数不一定是0.8245,故选C.(2)身高的平均数为=173.5,因为离群点(168,89)的横坐标168小于平均值173.5,纵坐标89相对过大,所以去掉离群点后经验回归直线的截距变小而斜率变大,所以1>2,1<2,所以A正确,B错误;去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,所以,所以C正确,D错误.故选AC.] 名师点评判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性经验回归方程中:>0时,正相关;<0时,负相关. [跟进训练]1.(1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为()A.-1B.0C.-D.1(2)已知一组成对数据(18,24),(13,34),(10,38),(-1,m)的经验回归方程为=-2x+59.5,则该组数据的相关系数r=________(精确到0.001).√-0.998 (1)A(2)-0.998[(1)所有样本点均在同一条斜率为负数的直线上,则样本相关系数最小,为-1.(2)由条件可得,==10,==,()一定过经验回归方程=-2x+59.5,代入解得m=62,==,=18×24+13×34+10×38-1×62=1192,=182+132+102+(-1)2=594,=242+342+382+622=7020,∴r==≈-0.998.] 【教师备选资源】1.(多选)对两组数据进行统计后得到的散点图如图所示,关于其线性相关系数的结论正确的是()A.r1<0B.r2>1C.r1+r2>0D.>AC[由散点图可知,线性相关系数r1的图象表示y与x成负相关,故-1<r1<0,故A正确;线性相关系数r2的图象表示y与x正相关,故0<r2<1,故B错误;因为线性相关系数r2的点较线性相关系数r1的点密集,故>,故r1+r2>0,故C正确,D错误.故选AC.]√√ 2.如图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,下列结论正确的是()A.为预测该地2024年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠B.为预测该地2024年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠C.投资额与年份负相关D.投资额与年份的相关系数r<0B[因为2009年之前与2010年之后投资额变化较大,故为预测该地2024年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;随年份的增长,投资额总体上在增长,所以投资额与年份正相关,r>0,故CD错误.故选B.]√ 3.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程=1x+1,样本相关系数为r1;方案二:剔除点(10,21),根据剩下的数据得到经验回归方程=2x+2,样本相关系数为r2.则()A.0<r1<r2<1B.0<r2<r1<1C.-1<r1<r2<0D.-1<r2<r1<0D[根据相关变量x,y的散点图知,变量x,y具有负线性相关关系,且点(10,21)是离群值;方案一中,没剔除离群值,线性相关性弱些;方案二中,剔除离群值,线性相关性强些;所以样本相关系数-1<r2<r1<0.]√ 考点二 回归模型考向1一元线性回归模型[典例2](2023·河北唐山三模)据统计,某城市居民年收入(所有居民在一年内收入的总和,单位:亿元)与某类商品销售额(单位:亿元)的10年数据如表所示:第n年12345678910居民年收入x32.231.132.935.737.138.039.043.044.646.0商品销售额y25.030.034.037.039.041.042.044.048.051.0 依据表格数据,得到下面一些统计量的值.379.6391246.904568.9m(1)根据表中数据,得到样本相关系数r≈0.95.以此推断,y与x的线性相关程度是否很强?(2)根据统计量的值与样本相关系数r≈0.95,建立y关于x的经验回归方程(系数精确到0.01); (3)根据(2)的经验回归方程,计算第1个样本点(32.2,25.0)对应的残差(精确到0.01);并判断若剔除这个样本点再进行回归分析,的值将变大还是变小(不必说明理由,直接判断即可).附:样本(xi,yi)(i=1,2,…,n)的相关系数r=≈1.518,=,=-. [解](1)根据样本相关系数r≈0.95,可以推断线性相关程度很强.(2)由r=≈0.95及=,可得==≈,所以=r≈0.95×1.518≈1.44,又因为=39.1,所以=≈-15.56,所以y与x的经验回归方程为=1.44x-15.56.(3)第一个样本点(32.2,25.0)的残差为:25.0-(1.44×32.2-15.56)=-5.808≈-5.81,由于该点在回归直线的右下方,故将其剔除后,的值将变大. 考向2非线性回归模型[典例3](2023·广东广州二模)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如图所示的散点图,并计算得:=6.8,=70,=350. (1)根据散点图可知,可用函数模型=+拟合y与x的关系,试建立y关于x的经验回归方程;(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y(单位:元)的关系为m=-+100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润M的预报值最大?(注:年利润=年销售额-年投入成本)参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=+u的斜率和截距的最小二乘估计公式分别为=,=-. [解](1)令u=,则y关于u的经验回归方程为==u,由题意可得===200,=70-200×0.3=10,则y=10+200u,所以y关于x的经验回归方程为=10+.(2)由y=10+可得x=,年利润M=m-x-10=-+100--10=-(y-20)2+90.8,当y=20时,年利润M取得最大值,此时x===20,所以当年技术创新投入为20千万元时,年利润M的预报值取最大值. 名师点评回归分析问题的类型及解题方法(1)求经验回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.②利用公式,求出回归系数.③利用经验回归方程过样本点的中心求系数.(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.(3)利用经验回归方程判断正、负相关,决定正相关还是负相关的是系数.(4)经验回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.提醒:非线性处理策略要通过换元、取对数等手段把非线性问题转化为线性问题. [跟进训练]2.某研究所为了研究某种昆虫的产卵数y(单位:个)与温度x(单位:℃)之间的关系,现将收集到的温度xi和一组昆虫的产卵数yi(i=1,2,…,6)的6组观测数据作了初步处理,得到如图的散点图及一些统计数据. (1)若用线性回归模型来拟合数据的变化关系,求y关于x的经验回归方程=x+(结果精确到0.1);(2)若用非线性回归模型来拟合数据的变化关系,求得y关于x的经验回归方程=0.06e0.2303x,且决定系数为R2=0.9672.①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;②用拟合效果好的模型预测温度为35℃时该组昆虫的产卵数(结果四舍五入取整数).附参考公式:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归方程=x+截距和斜率的最小二乘估计公式分别为:=,=参考数据:e8.0605≈3167. [解](1)由题意可知==≈6.6,==33-6.6×26=-138.6.∴y关于x的经验回归方程是=6.6x-138.6.(2)①用指数回归模型拟合y与x的关系,决定系数R2=0.9672,线性回归模型拟合y与x的关系,决定系数R2=1-=1-≈0.9398,且0.9398<0.9672,∴用=0.06e0.2303x比=6.6x-138.6拟合效果更好.②=0.06e0.2303x中,令x=35,则=0.06e0.2303×35=0.06e8.0605≈0.06×3167≈190(个),故预测温度为35℃时该组昆虫产卵数约为190个. 考点三 独立性检验[典例4](2023·全国甲卷改编)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.218.820.221.322.523.225.826.527.530.132.634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的增加量从小到大排序为7.89.211.412.413.215.516.518.018.819.219.820.221.622.823.623.925.128.232.336.5(1)计算试验组的样本平均数; (2)①求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表;②根据①中的列联表,依据小概率值α=0.05的独立性检验,能否以此推断小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:χ2=.组别小白鼠体重的增加量合计<m≥m对照组试验组合计α0.1000.0500.010xα2.7063.8416.635 [解](1)根据题意,计算试验组样本平均数为=×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=19.8.(2)①由题意知,这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,因为第20位数据为23.2,第21位数据为23.6,所以这组数据的中位数是m=×(23.2+23.6)=23.4.填写列联表如右:②零假设为H0:小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量无差异.根据列联表中数据,得χ2==6.4>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,可以认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.组别小白鼠体重的增加量合计<m≥m对照组61420试验组14620合计202040 名师点评独立性检验的一般步骤(1)根据样本数据完成2×2列联表.(2)根据公式χ2=计算.(3)比较χ2与临界值的大小关系,作统计推断. [跟进训练]3.(2020·新高考Ⅰ卷改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;PM2.5浓度SO2浓度[0,50](50,150](150,475][0,35]32184(35,75]6812(75,115]3710 (2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?附:χ2=,PM2.5浓度SO2浓度[0,150](150,475][0,75](75,115]α0.0500.0100.001xα3.8416.63510.828 [解](1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.(2)根据抽查数据,可得2×2列联表:(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关,则χ2=≈7.484.由于7.484>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关.PM2.5浓度SO2浓度[0,150](150,475][0,75]6416(75,115]1010 点击页面进入…(WORD版)巩固课堂所学·激发学习思维夯实基础知识·熟悉命题方式自我检测提能·及时矫正不足本节课掌握了哪些考点?本节课还有什么疑问点?课后训练学习反思课时小结课时分层作业(七十一)成对数据的统计分析 THANKS

版权提示

  • 温馨提示:
  • 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
  • 2. 本文档由用户上传,版权归属用户,莲山负责整理代发布。如果您对本文档版权有争议请及时联系客服。
  • 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
  • 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服vx:lianshan857处理。客服热线:13123380146(工作日9:00-18:00)

文档下载

发布时间:2024-10-03 19:40:01 页数:44
价格:¥1 大小:11.08 MB
文章作者:180****8757

推荐特供

MORE