首页

2023版高考数学一轮总复习第八章统计与统计分析第三讲成对数据的统计分析课件

资源预览文档简介为自动调取,内容显示的完整度及准确度或有误差,请您下载后查看完整的文档内容。

1/74

2/74

3/74

4/74

剩余70页未读,查看更多内容需下载

第三讲 成对数据的统计分析 课标要求考情分析1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.会通过相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用回归分析,独立性检验是高考考查的重点,以解答题为主,常与概率结合考查.难度中高档 1.回归分析(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种非确定性关系. (2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量正相关;若这些散点有y随x增大而减小的趋势,则称两个变量负相关. 它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性越强;当|r|接近0时,表明两个变量间几乎不存在相关关系,相关性越弱. 变量y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2.独立性检验(1)2×2列联表设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下: (2)独立性检验a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验. (3)独立性检验的一般步骤①根据样本数据列出2×2列联表;②计算随机变量χ2的值,查表确定临界值xα;③如果χ2≥xα,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(χ2≥xα);否则,就认为在犯错误的概率不超过P(χ2≥xα)的前提下不能推断“X与Y有关系”. 【名师点睛】(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.(2)独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据χ2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活. 题组一走出误区1.判断下列结论正误(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.() (3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越大.()答案:(1)√(2)√ (3)×(4)√ 题组二走进教材2.(教材改编题)为调查中学生近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()B.均值与方差D.概率A.回归分析C.独立性检验答案:C 3.(教材改编题)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案:A 题组三真题展现4.(2020年全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到散点图(如图8-3-1):图8-3-1 由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()B.y=a+bx2D.y=a+blnxA.y=a+bxC.y=a+bex答案:D 相关关系的判断考点一1.观察下列各图形,①②③④其中两个变量x,y具有相关关系的图是()A.①②B.①④C.③④D.②③ 解析:由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.故选C.答案:C 2.(多选题)关于回归分析,下列说法正确的是()A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定B.线性相关系数可以是正的也可以是负的C.在回归分析中,如果r2=1或r=±1,说明x与y之间完全线性相关D.样本相关系数r∈(-1,1) 解析:选项D中,样本相关系数应满足-1≤r≤1,故D错误,ABC都正确.故选ABC.答案:ABC 3.x和y的散点图如图8-3-2所示,则下列说法中正确命题的序号有________.图8-3-2 解析:在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.答案:①② 售价x99.51010.511销售量y1110865考点二线性回归分析[例1](1)(多选题)某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示: 答案:ABC 编号x12345年份20152016201720182019单价y/(元·kg-1)1820232529(2)某农科所实地考察,研究发现某贫困村适合种植两种药材,可以通过种植这两种药材脱贫,通过大量考察研究得知药材A的亩产量约为300kg,其收购价格处于上涨趋势,最近五年的价格如下表: 药材B的收购价格始终为20元/kg,其亩产量的频率分布直方图如图8-3-3,图8-3-3 (1)若药材A的单价y(单位:元/kg)与年份编号x具有线性相关关系,请求出y关于x的回归直线方程,并估计2023年药材A的单价;(2)用上述频率分布直方图估计药材B的平均亩产量,若不考虑其他因素,试判断2023年该村应种植药材A还是药材B?并说明理由. (2)由(1)知,2023年种植药材A的收入为39.2×300=11760(元),由频率分布直方图可知,(360×0.005+380×0.01+400×0.0175+420×0.0125+440×0.005)×20=401,∴药材B的平均亩产量为401kg,∵药材B的收购价格始终为20元/kg,∴2023年种植药材B的收入为20×401=8020<11760,故2023年该村应种植药材A. 【题后反思】回归分析问题的类型及解题方法(1)求经验回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.②利用公式,求出回归系数.③利用经验回归直线过样本点的中心求系数a.^ (2)利用经验回归方程进行预测时,可把经验回归方程看作一次函数求函数值.(3)利用经验回归方程判断正、负相关时,决定是正相关还是负相关的是系数.(4)判断经验回归方程的拟合效果,可以利用样本相关系数判断,|r|越趋近于1,两变量的线性相关性越强. 广告支出x24568销售额y3040605070【变式训练】某公司为确定下一年度投入某种产品的宣传费,需了解这种产品的年广告费支出x(单位:万元)对年销售额y(单位:万元)的影响,对近5年的年广告费支出x和年销售额y进行统计,得到如下数据: (1)请根据表中数据,建立y与x的经验回归方程;(2)当年广告费支出为10万元时,估计年销售额y的预报值是多少万元?附:回归方程中斜率和截距的最小-乘估计公式分别 (2)当x=10时,=6.5×10+17.5=82.5(万元),所以当年广告费支出为10万元时,估计年销售额y的预报值是82.5万元. 考点三独立性检验[例2]电视传媒公司为了解某地区观众对“中国诗词大会”的收视情况,随机抽取了100名观众进行调查,其中女性有55名.将日均收看该节目时间不低于40分钟的观众称为“诗词迷”,已知“诗词迷”中有15名男性,“非诗词迷”共有75名. 性别非诗词迷诗词迷合计男女合计(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为是否为“诗词迷”与性别有关? P(χ2>xα)0.150.100.050.0250.0100.0050.001xα2.0722.7063.8415.0246.6357.87910.828(2)采用分层随机抽样的方式从“诗词迷”中任意选取5人进行问卷调查,若再从这5人中任意选取2人奖励诗词大礼包,求选取的2人为一位男性一位女性的概率. 性别非诗词迷诗词迷合计男301545女451055合计7525100解:(1)在抽取的100个人中,“非诗词迷”共有75名,则“诗词迷”有25人,女性有55名,所以2×2列联表如下:所以没有95%的把握认为是否为“诗词迷”与性别有关. 【变式训练】新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是50岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间,潜伏期越长,感染到他人的可能性越高,现对400个病例的潜伏期(单位:天)进行调查,如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,50岁以上人数占70%,长期潜伏人数占25%,其中50岁以上长期潜伏者有60人. 潜伏者类型50岁以下(含50岁)50岁以上总计长期潜伏者非长期潜伏者总计(1)请根据以上数据完成2×2列联表;单位:人 P(χ2≥xα)0.10.050.010xα2.7063.8416.635(2)判断是否有95%的把握认为是否是“长期潜伏”者与年龄有关. 潜伏者类型50岁以下(含50岁)50岁以上总计长期潜伏者4060100非长期潜伏者80220300总计120280400解:(1)根据题目所给数据得到如下2×2列联表,单位:人 3.841,所以有95%以上的把握认为是否是“长期潜伏者”与年龄有关. ⊙非线性回归的应用问题[例3]为了研究一种昆虫的产卵数y(单位:个)和温度x(单位:℃)是否有关,现收集了7组观测数据列于下表中,并作出了如图8-3-4所示的散点图,发现样本点没有分布在某个带状区域内,两个变量不呈线性相关关系,现分别和温度x的回归方程来建立两个变量之间的关系. 温度x/℃20222426283032产卵数y/个610212464113322t=x24004845766767849001024z=lny1.792.303.043.184.164.735.77 图8-3-4 (1)分别在图8-3-5(1)(2)中画出y关于t的散点图和z关于x的散点图,根据散点图判断哪一个模型更适合作为昆虫的产卵数y关于温度x的回归方程.(给出判断即可,不必说明理由)(1) (2)图8-3-5 解:(1)画出y关于t的散点图,如图8-3-6所示.图8-3-6 画出z关于x的散点图,如图8-3-7所示.图8-3-7根据散点图可以判断模型②更适合作为昆虫的产卵数y关于温度x的回归方程类型. 【反思感悟】非线性回归方程的求法(1)根据原始数据作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)作恰当变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应变换,即可得非线性回归方程. 【高分训练】1.(2021年昌江期中)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到散点图(如图8-3-8)及一些统计量的值. 图8-3-8 (1)根据散点图判断y=a+bx与y=c+d,哪一个适合作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(2)的结果回答下列问题:①当年宣传费x=49时,年销售量及年利润的预报值是多少?②当年宣传费x为何值时,年利润的预报值最大? 使用年数x234567售价y201286.44.43z=lny3.002.482.081.861.481.102.(2021年汕头模拟)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据: 下面是z关于x的折线图:图8-3-9(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明; (2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少?(b,a小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?

版权提示

  • 温馨提示:
  • 1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
  • 2. 本文档由用户上传,版权归属用户,莲山负责整理代发布。如果您对本文档版权有争议请及时联系客服。
  • 3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
  • 4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服vx:lianshan857处理。客服热线:13123380146(工作日9:00-18:00)

文档下载

发布时间:2024-05-03 10:40:02 页数:74
价格:¥3 大小:2.71 MB
文章作者:180****8757

推荐特供

MORE