第十三章 统计与成对数据的统计分析
资源预览文档简介为自动调取,内容显示的完整度及准确度或有误差,请您下载后查看完整的文档内容。
第十三章统计与成对数据的统计分析第1讲随机抽样、统计图表教师尊享·命题分析课标要求命题点五年考情命题分析预测1.了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法:抽签法与随机数法.会计算样本均值和样本方差,了解样本与总体的关系.2.了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.掌握分层随机抽样的样本均值和样本方差.3.在简单的实际情境中,能根据实际问题的特点,设计恰当的抽样方法解决问题.4.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.随机抽样2020全国卷ⅡT18本讲为高考的命题热点,主要考查:(1)分层随机抽样,题型以选择题和填空题为主,属于中低档题;(2)统计图表的应用,着重考查频率分布表、频率分布直方图、条形图、折线图等,单独命题时以小题形式出现,与其他知识综合命题时常作为问题情境出现在解答题中.预计2024年高考命题趋势变化不大,重点在情境的创新.统计图表2022新高考卷ⅡT19;2020新高考卷ⅡT9;2019全国卷ⅢT17;2018全国卷ⅠT3教材帮读透教材融会贯通1.简单随机抽样(1)简单随机抽样分为放回简单随机抽样和不放回简单随机抽样,除非特殊说明,本章所称的简单随机抽样指不放回简单随机抽样.(2)常用方法:①抽签法和②随机数法.辨析比较1.抽签法和随机数法的异同:(1)都是逐个、不放回抽样;(2)总体中个体数不多时选择抽签法,总体量较大,样本量较小时选择随机数法.2.能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.2.总体均值与样本均值名称定义总体均值(总体平均数)一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称Y=Y1+Y2+…+YNN=1N∑Ni=1Yi为总体均值,又称总体平均数.如果总体的N个变量值中,不同的值共有kk≤N个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fii=1,2,…,k,则总体均值还可以写成加权平均数的形式Y=③1N∑ki=1fiYi.样本均值(样本平均数)如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称y=y1+y2+…+ynn=④1n∑ni=1yi为样本均值,又称样本平均数.第102页
说明(1)在简单随机抽样中,我们常用样本平均数y去估计总体平均数Y;(2)总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性);(3)一般情况下,样本量越大,估计越准确;(4)总体平均数是总体的一项重要特征.3.分层随机抽样(1)定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为⑤分层随机抽样,每一个子总体称为⑥层.在分层抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为⑦比例分配.(2)样本平均数的计算:在比例分配的分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,我们用X1,X2,…,XM表示第1层各个个体的变量值,用x1,x2,…,xm表示第1层样本的各个个体的变量值,用Y1,Y2,…,YN表示第2层各个个体的变量值,用y1,y2,…,yn表示第2层样本的各个个体的变量值.第1层、第2层的样本平均数分别为x,y,样本平均数为w,总体平均数为W,则w=∑mi=1xi+∑ni=1yim+n,W=∑Mi=1Xi+∑Ni=1YiM+N,w=MM+Nx+NM+Ny=mm+nx+nm+ny.我们可以直接用样本平均数w估计总体平均数W.辨析比较简单随机抽样与分层随机抽样的辨析抽样方法共同点各自特点相互联系适用范围简单随机抽样(1)抽样过程中每个个体被抽到的机会均等;(2)都是不放回抽样.从总体中逐个抽取.分层随机抽样在各层抽样时可采用简单随机抽样.样本容量较小.总体由差异明显的几部分组成.分层随机抽样将总体分成互不交叉的层,分层进行抽取.4.统计图表(1)常见的统计图表有条形图、扇形图、折线图、频率分布表、频率分布直方图等.(2)频率分布直方图的制作步骤第102页
基础自测1.下列说法正确的是(D)A.从无限多个个体中抽取100个个体作为样本是简单随机抽样B.某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛是简单随机抽样C.从某厂生产的5000件产品中抽取600件进行质量检验,可用抽签法D.某校有2000名学生,其中高一年级700人,高二年级600人,高三年级700人,现从中抽取20人了解学生在校学习压力的情况,可用分层随机抽样的方法抽取[解析]A选项,不是简单随机抽样,因为题中被抽取的总体中的个体数是无限的,而不是有限的;B选项,不是简单随机抽样,个子最高的5名同学是确定的,不是等可能抽样;C选项是简单随机抽样,但总体中的个体数太多,不宜采用抽签法;D选项,三个年级的学生个体差异比较明显,所以适用分层随机抽样.2.将一个容量为n的样本分成2组,已知第一组频数为8,第二组频率为0.80,则n为(B)A.20B.40C.60D.80[解析]将一个容量为n的样本分成2组,∵第一组频数为8,第二组的频率为0.80,∴n−8n=0.80,解得n=40.第102页
3.中国古代科举制度始于隋而成于唐,兴盛于明、清两朝.明代会试分南卷、北卷、中卷,按11:7:2的比例录取,若某年会试录取人数为100,则中卷录取人数为(A)A.10B.35C.55D.75[解析]由题意知,会试录取人数为100,则中卷录取人数为100×211+7+2=10.4.从一个篮球训练营中抽取10名学员进行投篮比赛,每人投10次,统计出该10名学员投篮投中的次数,4人投中5次,3人投中6次,2人投中7次,1人投中8次.试估计该训练营投篮命中率为0.6.[解析]10名学员投中的平均次数为4×5+3×6+2×7+1×810=6,所以投篮命中率约为610=0.6.高考帮研透高考明确方向命题点1随机抽样角度1简单随机抽样1.(1)某彩票的中奖号码是从分别标有1,2,…,30的三十个小球中逐个不放回地摇出7个小球来按规则确定中奖情况,这种从30个号码中选7个号码的抽样方法是抽签法.[解析]三十个小球相当于号签,搅拌均匀后逐个不放回地抽取,这是典型的抽签法.(2)[2022太原三模]设某总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从下面随机数表第1行第5列的数字开始,从左到右依次选取两个数字,则选出来的第5个个体编号为19.18180792454417165809798386196206765003105523640505266238[解析]由题意得,选出来的这5个个体的编号分别是07,17,16,09,19,所以选出来的第5个个体编号为19.角度2分层随机抽样2.(1)某中学有高中生960人,初中生480人,为了了解学生的身体状况,采用分层随机抽样的方法,从该校学生中抽取容量为n的样本,其中高中生有24人,那么n等于(D)第102页
A.12B.18C.24D.36[解析]根据分层随机抽样方法知n960+480=24960,解得n=36.(2)某房地产公司为了解小区业主对户型结构——平层与复式结构的满意度,采取分层随机抽样方式对华润中央公园小区的业主进行问卷调查,其中20位已购买平层户型的业主满意度平均分为8,30位已购买复式户型的业主满意度平均分为9,用样本平均数估计该小区业主对户型结构满意度的平均分为(C)A.8.4B.8.5C.8.6D.8.7[解析]估计小区业主对户型结构满意度的平均分为2020+30×8+3020+30×9=8.6,故选C.(3)某口罩厂的三个车间在一个小时内共生产3600个口罩,在出厂前要检查这批口罩的质量,现决定采用分层随机抽样的方法进行抽取,若从第一、二、三车间抽取的口罩个数分别为a,b,c,且a,b,c成等差数列,则第二车间生产的口罩个数为(C)A.800B.1000C.1200D.1500[解析]因为a,b,c成等差数列,所以a+c=2b,则第二车间生产的口罩个数为3600×ba+b+c=3600×b3b=1200,故选C.方法技巧(1)简单随机抽样需满足:①被抽取的样本总体的个体数有限;②逐个抽取;③等可能抽取.(2)在分层随机抽样中,抽样比=样本容量总体容量=各层样本容量各层个体总量.(3)在分层随机抽样中,如果第一层的样本量为m,平均值为x;第二层的样本量为n,平均值为y,则样本的平均值为mx+nym+n.命题点2统计图表角度1扇形图、条形图、雷达图、折线图3.(1)[2023重庆质检]某国有企业响应国家关于进一步深化改革,加强内循环的号召,不断自主创新提升产业技术水平,同时积极调整企业旗下的甲、乙、丙、丁、戊等5种系列产品的结构比例,近年来取得了显著效果.据悉该企业2021年5种系列产品年总收入是2020年的2倍,其中5种系列产品的年收入构成比例如图1,图2所示.则以下说法错误的是(C)第102页
图1图2A.2021年甲系列产品收入和2020年的一样多B.2021年乙和丙系列产品收入之和比2020年的企业年总收入还多C.2021年丁系列产品收入是2020年丁系列产品收入的13D.2021年戊系列产品收入比2020年戊系列产品收入的2倍还多[解析]设2020年5种系列产品年总收入为m,则2021年5种系列产品年总收入为2m,对于A,2020年甲系列产品收入为0.4m,2021年甲系列产品收入为0.4m,A正确;对于B,2021年乙和丙系列产品收入之和为1.1m,B正确;对于C,2020年丁系列产品收入为0.15m,2021年丁系列产品收入为0.1m,是2020年丁系列产品收入的23,C不正确;对于D,2020年戊系列产品收入为0.15m,2021年戊系列产品收入为0.4m,比2020年戊系列产品收入的2倍还多,D正确.故选C.(2)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图(如图).图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是(D)第102页
A.各月的平均最低气温都在0℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20℃的月份有5个[解析]由题图可知0℃在虚线框内,所以各月的平均最低气温都在0℃以上,A正确;由题图可知七月的平均温差大于5℃,而一月的平均温差小于5℃,所以七月的平均温差比一月的平均温差大,B正确;由题图可知三月和十一月的平均最高气温都大约在10℃,基本相同,故C正确;由题图可知平均最高气温高于20℃的月份只有3个,所以D不正确.(3)[多选/2020新高考卷Ⅱ]我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图(如图).下列说法正确的是(CD)A.这11天复工指数和复产指数均逐日增加B.这11天期间,复产指数增量大于复工指数的增量C.第3天至第11天复工复产指数均超过80%D.第9天至第11天复产指数增量大于复工指数的增量第102页
[解析]由题图可知,复产指数第7天到第9天逐日减少,复工指数第1天到第2天、第7天到第8天、第10天到第11天逐日减少,故A错误.由题图可知,第1天复产指数与复工指数的差大于第11天复产指数与复工指数的差,所以这11天期间,复产指数的增量小于复工指数的增量,故B错误.由题图可知,第3天至第11天复工复产指数均在80%以上,故C正确.由题图可知,第9天至第11天复产指数的增量大于复工指数的增量,故D正确.故选CD.方法技巧统计图表的主要应用扇形图:直观描述各类数据占总数的比例.折线图:描述数据随时间的变化趋势.条形图和直方图:直观描述不同类别或分组数据的频数和频率.角度2频率分布直方图4.[2022天津高考]为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为(B)A.8B.12C.16D.18[解析]由频率分布直方图得第一组、第二组、第三组的频率分别为0.24,0.16,0.36.因为第一组和第二组共有20人,所以志愿者的总人数为20÷0.24+0.16=50,所以第三组的人数为0.36×50=18,则第三组中有疗效的人数为18−6=12,故选B.5.[2018全国卷Ⅰ]某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:未使用节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6)[0.6,0.7]第102页
频数13249265使用了节水龙头50天的日用水量频数分布表日用水量[0,0.1)[0.1,0.2)[0.2,0.3)[0.3,0.4)[0.4,0.5)[0.5,0.6]频数151310165(1)在图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;[解析]频率分布直方图如图所示.(2)估计该家庭使用节水龙头后,日用水量小于0.35m3的概率;[解析]根据(1)中的频率分布直方图,知该家庭使用节水龙头50天日用水量小于0.35m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35m3的概率的估计值为0.48.(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)第102页
[解析]该家庭未使用节水龙头50天日用水量的平均数为x1=150×0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5=0.48,该家庭使用了节水龙头后50天日用水量的平均数为x2=150×0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5=0.35,估计该家庭使用节水龙头后,一年能节省水0.48−0.35×365=47.45m3.方法技巧与频率分布直方图相关的结论(1)频率分布直方图中各小长方形的面积之和为1.(2)频率分布直方图中纵轴表示频率组距,故每组样本的频率为组距×频率组距,即小长方形的面积.(3)频率分布直方图中每组样本的频数为频率×总数.教师尊享·备课题组1.[命题点1角度2/多选]已知某地区有小学生120000人,初中生75000人,高中生55000人,当地教育部门为了解本地区中小学生的近视率,按小学生、初中生、高中生进行分层随机抽样,抽取一个容量为2000的样本,得到小学生、初中生、高中生的近视率分别为30%,70%,80%.下列说法中正确的有(ABD)A.从高中生中抽取了440人B.每名学生被抽到的概率为1125C.估计该地区中小学生总体的平均近视率为60%D.估计高中生的近视人数为44000[解析]由题意,得每名学生被抽到的概率为2000120000+75000+55000=1125,故B正确;从高中生中抽取了55000×1125=440(人),故A正确;估计高中生的近视人数为55000×80%=44000,故D正确;学生总人数为25000人,小学生占比为120000250000=48%,同理,初中生、高中生占比分别为30%,22%,在容量为2000的样本中,小学生、初中生和高中生分别有960人、600人和440人,则近视人数为960×30%+600×70%+440×80%=1060,所以估计该地区中小学生总体的平均近视率为10602000=53%,故C错误.第102页
2.[命题点2角度1/2018全国卷Ⅰ]某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是(A)A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半[解析]解法一设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以只有A是错误的.解法二设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.因为0.6x<0.37×2x,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.3.[命题点2角度1]受益于年轻人的线上消费倾向,在线外卖行业市场规模不断快速增长,如图为2011—2021年中国在线外卖行业市场规模及年增长率统计图,则下列结论错误的是(C)第102页
A.2012—2021年中国在线外卖行业市场规模年增长率都不低于15%B.2012—2021年中国在线外卖行业市场规模年增长率的极差为56.3%C.2012—2021年中国在线外卖行业市场规模年增加量最大的是2014年D.2011—2021年中国在线外卖行业市场规模年平均增长率超过40%[解析]A选项:由统计图可知A正确;B选项:2012—2021年中国在线外卖行业市场规模年增长率的极差为71.3%−15.0%=56.3%,B正确;C选项:2014年中国在线外卖行业市场规模年增加量不超过400亿元,但2021年的年增加量超过1000亿元,C错误;D选项:设2011—2021年中国在线外卖行业市场规模的年平均增长率为x,则1+x10=7855.8−216.8216.8≈35>32,所以1+x>2,x>2−1>0.4=40%,D正确.作业帮练透好题精准分层基础过关1.[2023豫南名校联考]随着人们环保意识的增强,一次性筷子的使用率在逐渐降低,某调查小组为了了解目前一次性筷子的使用情况,在街头随机抽取了一部分人做了一次问卷调查,其中老年人、中年人、青年人填写的问卷分别有200份、300份、500份,现在用分层随机抽样的方法抽出样本进行研究.若抽取的样本中中年人填写的问卷有60份,则样本量为(C)A.60B.150C.200D.300[解析]设样本量为n,则n200+300+500=60300,解得n=200.2.[2022烟台期末]第102页
2022年北京冬奥会于2月4日开幕,某高中为了解本校学生收看开幕式的平均时长(单位:分),采用分层随机抽样,分别抽取了男生60人、女生40人,其平均收看时长分别为120分和90分,据此估计本校全体学生的平均收看时长为(C)A.90分B.105分C.108分D.120分[解析]由题意可得抽取样本容量为60+40=100,由样本的平均数估计总体的平均数,可知本校全体学生的平均收看时长约为120×60100+90×40100=108(分),故选C.3.[2023北京模拟]李明父亲从2022年1月开始,每月1日购买相同份数的某一种理财产品,连续购买4次,并在5月1日将持有的理财产品全部卖出.已知该理财产品的购买和卖出都是以份为计价单位进行交易,且李明父亲在本次投资中没有亏损,那么下列四个折线图中反映了这种理财产品每份价格(单位:万元)的可能变化情况的是(C)A.B.C.第102页
D.[解析]由于本次投资中没有亏损,所以需要计算判断4次投资的总金额与卖出时收获的金额,两者持平,即为没有亏损,不妨设李明父亲每月只买1份理财产品,对于A,4次投资的总金额为0.75+1+1.25+1=4(万元),卖出时收获的金额为4×0.75=3(万元),显然这属于亏本,故A错误;对于B,4次投资的总金额为1+1.25+0.75+1.25=4.25(万元),卖出时收获的金额为4×1=4(万元),显然这属于亏本,故B错误;对于C,4次投资的总金额为1.25+1+0.75+1=4(万元),卖出时收获的金额为4×1=4(万元),显然这属于没有亏损,故C正确;对于D,4次投资的总金额为1.25+1+1.25+1=4.5(万元),卖出时收获的金额为4×1=4(万元),显然这属于亏本,故D错误.故选C.4.《网络直播营销管理办法(试行)》(以下简称《办法》)施行后,某部门为了解某平台“直播带货”商品销售反馈变化情况,随机抽取了A,B,C,D,E,F,G,H8类商品,收集了这8类商品在《办法》施行前、后的消费者评价得分,绘制成如图所示的雷达图,根据雷达图判断,下面的叙述不正确的是(D)A.《办法》施行后,D类商品的评价得分提升幅度最大B.《办法》施行后,H,F类商品的评价得分低于《办法》施行前第102页
C.这8类商品《办法》施行后评价得分的平均分高于《办法》施行前D.《办法》施行后,有7类商品的评价得分高于《办法》施行前[解析]对于A,由雷达图可知,D类商品在《办法》施行前、后的评价得分差最大,故选项A正确.对于B,由雷达图可知,《办法》施行后,H,F类商品的评价得分低于《办法》施行前,故选项B正确.对于C,《办法》施行后,除H,F类商品外,其余6类商品的评价得分均高于《办法》施行前,且这6类商品的评价得分增长之和超过H,F类商品评价得分下降之和,则这8类商品《办法》施行后评价得分的平均分高于《办法》施行前的平均分,故选项C正确.对于D,由选项B分析可知选项D错误.故选D.5.[2022郑州三模]2022年2月28日,国家统计局发布了我国2021年国民经济和社会发展统计公报.2021年,全国居民人均可支配收入和消费支出(单位:元)较上一年均有所增长,结合图1和图2(部分数据由于四舍五入,存在总计与分项合计不等的情况),下列说法中错误的是(C)A.2017—2021年全国居民人均可支配收入逐年递增B.2021年全国居民人均消费支出构成中教育文化娱乐占比高于医疗保健占比C.2020年全国居民人均可支配收入较前一年下降D.2021年全国居民人均消费支出构成中食品烟酒和居住占比超过50%[解析]观察题图可知2017—2021年全国居民人均可支配收入逐年递增,故A正确.观察题图可知2021年全国居民人均消费支出构成中教育文化娱乐占比为10.8%,高于医疗保健占比,后者为8.8%第102页
,故B正确.2020年全国居民人均可支配收入的增速下降,而不是收入下降,故C错误.2021年全国居民人均消费支出构成中,食品烟酒和居住占比和为29.8%+23.4%=53.2%,超过50%,故D正确.故选C.6.某校要从高一、高二、高三共2019名学生中选取50名组成志愿团,若先用简单随机抽样的方法从2019名学生中剔除19名,再从剩下的2000名学生中按分层随机抽样的方法抽取50名,则下面对每名学生入选的概率描述正确的是①.(填序号)①都相等且为502019;②都相等且为140;③不完全相等.[解析]根据简单随机抽样及分层随机抽样的定义可得,每个个体被抽到的概率都相等,所以每个个体被抽到的概率都等于502019.7.总体由编号为1,2,…,99,100的100个个体组成.现用随机数法选取60个个体,利用电子表格软件产生的若干个1~100范围内的整数随机数的开始部分数据如下,则选出来的第5个个体的编号为31.8442178315745568877744772176335063[解析]随机抽样中,随机数法获取的个体编号要在指定编号范围内,遇到大于最大编号或者重复号码舍去不要,由给定的数据,从8数起至第5个仍是8,重复,舍去,所以选中的第5个个体的编号为31.8.[2022合肥教学质量检测]在文明城市创建过程中,某市创建办公室对市区内从事小吃、衣帽、果蔬、玩具等商户数进行了统计并绘成如图所示的条形统计图,对商户进行了文明城市知识教育培训.2021年初,该市创建办公室计划从2000户商户中,按照商户类型进行分层随机抽样,随机抽取100户进行文明城市知识教育培训效果调查,则衣帽类和果蔬类商户抽取的户数分别为25,15.第102页
[解析]由条形统计图可知,在2000户商户中,衣帽类商户有500户,果蔬类商户有300户,衣帽类商户所占的比例为5002000=14,果蔬类商户所占的比例为3002000=320,当按分层随机抽样的方法抽取100户商户时,应抽取的衣帽类商户为100×14=25(户),应抽取的果蔬类商户为100×320=15(户).9.一工厂生产了16800件某种产品,它们分别来自甲、乙、丙3条生产线.为检查这批产品的质量,决定采用分层随机抽样的方法进行抽样.已知从甲、乙、丙3条生产线抽取的产品个数分别是a,b,c,且2b=a+c,则乙生产线生产了5600件产品.[解析]设甲、乙、丙3条生产线分别生产了T甲,T乙,T丙件产品,则a:b:c=T甲:T乙:T丙,即aT甲=bT乙=cT丙.又2b=a+c,所以T甲+T丙=2T乙,T甲+T乙+T丙=16800,所以T乙=168003=5600.能力提升10.[2023长沙雅礼中学模拟]某学校为了调查学生一周在生活方面的支出(单位:元)情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出在[50,60]内的学生有60人,则下列说法不正确的是(A)A.样本中支出在[50,60]内的频率为0.03B.样本中支出不少于40元的人数为132C.n的值为200D.若该校有2000名学生,则约有600人支出在[50,60]内[解析]设[50,60]对应小长方形的高为x,则0.01+0.024+0.036+x×10=1,解得x=0.03.所以样本中支出在[50,60]内的频率为0.03×10=0.3,A选项错误.n=600.3=200,C选项正确.样本中支出不少于40元的人数为200×0.036+0.03×10=132,B选项正确.第102页
该校有2000名学生,则约有2000×0.3=600(人)支出在[50,60]内,D选项正确.故选A.11.[2023西安检测]随着我国经济社会加快发展,人们的思想观念不断更新,女性在企业管理中占据着越来越重要的地位.2021年12月21日,国家统计局发布了《中国妇女发展纲要(2011—2020年)》终期统计监测报告.2010—2020年企业职工董事和职工监事中女性所占比重条形统计图如图所示,则下列说法错误的是(A)A.2010—2020年企业职工董事中女性所占比重的平均值为35.0个百分点B.2020年企业职工董事中女性所占比重比2010年提高2.2个百分点C.2020年企业职工监事中女性所占比重比2010年提高3.0个百分点D.2011年企业职工监事中女性所占比重与董事中女性所占比重的差最大[解析]对于A,由题图可知2010—2020年企业职工董事中女性所占比重的平均值为32.7%+31.6%+26.4%+29.1%+40.1%+38.4%+39.9%+39.7%+39.9%+33.4%+34.9%÷11=35.1%,故A错误;对于B,由题图可知,34.9%−32.7%=2.2%,所以2020年企业职工董事中女性所占比重比2010年提高2.2个百分点,故B正确;对于C,由题图可知,38.2%−35.2%=3.0%,所以2020年企业职工监事中女性所占比重比2010年提高3.0个百分点,故C正确;对于D,由题图可知,2010—2020年企业职工监事中女性所占比重与董事中女性所占比重的差依次为2.5%,4%,0.6%,0.1%,1.4%,0.5%,0.2%,1.9%,2%,3%,3.3%,故D正确.故选A.12.[多选]某单位200名职工的年龄分布情况如图所示,则(ACD)第102页
A.40~50岁职工的人数为72B.若按分层随机抽样的方法从中抽取25名职工,则抽取40岁以下职工10人C.若按分层随机抽样的方法从中抽取n名职工,在抽取的样本中,50岁以上职工人数为n5D.若按分层随机抽样的方法从中抽取50名职工,则抽取40~50岁的职工18人[解析]由题中饼状图可知,40~50岁的职工所占的百分比为1−44%−20%=36%,故40~50岁职工的人数为200×36%=72,选项A正确;若按分层随机抽样从中抽取25名职工,则抽取40岁以下职工人数为200×44%×25200=11,选项B不正确;50岁以上职工占总职工人数的15,则样本中也占15,故样本中50岁以上职工人数为n5,选项C正确;抽取50名职工时,抽取比例为14,则抽取40~50岁职工的人数为72×14=18,选项D正确.13.[多选]百年大计,教育为本.“十四五”规划纲要中,教育作为一个专章被提出.2021年3月1日中华人民共和国教育部发布2020年全国教育事业统计主要结果,其中关于高中(含普通高中、中等职业学校及其他适龄教育机构)阶段在校生规模与毛入学率情况图及2020年高中阶段在校生结构饼状图如图1,图2所示.根据图中信息,下列说法正确的有(BD)(说明:高中阶段毛入学率=在校生规模÷适龄青少年总人数×100%)全国高中阶段在校生规模及毛入学率第102页
图12020年高中阶段在校生结构图2A.近六年,高中阶段在校生规模与毛入学率均持续增长B.近六年,高中阶段在校生规模的平均值超过4000万人C.2019年,未接受高中阶段教育的适龄青少年不足420万人D.2020年,普通高中的在校生超过2470万人[解析]对于A,由条形图可知,2018年高中阶段在校生人数比2017年降低了,故选项A错误;对于B,近六年高中阶段在校生规模的平均值为4000+16×38−30−29−65−5+128≈4006.167(万人),又4006.167>4000,故选项B正确;对于C,2019年未接受高中教育的人数为399589.5%−3995≈469(万人),超过420万人,故选项C错误;对于D,2020年普通高中的在校生人数为4128×60.1%=2480.928(万人),又2480.928>2470,故选项D正确.第2讲用样本估计总体第102页
教师尊享·命题分析课标要求命题点五年考情命题分析预测1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.2.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.3.结合实例,能用样本估计总体的取值规律.4.结合实例,能用样本估计百分位数,理解百分位数的统计含义.百分位数的估计本讲是高考的热点,主要考查百分位数,样本数据的数字特征,统计图中的数字特征,总体趋势估计等.预计2024年高考主要以生产生活实践情境为载体考查样本的数字特征及对总体的估计.样本的数字特征2022全国卷乙T19;2022全国卷甲T2;2021新高考卷ⅠT9;2021新高考卷ⅡT9;2021全国卷甲T2;2021全国卷乙T17;2020全国卷ⅢT3;2019全国卷ⅡT5;2019全国卷ⅡT13;2019全国ⅢT17总体集中趋势的估计2022新高考卷ⅡT19;2022全国卷乙T19;2020全国卷ⅡT18;2020全国卷ⅢT18;2019全国卷ⅢT17总体离散程度的估计2021全国卷乙T17;2019全国卷ⅡT19教材帮读透教材融会贯通1.百分位数一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有①p%的数据小于或等于这个值,且至少有②100−p%的数据大于或等于这个值.常用结论1.百分位数的特点:(1)一组数据的百分位数可能是这组数据中的数,也可能不是这组数据中的数;(2)第0百分位数为这组数据中的最小的数,第100百分位数为这组数据中的最大的数;(3)一组数据的某些百分位数可能是同一个数.2.在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数.以上三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.2.平均数、中位数、众数数字特征概念特征平均数x=③1nx1+x2+…+xn.与每一个数据有关,只有一个.第102页
中位数将一组数据按从小到大的顺序排列后,处在最④中间的一个数据(当数据个数是奇数时)或最中间两个数据的⑤平均数(当数据的个数是偶数时).中位数不受极端值的影响,仅利用了排在中间位置的数据信息.众数一组数据中出现次数⑥最多的数据(即频数最大值所对应的样本数据).体现了样本数据的最大集中点,不受极端值的影响,而且不一定唯一.3.方差和标准差名称定义样本的方差和标准差假设一组数据是x1,x2,…,xn,用x表示这组数据的平均数,那么这n个数的方差s2=⑦1n[x1−x2+x2−x2+…+xn−x2];标准差s=⑧1n[x1−x2+x2−x2+…+xn−x2].总体的方差和标准差一般式如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为Y,则总体方差S2=⑨1N∑Ni=1Yi−Y2.加权式如果总体的N个变量值中,不同的值共有kk≤N个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fii=1,2,…,k,则总体方差为S2=⑩1N∑ki=1fiYi−Y2.总体标准差:S=S2.4.分层随机抽样的样本方差我们以比例分配分两层随机抽样的情况为例.假设第一层有m个数,分别为x1,x2,…,xm,平均数为x,方差为s2,第二层有n个数,分别为y1,y2,…,yn,平均数为y,方差为t2,则x=1m∑mi=1xi,s2=1m∑mi=1xi−x2,y=1n∑nj=1yj,t2=1n∑nj=1yj−y2.若记样本均值为a,样本方差为b2,则可以算出a=1m+n∑mi=1xi+∑nj=1yj=mx+nym+n,b2=m[s2+x−a2]+n[t2+y−a2]m+n.常用结论1.平均数的性质(1)若给定一组数据x1,x2,…,xn的平均数为x,则ax1,ax2,…,axn的平均数为ax,ax1+b,ax2+b,…,axn+b的平均数为ax+b.(2)若两组数据x1,x2,…,xn和y1,y2,…,yn的平均数分别是x和y,则x1+y1,x2+y2,…,xn+yn的平均数是x+y.2.方差的性质若给定一组数据x1,x2,…,xn,其方差为s2,则ax1,ax2,…,axn的方差为a2s2,ax1+b,ax2+b,…,axn+b的方差为a2s2.特别地,当a=1时,有x1+b,x2+b,…,xn+b的方差为s2第102页
,这说明将一组数据中的每一个数据都加上一个相同的常数,方差是不变的,即不影响数据的波动性.基础自测1.下列说法正确的是(C)A.众数可以准确地反映出总体的情况B.一组数据的平均数一定大于这组数据中的每个数C.平均数、众数与中位数从不同的角度描述了一组数据的集中趋势D.一组数据的方差越大,说明这组数据的波动越小2.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均值为x,则(D)A.me=m0=xB.me=m0<xC.me<m0<xD.m0<me<x[解析]由题图知m0=5.中位数是第15个数与第16个数的平均值,由题图知将数据从小到大排列,第15个数是5,第16个数是6,所以me=5+62=5.5.又x=130×3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2≈5.97,所以m0<me<x.3.[2020全国卷Ⅲ]设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为(C)A.0.01B.0.1C.1D.10[解析]因为数据axi+bi=1,2,…,n的方差是数据xii=1,2,…,n的方差的a2倍,所以所求数据的方差为102×0.01=1.4.[多选/2021新高考卷Ⅱ]下列统计量中可用于度量样本x1,x2,…,xn离散程度的有(AC)A.x1,x2,…,xn的标准差B.x1,x2,…,xn的中位数C.x1,x2,…,xn的极差D.x1,x2,…,xn的平均数第102页
[解析]平均数、众数和中位数均刻画了样本数据的集中趋势,一般地,对数值型数据集中趋势的描述,可以用平均数和中位数,对分类型数据集中趋势的描述,可以用众数.方差、标准差和极差均是度量样本数据离散程度的数字特征.故选AC.5.[2019江苏高考]已知一组数据6,7,8,8,9,10,则该组数据的方差是53.[解析]数据6,7,8,8,9,10的平均数是6+7+8+8+9+106=8,则方差是4+1+0+0+1+46=53.6.一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18.则该组数据的第75百分位数为14.5,第86百分位数为17.[解析]∵75%×20=15,∴第75百分位数为14+152=14.5.∵86%×20=17.2,∴第86百分位数为第18个数据,即17.高考帮研透高考明确方向命题点1百分位数的估计1.(1)某车间12名工人一天生产某产品的质量(单位:kg)分别为13.8,13,13.5,15.7,13.6,14.8,14,14.6,15,15.2,15.8,15.4,则所给数据的第25,75百分位数分别是13.7,15.3.[解析]将12个数据按从小到大排序:13,13.5,13.6,13.8,14,14.6,14.8,15,15.2,15.4,15.7,15.8.(求一组数据的百分位数时,一定要先将该组数据按从小到大的顺序排列)由i=12×25%=3,得所给数据的第25百分位数是第3个数据与第4个数据的平均数,即13.6+13.82=13.7;由i=12×75%=9,得所给数据的第75百分位数是第9个数据和第10个数据的平均数,即15.2+15.42=15.3.(2)[2022烟台诊断节选]第102页
2022年2月4日至20日,第24届冬季奥林匹克运动会成功举办.这场冰雪盛会是运动健儿奋力拼搏的舞台,也是中外文明交流互鉴的舞台,折射出我国更加坚实的文化自信,诠释着新时代中国的从容姿态,传递出中华儿女与世界人民“一起向未来”的共同心声.某学校统计了全校学生观看北京冬奥会开幕式和闭幕式的时长情况(单位:分),并根据样本数据绘制得到如图所示的频率分布直方图.则该样本数据的第85百分位数为222.5.[解析]由题意,40×0.0005+0.002×2+2a+0.006+0.0065=1,解得a=0.004.由频率分布直方图知,观看时长在200分钟以下的样本所占比例为40×0.0005+0.002+0.004+0.006+0.0065=0.76,观看时长在240分钟以下的样本所占比例为0.76+40×0.004=0.92.所以第85百分位数位于[200,240)内,估计样本数据的第85百分位数为200+40×0.85−0.760.92−0.76=222.5.方法技巧1.计算一组n个数据的第p百分位数的步骤2.频率分布直方图中第p百分位数的求解步骤(1)确定第p百分位数所在的区间[a,b);(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+p%−fa%fb%−fa%×b−a.命题点2样本的数字特征第102页
角度1数据中的样本的数字特征2.(1)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x,方差为s2,则(A)A.x=4,s2<2B.x=4,s2=2C.x>4,s2<2D.x>4,s2>2[解析]设7个数为x1,x2,x3,x4,x5,x6,x7,则x1+x2+x3+x4+x5+x6+x77=4,17[x1−42+x2−42+x3−42+x4−42+x5−42+x6−42+x7−42]=2,所以x1+x2+x3+x4+x5+x6+x7=28,x1−42+x2−42+x3−42+x4−42+x5−42+x6−42+x7−42=14,则这8个数的平均数为x=18x1+x2+x3+x4+x5+x6+x7+4=18×28+4=4,方差为s2=18[x1−42+x2−42+x3−42+x4−42+x5−42+x6−42+x7−42+4−42]=18×14+0=74<2.故选A.(2)[多选/2022重庆三模]已知一组样本数据:4,7,5,8,9,7,7,10,9,4,关于这组样本数据,结论正确的是(BC)A.平均数为8B.众数为7C.极差为6D.中位数为8[解析]对于A,平均数为4+4+5+7+7+7+8+9+9+1010=7,故A不正确;对于B,由众数的定义知,众数为7,故B正确;对于C,极差为10−4=6,故C正确;对于D,将题中数据按照从小到大的顺序排列,为4,4,5,7,7,7,8,9,9,10,(求一组数据的中位数,一定要先将该组数据按从小到大的顺序排列)则中位数为7+72=7,故D不正确.综上所述,选BC.(3)[多选/2021新高考卷Ⅰ]有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+ci=1,2,…,n,c为非零常数,则(CD)A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同[解析]设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为x−,m,σ,t,依题意得,新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为x−+c,m+c,σ,t,因为c≠0,所以C,D正确,故选CD.第102页
角度2统计图中的样本的数字特征3.(1)[2023陕西省宝鸡市质检]某市教育局为得到高三年级学生身高的数据,对高三年级学生进行抽样调查,随机抽取了1000名学生,他们的身高都在A,B,C,D,E五个层次内,分男、女生统计得到如下图所示的样本分布统计图,则(B)A.样本中A层次的女生比相应层次的男生人数多B.估计样本中男生身高的中位数比女生身高的中位数大C.D层次的女生和E层次的男生在整个样本中的频率相等D.样本中B层次的学生人数和C层次的学生人数一样多[解析]设样本中女生有y人,则男生有1000−y人,设女生身高频率分布直方图中的组距为t,由a+1.5a+2a+2.5a+3at=1,所以at=0.1,所以女生身高频率分布直方图中A层次频率为0.2,B层次频率为0.3,C层次频率为0.25,D层次频率为0.15,E层次频率为0.1,所以样本中A层次的女生人数为0.2y,男生人数为0.11000−y,由于y的取值未知,所以无法比较A层次中男、女生人数,A错误;D层次女生在女生样本中频率为0.15,所以在整个样本中频率为0.15y1000,E层次男生在男生样本中频率为0.15,所以在整个样本中频率为0.151000−y1000,由于y的取值未知,所以无法比较D层次的女生和E层次的男生在整个样本中的频率,C错误;样本中B层次的学生数为0.3y+0.251000−y=250+0.05y,样本中C层次的学生数为0.25y+0.31000−y=300−0.05y,第102页
由于y的取值未知,所以250+0.05y与300−0.05y可能不相等,D错误,女生中A,B两个层次的频率之和为0.5,所以女生的样本身高中位数为B,C层次的分界点,而男生A,B两个层次的频率之和为0.35,A,B,C三个层次的频率之和为0.65,显然中位数落在C层次内,所以样本中男生身高的中位数比女生身高的中位数大,B正确.故选B.(2)[多选/2023云南模拟]某企业为了了解职工对某部门的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),下列说法正确的是(ABD)A.a的值为0.006B.估计该企业的职工对该部门评分的中位数为5357C.估计该企业的职工对该部门评分的平均值为76.5D.从评分在[40,60)的受访职工中,随机抽取2人,则这2人评分都在[40,50)的概率为110[解析]由直方图可得0.004+a+0.018+0.022×2+0.028×10=1,故a=0.006.由直方图可得平均数为0.004×45+0.006×55+0.018×95+0.022×65+0.022×85+0.028×75×10=76.2.前3组的频率和为0.004+0.006+0.022×10=0.32,前4组的频率和为0.004+0.006+0.022+0.028×10=0.6,故中位数在[70,80)内,设中位数为x,则0.32+x−7010×0.28=0.5,故x=5357.故中位数为5357.评分在[40,60)的受访职工的人数为0.004+0.006×10×50=5,其中评分在[40,50)的受访职工的人数为2,记为a,b,在[50,60)的受访职工人数为3,记为A,B,C,从5人中任取2人,所有情况如下:{a,b},{a,A},{a,B},{a,C},{b,A},{b,B},{b,C},{A,B},{A,C},{B,C}第102页
,共10种,而2人评分都在[40,50)的情况为{a,b},故2人评分都在[40,50)的概率为110,故选ABD.(3)[多选/2023湖南三湘名校大联考]最近几个月,各学校均加强了疫情防控要求,学生在进校时必须走测温通道,每天早、中、晚都要进行体温检测并将结果上报给主管部门.某班级体温检测员对一周内甲、乙两名同学的体温进行了统计,其结果如图所示,则下列结论中正确的是(ACD)A.甲同学体温的极差为0.4℃B.甲同学体温的第75百分位数为36.6℃C.乙同学体温的众数、中位数、平均数相等D.乙同学的体温比甲同学的体温稳定[解析]观察题中折线图知甲同学体温的极差为36.8−36.4=0.4℃,A正确;将甲同学的体温从小到大排列:36.4℃,36.4℃,36.6℃,36.6℃,36.7℃,36.7℃,36.8℃,因为7×75%=5.25,所以甲同学体温的第75百分位数为36.7℃,B错误;将乙同学的体温从小到大排列:36.5℃,36.5℃,36.6℃,36.6℃,36.6℃.36.7℃,36.7℃,乙同学体温的众数为36.6℃,中位数为36.6℃,平均数为x=17×36.5×2+36.6×3+36.7×2=36.6℃,C正确;乙同学的体温波动较甲同学的小,极差为0.2℃,也比甲同学的小,因此乙同学的体温比甲同学的体温稳定,D正确.故选ACD.命题点3总体集中趋势的估计4.第102页
棉花是我国纺织工业重要的原料,新疆作为我国最大的产棉区,对国家棉花产业发展、确保棉粮安全以及促进新疆农民增收、实现乡村振兴战略都具有重要意义.准确掌握棉花质量现状、动态,可以促进棉花产业健康和稳定的发展.在新疆某地收购的一批棉花中随机抽测了100根棉花的纤维长度(单位:mm),得到样本的频率分布表如下:纤维长度频数频率[0,50)40.04[50,100)80.08[100,150)100.10[150,200)100.10[200,250)160.16[250,300)400.40[300,350]120.12(1)在图中作出样本的频率分布直方图;[解析]样本的频率分布直方图如图所示.(2)根据(1)中作出的频率分布直方图求这一棉花样本的众数、中位数与平均数,并对这批棉花的众数、中位数和平均数进行估计.[解析]由样本的频率分布直方图,得众数为250+3002=275mm,设中位数为xmm,x−250×0.008=50%−48%,解得x=252.5,即中位数为252.5mm;设平均数为xmm,则x=25×0.04+75×0.08+125×0.1+175×0.1+225×0.16+275×0.4+325×0.12=222,故平均数为222mm.由样本的这些数据,可得购进的这批棉花的众数、中位数和平均数分别约为275mm、252.5mm和222mm.第102页
5.[2022合肥联考]统计局就某地居民的月收入(单位:元)情况调查了10000人,并根据所得数据画出了样本频率分布直方图(如图),每个分组包括左端点,不包括右端点,如第一组表示月收入在[2500,3000)内.(1)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10000人中用分层随机抽样的方法抽出100人进行下一步分析,则月收入在[4000,4500)内的应抽取多少人?[解析]因为0.0002+0.0004+0.0003+0.0001×500=0.5,所以a=0.51000=0.0005.又0.0005×500=0.25,所以月收入在[4000,4500)内的频率为0.25,所以月收入在[4000,4500)内的应抽取的人数为0.25×100=25.(2)估计该地居民的月收入的中位数.[解析]因为0.0002×500=0.1,0.0004×500=0.2,0.0005×500=0.25,0.1+0.2+0.25=0.55>0.5,所以样本数据的中位数是3500+0.5−0.1+0.20.0005=3900.因此估计该地居民月收入的中位数是3900元.(3)假设同组中的数据用该组区间的中点值代替,估计该地居民月收入的平均数.[解析]样本平均数为2750×0.0002+3250×0.0004+3750×0.0005+4250×0.0005+4750×0.0003+5250×0.0001×500=3900,因此估计该地居民月收入的平均数为3900元.方法技巧第102页
频率分布直方图中的数字特征(1)众数:样本数据的频率分布直方图中,最高小长方形的底边中点的横坐标;(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.命题点4总体离散程度的估计角度1方差和标准差6.[2019全国卷Ⅱ]某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组[−0.20,0)[0,0.20)[0.20,0.40)[0.40,0.60)[0.60,0.80)企业数22453147(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;[解析]由题意可知,随机调查的100个企业中增长率不低于40%的企业有14+7=21(个),产值负增长的企业有2个,所以这类企业中产值增长率不低于40%的企业比例约为21100,产值负增长的企业比例约为2100=150.(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:74≈8.602.[解析]由题意可知,这类企业产值增长率的平均数约为y=1100[2×−0.1+24×0.1+53×0.3+14×0.5+7×0.7]=0.3,方差约为s2=1100×[2×−0.1−0.32+24×0.1−0.32+53×0.3−0.32+14×0.5−0.32+7×0.7−0.32]=0.0296,所以标准差s=0.0296=0.0004×74≈0.02×8.602≈0.17.第102页
7.[2021全国卷乙]某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为s12和s22.(1)求x,y,s12,s22;[解析]由表格中的数据易得:x=−0.2+0.3+0+0.2−0.1−0.2+0+0.1+0.2−0.310+10.0=10.0,y=0.1+0.4+0.1+0+0.1+0.3+0.6+0.5+0.4+0.510+10.0=10.3,s12=110×[9.7−10.02+2×9.8−10.02+9.9−10.02+2×10.0−10.02+10.1−10.02+2×10.2−10.02+10.3−10.02]=0.036,s22=110×[10.0−10.32+3×10.1−10.32+10.3−10.32+2×10.4−10.32+2×10.5−10.32+10.6−10.32]=0.04.(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y−x≥2s12+s2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).[解析]由(1)中数据可得y−x=10.3−10.0=0.3,而2{s12+s2210}=25s12+s22=0.0304,显然有y−x>2s12+s2210成立,所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.方法技巧总体离散程度的估计(1)标准差(方差)刻画了数据的离散程度或波动幅度,标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.(2)在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.角度2分层随机抽样的方差与标准差第102页
8.(1)[2023安徽省示范高中联考]为了调查公司员工的健康状况,某公司男、女员工比例是2:3,用分层随机抽样的方法抽取样本,统计样本数据如下:男员工的平均体重为70kg,标准差为5kg;女员工的平均体重为50kg,标准差为6kg.则由此估计该公司员工的平均体重是58kg,方差是127.6kg2.[解析]设该公司员工的平均体重为xkg,方差为s2kg2,由题意得x=70×25+50×35=58,所以方差s2=[52+70−582]×25+[62+50−582]×35=127.6.(2)某校开展了为期一年的“弘扬传统文化,阅读经典名著”活动.在了解全校学生每年平均阅读了多少本文学经典名著时,甲同学抽取了一个容量为10的样本,并算得样本的平均数为5,方差为9;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,则合在一起后的样本平均数为5.4,方差为12.4.(精确到0.1)[解析]把甲同学抽取的样本的平均数记为x,方差记为sx2;把乙同学抽取的样本的平均数记为y,方差记为sy2;把合在一起后的样本的平均数记为a,方差记为s2.则a=10×5+8×610+8≈5.4,s2=10×[sx2+x−a2]+8×[sy2+y−a2]10+8=10×[9+5−5.42]+8×[16+6−5.42]18≈12.4.即合在一起后样本的平均数为5.4,方差为12.4.方法技巧计算分层随机抽样的方差的步骤(1)确定x1,x2,s12,s22;(2)确定x;(3)应用公式s2=n1n1+n2[s12+x1−x2]+n2n1+n2⋅[s22+x2−x2],计算s2.教师尊享·备课题组1.[命题点1/2023重庆名校第一次联考]从2,3,4,5,6,7,8,9中随机取两个数,这两个数一个比m大,一个比m小的概率为514,已知m为上述数据中的第x百分位数,则x的取值可能为(C)第102页
A.50B.60C.70D.80[解析]因为514=1028=C21C51C82,所以m=4或m=7.当m=4时,数据中的第x百分位数是第3个数据,则2<x%×8<3,解得25<x<37.5,所有选项都不符合;当m=7时,数据中的第x百分位数是第6个数据,则5<x%×8<6,解得62.5<x<75,故C选项符合题意.2.[命题点2角度2/2021全国卷甲]为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如图所示的频率分布直方图.根据此频率分布直方图,下面结论中不正确的是(C)A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间[解析]对于A,根据频率分布直方图可知,家庭年收入低于4.5万元的农户比率约为0.02+0.04×1×100%=6%,故A正确;对于B,根据频率分布直方图可知,家庭年收入不低于10.5万元的农户比率约为0.04+0.02+0.02+0.02×1×100%=10%,故B正确;对于C,根据频率分布直方图可知,该地农户家庭年收入的平均值约为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),故C错误;对于D,根据频率分布直方图可知,家庭年收入介于4.5万元至8.5万元之间的农户比率约为0.10+0.14+0.20+0.20×1×100%=64%>50%,故D正确.第102页
3.[命题点2角度2/2022全国卷甲]某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则(B)A.讲座前问卷答题的正确率的中位数小于70%B.讲座后问卷答题的正确率的平均数大于85%C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差[解析]对于A,讲座前问卷答题的正确率的中位数是70%+75%2=72.5%,所以A错误;对于B,讲座后问卷答题的正确率分别是80%,85%,85%,85%,85%,90%,90%,95%,100%,100%,其平均数显然大于85%,所以B正确;对于C,由题图可知,讲座前问卷答题的正确率波动较大,讲座后问卷答题的正确率波动较小,所以讲座前问卷答题的正确率的标准差大于讲座后问卷答题的正确率的标准差,所以C错误;对于D,讲座前问卷答题的正确率的极差是95%−60%=35%,讲座后问卷答题的正确率的极差是100%−80%=20%,所以讲座前问卷答题的正确率的极差大于讲座后问卷答题的正确率的极差,所以D错误.4.[命题点4角度2/多选/2023广州部分中学阶段测试]某校为了解高中学生的身高情况,根据男、女学生所占的比例,采用样本量按比例分配的分层随机抽样分别抽取了男生50名和女生30名,测量他们的身高所得数据(单位:cm)如下:性别人数平均数方差男生5017218女生3016430第102页
根据以上数据,可计算出该校高中学生身高的总样本平均数x与总样本方差s2分别是(BD)A.x=168B.x=169C.s2=22.5D.s2=37.5[解析]设总样本量为n,由题意得男生样本量n1=58n,女生样本量n2=38n,假设男生的样本数据为yii=1,2,…,n1,其平均数为y,方差为s1,女生的样本数据为zii=1,2,…,n2,其平均数为z,方差为s2,则总样本平均数x=1n∑n1i=1yi+∑n2i=1zi=1nn1y+n2z=58×172+38×164=169,故A不正确,B正确.总样本方差s2=n1n[s12+y−x2]+n2n[s22+z−x2]=58×18+9+38×30+25=37.5,故C不正确,D正确.作业帮练透好题精准分层基础过关1.[2022昆明三诊]为了鼓励学生锻炼身体,强健体魄,增强抵抗病毒能力,某校决定加强体育活动并对体育成绩进行定期统计,下表是该校高三年级某次体育测试成绩的样本频率分布表:500名高三学生体育测试成绩的频率分布表分组[70,75)[75,80)[80,85)[85,90)[90,95]频率0.10.150.40.250.1该次高三年级体育测试成绩中位数的估计值位于下列哪个区间内(C)A.[75,80)B.[75,85)C.[80,85)D.[85,90)[解析]因为体育测试成绩落在[70,80)内的频率是0.25,落在[80,85)内的频率是0.4,所以体育测试成绩中位数的估计值位于区间[80,85)内.故选C.2.[2019全国卷Ⅱ]演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是(A)A.中位数B.平均数C.方差D.极差[解析]记9个原始评分分别为a,b,c,d,e,f,g,ℎ,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.第102页
3.对全班45名同学的数学成绩进行统计,得到平均数为80,方差为25,现发现数据收集时有两个错误,其中一个95分记录成了75分,另一个60分记录成了80分.纠正数据后重新计算,得到平均数为x,方差为s2,则(C)A.x=80,s2<25B.x=80,s2=25C.x=80,s2>25D.x<80,s2>25[解析]∵95+60=75+80,∴两次的平均数没有变化,即x=80;由于记录错误的两个数据均比较靠近平均数,而原始数据均偏离平均数较远,故s2>25,故选C.4.已知样本x1,x2,…,xn的平均数为x,样本y1,y2,…,ym的平均数为yy≠x.若样本x1,x2,…,xn,y1,y2,…,ym的平均数z=ax+1−ay,其中12<a<1,则n,mn,m∈N∗的大小关系为(C)A.n=mB.n≤mC.n>mD.n<m[解析]由题意可知,nx+mym+n=nm+nx+mm+ny=ax+1−ay,所以a=nm+n,又12<a<1,所以12>1−a>0,即1−a<a,则nm+n>mn+m,故n>m.5.[多选/2022湖南名校联考]经过简单随机抽样获得的样本数据为x1,x2,…,xn,则下列说法正确的是(AC)A.若数据x1,x2,…,xn的方差s2=0,则x1=x2=…=xnB.若数据x1,x2,…,xn的均值为3,则数据y1,y2,…,yn(其中yi=2xi+1i=1,2,…,n)的均值为6C.若数据x1,x2,…,xn的中位数为90,则可以估计总体中至少有50%的数据不大于90D.若数据x1,x2,…,xn的众数为78,则可以说总体中的众数为78[解析]对于A,数据x1,x2,…,xn的方差s2=0,则x1=x2=…=xn,所以选项A正确;对于B,数据x1,x2,…,xn的均值为3,则数据y1,y2,…,yn(其中yi=2xi+1i=1,2,…,n)的均值为2×3+1=7,所以选项B错误;对于C,数据x1,x2,…,xn的中位数为90,则根据中位数的定义可以估计总体中至少有50%的数据不大于90,所以选项C正确;对于D,样本数据具有随机性,所以样本的众数不一定是总体的众数,所以选项D错误.故选AC.第102页
6.[多选/2022南京六校联考]甲、乙两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:甲:78795491074乙:9578768677在这次射击测试中,下列说法正确的是(AC)A.甲成绩的极差比乙成绩的极差大B.甲成绩的众数比乙成绩的众数大C.甲的成绩没有乙的成绩稳定D.甲成绩的中位数比乙成绩的中位数大[解析]甲和乙成绩的极差分别是6和4,A项正确;甲和乙成绩的众数均是7,B项错误;甲成绩的平均数为7+8+7+9+5+4+9+10+7+4÷10=7,乙成绩的平均数为9+5+7+8+7+6+8+6+7+7÷10=7,所以甲成绩的方差s甲2=[7−72+8−72+7−72+9−72+5−72+4−72+9−72+10−72+7−72+4−72]÷10=4,乙成绩的方差s乙2=[9−72+5−72+7−72+8−72+7−72+6−72+8−72+6−72+7−72+7−72]÷10=1.2,s甲2>s乙2,C项正确;甲和乙成绩的中位数都是7,D项错误.故选AC.7.[多选/2023惠州第一次调研]某校举行“永远跟党走、唱响青春梦”歌唱比赛,在歌唱比赛中,由9名专业人士和9名观众代表各组成一个评委小组给参赛选手打分.根据两个评委小组(记为小组A、小组B)对同一名选手打分的分值绘制成折线图,如图所示,则(AC)A.小组A打分的分值的众数为47B.小组B打分的分值的第80百分位数为69C.小组A是由专业人士组成的可能性较大D.小组B打分的分值的方差小于小组A打分的分值的方差第102页
[解析]由题中折线图知,小组A打分的9个分值从低到高排序为42,45,46,47,47,47,50,50,55,小组B打分的9个分值从低到高排序为36,55,58,62,66,68,68,70,75.对于A,小组A打分的分值的众数为47,故选项A正确;对于B,因为9×80%=7.2,所以将小组B打分的分值从低到高排序后,小组B打分的分值的第80百分位数应排在第8位,所以小组B打分的分值的第80百分位数为70,故选项B不正确;对于C,小组A打分的分值相对更集中,波动更小,故小组A更像是由专业人士组成,故选项C正确;对于D,根据题中折线图中数据的离散程度可知,小组B的波动幅度更大,方差更大,故选项D不正确.故选AC.8.[2020江苏高考]已知一组数据4,2a,3−a,5,6的平均数为4,则a的值是2.[解析]由平均数公式可得4+2a+3−a+5+65=4,解得a=2.9.[2023南昌摸底测试]某工厂10名工人某天生产同一类型的零件,生产的件数分别是7,8,9,10,11,12,12,12,13,14,则这组数据的方差为4.56.(参考数据:这组数据的平方和为1212)[解析]这组数据的平均数x—=7+8+9+10+11+12+12+12+13+1410=10.8,所以这组数据的方差s2=121210−10.82=4.56.10.[2020全国卷Ⅰ]某厂接受了一项加工业务,加工出来的产品(单位:件)按标准分为A,B,C,D四个等级.加工业务约定:对于A级品、B级品、C级品,厂家每件分别收取加工费90元,50元,20元;对于D级品,厂家每件要赔偿原料损失费50元.该厂有甲、乙两个分厂可承接加工业务.甲分厂加工成本费为25元/件,乙分厂加工成本费为20元/件.厂家为决定由哪个分厂承接加工业务,在两个分厂各试加工了100件这种产品,并统计了这些产品的等级,整理如下:甲分厂产品等级的频数分布表等级ABCD频数40202020乙分厂产品等级的频数分布表等级ABCD频数28173421(1)分别估计甲、乙两分厂加工出来的一件产品为A级品的概率;[解析]由试加工产品等级的频数分布表知,第102页
甲分厂加工出来的一件产品为A级品的概率的估计值为40100=0.4;乙分厂加工出来的一件产品为A级品的概率的估计值为28100=0.28.(2)分别求甲、乙两分厂加工出来的100件产品的平均利润,以平均利润为依据,厂家应选哪个分厂承接加工业务?[解析]由数据知甲分厂加工出来的100件产品利润的频数分布表为利润6525-5-75频数40202020因此甲分厂加工出来的100件产品的平均利润为65×40+25×20−5×20−75×20100=15.由数据知乙分厂加工出来的100件产品利润的频数分布表为利润70300-70频数28173421因此乙分厂加工出来的100件产品的平均利润为70×28+30×17+0×34−70×21100=10.比较甲、乙两分厂加工的产品的平均利润,应选甲分厂承接加工业务.11.[2023广西联考]某新能源汽车制造公司,为鼓励消费者购买其生产的新能源汽车,约定从今年元月开始,凡购买一辆该品牌汽车,在行驶三年后,公司将给予适当金额的购车补贴.某调研机构对已购买该品牌汽车的消费者,就购车补贴金额的心理预期值进行了抽样调查,得其样本频率分布直方图如图所示.(1)求实数m的值;[解析]由题意知,1×0.10+0.30+0.30+m+0.10+0.05=1,解得m=0.15.(2)估计已购买该品牌汽车的消费群体对购车补贴金额的心理预期值的平均数(同一组数据用该区间的中点值作代表)和中位数;(精确到0.01)第102页
[解析]平均数的估计值x=1.5×0.10+2.5×0.30+3.5×0.30+4.5×0.15+5.5×0.10+6.5×0.05=3.5(万元).因为0.10+0.30<0.50<0.10+0.30+0.30,所以中位数在区间3,4内.设中位数为3+t,则0.10+0.30+0.30t=0.50,得t=13≈0.33,所以中位数的估计值为3.33万元.(3)现在要从购车补贴金额的心理预期值在区间[3,5)的样本中用分层抽样的方法抽取6人,再从这6人中随机抽取2人进行调查,求抽到的2人购车补贴金额的心理预期值都在区间[3,4)的概率.[解析]从购车补贴金额的心理预期值在区间[3,5)的样本中用分层抽样的方法抽取6人,则抽取的购车补贴金额的心理预期值在区间[3,4)的有4人,购车补贴金额的心理预期值在区间[4,5)的有2人.从这6人中随机抽取2人,共有C62=15种情况.其中抽到的2人购车补贴金额的心理预期值都在区间[3,4)的有C42=6种情况.所以抽到的2人购车补贴金额的心理预期值都在区间[3,4)的概率P=615=25.能力提升12.[2022东北三省四市联考(二)]以下三组数据的标准差分别为s1,s2,s3.5,5,5,5,5,5,5,5,53,3,4,4,5,6,6,7,72,2,2,2,5,8,8,8,8则有(A)A.s1<s2<s3B.s2<s1<s3C.s3<s2<s1D.s3<s1<s2[解析]解法一易得s1=0;数据3,3,4,4,5,6,6,7,7的平均值x2=3+3+4+4+5+6+6+7+79=5,则方差s22=19[3−52×2+4−52×2+5−52+6−52×2+7−52×2]=209,所以标准差s2=253;数据2,2,2,2,5,8,8,8,8的平均值x3=2×4+5+8×49=5,则方差s32=2−52×4+5−52+8−52×49=729=8,所以标准差s3=22.所以s1<s2<s3,故选A.第102页
解法二观察数据可知,第一组数据最集中,第三组数据最分散,所以s1<s2<s3,故选A.13.[2022济南学情检测]酒后驾驶是严重危害交通安全的行为.某交通管理部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,若“连续8天,每天查获的酒驾人数不超过10”,则认为“该地区酒驾治理达标”.根据连续8天检查所得数据的数字特征推断,酒驾治理一定达标的地区是(C)A.甲地:平均数为4,中位数为5B.乙地:众数为3,中位数为2C.丙地:平均数为7,方差为2D.丁地:极差为3,第75百分位数为8[解析]对于A,若甲地连续8天的数据为0,0,0,5,5,5,6,11,则平均数为4,中位数为5,但不符合“该地区酒驾治理达标”的要求,所以A不符合题意;对于B,若乙地连续8天的数据为0,0,1,1,3,3,3,22,则众数为3,中位数为2,但不符合“该地区酒驾治理达标”的要求,所以B不符合题意;对于C,若丙地连续8天检查所得数据的平均数为7,假设丙地某一天的数据为11,则s2>11−728=2,其方差不可能为2,则不可能有一天的数据超过10,符合“该地区酒驾治理达标”的要求,所以C符合题意;对于D,若丁地连续8天的数据为8,8,8,8,8,8,8,11,则极差为3,第75百分位数为8,但不符合“该地区酒驾治理达标”的要求,所以D不符合题意.综上,选C.14.[2022济南二模]2022年4月24日是第七个“中国航天日”,今年的主题是“航天点亮梦想”.某校组织学生参与航天知识竞答活动,某班8位同学的成绩如下:7,6,8,9,8,7,10,m.若去掉m,该组数据的第25百分位数保持不变,则整数m1≤m≤10的值可以是7或8或9或10(填上述4个数中任意一个均可)(写出一个满足条件的m的值即可).[解析]对于数据7,6,8,9,8,7,10,m,若去掉m,将剩余数据按从小到大排列,得到6,7,7,8,8,9,10,因为7×0.25=1.75,所以这7个数的第25百分位数为第二个数7,所以原8个数的第25百分位数为7.而8×0.25=2,所以将原8个数据按从小到大排列,则7为第二个数与第三个数的平均数,所以m1≤m≤10的值可以是7或8或9或10.15.某学校统计教师职称及年龄,中级职称教师的人数为50,其平均年龄为38岁,方差是2,高级职称的教师中有3人58岁,5人40岁,2人38岁,则该校中级职称和高级职称教师年龄的平均数和方差分别为45和20.64.第102页
[解析]由已知条件可知高级职称教师的平均年龄为x高=3×58+5×40+2×383+5+2=45(岁),年龄的方差为s高2=110[3×58−452+5×40−452+2×38−452]=73,所以该校中级职称和高级职称教师的平均年龄为x=5050+10×38+1050+10×45≈39.2(岁),该校中级职称和高级职称教师的年龄的方差是s2=5050+10×[2+38−39.22]+1050+10×[73+45−39.22]=20.64.16.某“双一流A类”大学就业部从该校2022年已就业的大学本科毕业生中随机抽取了100人进行问卷调查,其中一项是他们的月薪收入情况,调查发现,他们的月薪收入在1.65万元到2.35万元之间,根据统计数据分组,得到如下的频率直方图,同一组数据用该区间的中点值作代表.(1)求这100人月薪收入的样本平均数x和样本方差s2;[解析]样本平均数x=0.02×1.7+0.10×1.8+0.24×1.9+0.31×2+0.2×2.1+0.09×2.2+0.04×2.3=2(万元),样本方差s2=0.02×1.7−22+0.10×1.8−22+0.24×1.9−22+0.31×2−22+0.2×2.1−22+0.09×2.2−22+0.04×2.3−22=0.0174(万元2).(2)该校在某地区就业的2021届本科毕业生共50人,决定于2022年国庆长假期间举办一次同学联谊会,并收取一定的活动费用,有两种收费方案:方案一:设Ω=[x−s−0.18,x+s+0.18],月薪落在区间Ω左侧的每人收取400元,月薪落在区间Ω内的每人收取600元,月薪落在区间Ω右侧的每人收取800元;第102页
方案二:每人按月薪收入的样本平均数的3%收取.用该校就业部统计的这100人月薪收入的样本频率进行估算,哪一种收费方案能收到更多的费用.参考数据:174≈13.2.[解析]方案一:s=0.0174=174100=0.132(万元),Ω=[1.85,2.15].月薪落在区间Ω左侧收取费用约为0.02+0.10×50×400÷10000=0.24(万元);月薪落在区间Ω内收取费用约为0.24+0.31+0.20×50×600÷10000=2.25(万元);月薪落在区间Ω右侧收取费用约为0.09+0.04×50×800÷10000=0.52(万元).因此这50人共收取费用约为0.24+2.25+0.52=3.01(万元).方案二:这50人共收取费用约为50×0.03×2=3(万元).故方案一能收到更多的费用.创新应用17.[2023河北联考]已知随机变量η服从标准正态分布,Pη≤1−b=0.5−P1−b≤η≤1−a2,其中x1,x2,…,x5的平均数为1a,x6,x7,…,x20的平均数为1b,则样本数据x1,x2,…,x20的平均数的最小值为2+34.[解析]由题意得1−b+1−a=0,∴a+b=2,∴5⋅1a+15⋅1b20=141a+3b=141a+3b⋅12a+b=184+ba+3ab≥2+34(当且仅当b=3a且a+b=2时等号成立).第3讲成对数据的统计分析教师尊享·命题分析课标要求命题点五年考情命题分析预测1.了解样本相关系数的统计含义,了解样本相关关系与标准化数据向量夹角的关系;会通过相关系数比较多组成对数据的相关性.成对数据的相关性第102页
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;针对实际问题,会用一元线性回归模型进行预测.3.理解列联表的统计意义;了解列联表独立性检验及其应用.本讲是高考命题热点.对于回归分析,主要考查散点图,回归方程类型的识别,求相关系数和回归方程,利用回归方程进行预测等;对于独立性检验,主要考查列联表和依据小概率值的独立性检验进行分析,常与概率综合命题.题型以解答题为主,难度中等.预计2024年高考会以创新生产生活实践情境为载体考查回归分析和独立性检验.样本的相关系数2022全国卷乙T19;2020全国卷ⅡT18回归模型及其应用2020全国卷ⅠT5;2018全国卷ⅡT18列联表与独立性检验2022新高考卷ⅠT20;2021全国卷甲T17;2020新高考卷ⅠT19;2020全国卷ⅢT18;2018全国卷ⅢT18教材帮读透教材融会贯通1.变量的相关关系(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现①增加的趋势,我们就称这两个变量②正相关;如果当一个变量的值增加时,另一个变量的相应值呈现③减小的趋势,则称这两个变量④负相关.(3)线性相关:一般地,如果两个变量的取值呈现⑤正相关或⑥负相关,而且散点落在⑦一条直线附近,我们就称这两个变量线性相关.2.样本相关系数(1)r=∑ni=1xi−xyi−y∑ni=1xi−x2∑ni=1yi−y2.(2)当r>0时,称成对样本数据⑧正相关;当r<0时,称成对样本数据⑨负相关;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.(3)r≤1.当r越接近于1,成对样本数据的线性相关性越⑩强(r→1,成对样本数据的正相关关系越强;r→−1,成对样本数据的负相关关系越强);r越接近于0,成对样本数据线性相关性越⑪弱.3.一元线性回归模型(1)一元线性回归模型我们称Y=bx+a+e,Ee=0,De=σ2为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.(2)经验回归方程与最小二乘法第102页
对于满足一元线性回归模型的两个变量的n对样本数据x1,y1,x2,y2,…,xn,yn,其中x=1n∑ni=1xi,y=1n∑ni=1yi,b=∑ni=1xi−xyi−y∑ni=1xi−x2=⑫∑ni=1xiyi−nxy∑ni=1xi2−nx2,a=y−bx.我们将y=bx+a称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法.求得的b,a叫做b,a的最小二乘估计.常用结论1.经验回归直线过点x,y.2.求b时,常用公式b=∑ni=1xiyi−nxy∑ni=1xi2−nx2.3.y=bx+a,若b>0,两变量呈正相关;若b<0,两变量呈负相关.(3)残差分析a.对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去⑬预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.b.残差的散点图:比较均匀地集中在以横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设.c.利用决定系数R2刻画回归效果:R2=1−∑ni=1yi−yi2∑ni=1yi−y2.其中∑ni=1yi−yi2是残差平方和,R2越大(接近1),表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.4.列联表与独立性检验(1)2×2列联表一般地,假设有两个分类变量X和Y,它们的取值为{0,1},其样本频数列联表(称为2×2列联表)为:XY合计Y=0Y=1第102页
X=0aba+bX=1cdc+d合计a+cb+dn=a+b+c+d(2)临界值χ2=nad−bc2a+bc+da+cb+d.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得Pχ2≥xα=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα⑭越大.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0⑮不成立,即认为X和Y⑯不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y⑰独立.这种利用2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.χ2独立性检验中5个常用的小概率值和相应的临界值α0.10.050.010.0050.001xα2.7063.8416.6357.87910.828基础自测1.下列说法正确的是(A)A.散点图是判断两个变量相关关系的一种重要方法和手段B.经验回归直线y=bx+a至少经过x1,y1,x2,y2,…,xn,yn中的一个点C.样本相关系数的绝对值越接近于1,成对样本数据的线性相关程度越弱D.分类变量X,Y关系越密切,则由观测数据计算得到的2的观测值越小2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是(D)A.B.第102页
C.D.3.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:x681012y2356则y对x的经验回归方程为(C)A.y=2.3x−0.7B.y=2.3x+0.7C.y=0.7x−2.3D.y=0.7x+2.3[解析]易求x=9,y=4,将样本点的中心9,4代入验证,满足y=0.7x−2.3.4.[多选]下列关于成对样本数据的统计分析的判断中正确的有(CD)A.若样本相关系数r=0,则说明成对样本数据没有相关性B.样本相关系数r越大,成对样本数据的线性相关性越强C.用最小二乘法求得的一元线性回归模型的残差和一定是0D.决定系数R2越大,残差平方和越小,模型的拟合效果越好5.[多选]为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):幸福感强幸福感弱合计阅读量多m1872阅读量少36n78合计9060150计算得:χ2≈12.981,参照下表:α0.100.050.0250.0100.0050.001xα2.7063.8415.0246.6357.87910.828对于下面的选项,正确的为(BC)A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”D.n=52[解析]∵χ2≈12.981,又∵12.981>6.635,12.981>7.879,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%第102页
的前提下认为“阅读量多少与幸福感强弱有关”,∴A错,C对,∵m+36=90,18+n=60,∴m=54,n=42,∴B对,D错,故选BC.高考帮研透高考明确方向命题点1成对数据的相关性1.(1)已知变量x和y近似满足关系式y=−0.1x+1,变量y与z正相关.下列结论中正确的是(C)A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关[解析]由y=−0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,随y的减小而减小,所以z随x的增大而减小,x与z负相关.(2)[2023湖北仙桃中学模拟]对四组数据进行统计后,获得了如图所示的散点图,四组数据的相关系数分别为r1,r2,r3,r4,对各组的相关系数进行比较,下列说法正确的是(C)第一组第二组第三组第四组A.r3<r2<0<r1<r4B.r4<r1<0<r2<r3C.r2<r3<0<r4<r1D.r1<r4<0<r3<r2[解析]由题图可知,第一、四组数据均正相关,第二、三组数据均负相关,当相关系数的绝对值越大时,数据的线性相关性越强.第一组数据的线性相关性较第四组强,则r1>r4>0,第二组数据的线性相关性较第三组强,则r2>r3,且r2<0,r3<0,则r2<r3<0.因此,r2<r3<0<r4<r1.故选C.方法技巧判断两个变量相关性的3种方法画散点图若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.利用样本相关系数r>0时,正相关;r<0时,负相关.第102页
利用线性回归方程线性回归方程中:b>0时,正相关;b<0时,负相关.命题点2样本的相关系数2.[2022全国卷乙]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i12345678910总和根部横截面积xi0.040.060.040.080.080.050.050.070.070.060.6材积量yi0.250.400.220.540.510.340.360.460.420.403.9并计算得∑10i=1xi2=0.038,∑10i=1yi2=1.6158,∑10i=1xiyi=0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.[解析]估计该林区这种树木平均一棵的根部横截面积x=∑10i=1xi10=0.610=0.06,估计该林区这种树木平均一棵的材积量y=∑10i=1yi10=3.910=0.39.(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).附:相关系数r=∑ni=1xi−xyi−y∑ni=1xi−x2∑ni=1yi−y2,1.896≈1.377.[解析]∑10i=1xi−xyi−y=∑10i=1xiyi−10xy=0.0134,∑10i=1xi−x2=∑10i=1xi2−10x2=0.002,∑10i=1yi−y2=∑10i=1yi2−10y2=0.0948,所以∑10i=1xi−x2∑10i=1yi−y2=0.002×0.0948=0.0001×1.896≈0.01×1.377=0.01377,所以样本相关系数r=∑10i=1xi−xyi−y∑10i=1xi−x2∑10i=1yi−y2≈0.01340.01377≈0.97.第102页
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.[解析]设该林区这种树木的总材积量的估计值为Ym3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以0.390.06=Y186,所以Y=186×0.390.06=1209,即该林区这种树木的总材积量的估计值为1209m3.方法技巧相关系数r的统计含义及应用1.由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关.2.可根据r的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用线性回归方程进行分析和预测.3.当r≤0.25时,即便求得了经验回归方程也没有任何统计意义.命题点3回归模型及其应用角度1一元线性回归模型1.[2022郑州质量检测]2016年起,某贫困地区创新开展产业扶贫,经济收入逐年增加.该地的经济收入变化及构成比例如下表所示:年份20162017201820192020年份代号x12345经济收入y/万元5009001400170020002016年经济收入构成比例2020年经济收入构成比例(1)根据以上图表,试分析:与2016年相比,2020年第三产业与种植业的收入变化情况;[解析]①与2016年相比,2020年第三产业的收入占比大幅度增加;第102页
②2016年第三产业的收入为30万元,2020年第三产业的收入为600万元,收入大幅度增加;③与2016年相比,种植业收入占比减少,但种植业收入依然保持增长.(2)求该地区经济收入y关于x的经验回归方程,并预测2025年该地区的经济收入.参考公式:对于一组具有线性相关关系的数据xi,yii=1,2,3,⋯,n,其经验回归直线y=b∧x+a的斜率和截距的最小二乘估计分别为b=∑ni=1xi−xyi−y∑ni=1xi−x2=∑ni=1xiyi−nxy∑ni=1xi2−nx2,a=y−b∧x.[解析]由表格数据可得x=15×1+2+3+4+5=3,y=15×500+900+1400+1700+2000=1300,∑5i=1xi2=12+22+32+42+52=55,∑5i=1xiyi=1×500+2×900+3×1400+4×1700+5×2000=23300,则b=∑5i=1xi−xyi−y∑5i=1xi−x2=∑5i=1xiyi−5xy∑5i=1xi2−5x2=23300−5×3×130055−5×32=380,a=y−b∧x=160,则该地区经济收入y关于x的经验回归方程为y=380x+160,当x=10时,y=3960,故2025年该地区的经济收入大约为3960万元.4.[2023广西联考]某省为调查北部城镇2021年GDP,抽取了20个城镇进行分析,得到样本数据xi,yii=1,2,…,20,其中xi和yi分别表示第i个城镇的人口(单位:万人)和该城镇2021年GDP(单位:亿元),计算得∑20i=1xi=100,∑20i=1yi=800,∑20i=1xi−x2=70,∑20i=1yi−y2=280,∑20i=1xi−xyi−y=120.(1)请用相关系数r判断该组数据中y与x之间线性相关关系的强弱(若r∈[0.75,1],相关性较强;若r∈[0.30,0.75),相关性一般;若r∈[−0.25,0.25],相关性较弱).第102页
[解析]由题意知,相关系数r=∑20i=1xi−xyi−y∑20i=1xi−x2∑20i=1yi−y2=12070×280=120140≈0.857,因为y与x的相关系数r满足r∈[0.75,1],所以y与x之间具有较强的线性相关关系.(2)求y关于x的线性回归方程.[解析]b=∑20i=1xi−xyi−y∑20i=1xi−x2=12070=127,a=y−b∧x=80020−127×10020=2207,所以y=127x+2207.(3)若该省北部某城镇2023年的人口约为5万人,根据(2)中的线性回归方程估计该城镇2023年的GDP.参考公式:相关系数r=∑ni=1xi−xyi−y∑ni=1xi−x2∑ni=1yi−y2,对于一组具有线性相关关系的数据xi,yii=1,2,…,n,其回归直线y=bx+a的斜率和截距的最小二乘估计分别为b=∑ni=1xi−xyi−y∑ni=1xi−x2,a=y−bx.[解析]由(2)可估计该城镇2023年的GDPy=127×5+2207=40(亿元).方法技巧回归模型问题的类型及解题方法(1)求回归方程或回归系数:①利用公式,求出回归系数b;②利用回归直线过样本点的中心x,y求a.(2)利用回归方程进行预测:直接将已知数值代入回归方程求得特定要求下的预测值.(3)判断线性相关性强弱:可以利用相关系数判断,当r越趋近于1时,两变量的线性相关性越强.第102页
(4)判断回归方程的拟合效果:利用残差图或决定系数R2判断,R2越大,拟合效果越好.角度2非线性回归模型5.[2023河南商丘一中质量检测]5G网络是指第五代移动通信网络,它的主要特点是传输速度快,峰值传输速度可达每秒钟数十GB.作为新一代移动通信技术,它将要支持的设备远不止智能手机,而是会扩展到未来的智能家居、智能穿戴等设备.某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该公司1月份至6月份的经济收入y(单位:万元)关于月份x的数据如下表,并根据数据绘制了如图所示的散点图.月份x123456收入y/万元611233772124(1)根据散点图判断y=ax+b与y=cedx(a,b,c,d均为常数)哪一个更适合作为经济收入y关于月份x的回归方程类型(给出判断即可,不必说明理由).[解析]由散点图可知,y=cedx更适合作为经济收入y关于月份x的回归方程类型.(2)根据(1)的结果及表中数据,求出y关于x的回归方程(结果保留两位小数).参考公式及参考数据:回归直线y=b∧x+a中斜率和截距的最小二乘估计公式为b=∑ni=1xi−xyi−y∑ni=1xi−x2,a=y−−b∧x∧.x−y−u−∑6i=1(xi−x)2∑6i=1xi−x⋅yi−y∑6i=1xi−x⋅ui−ue5.483.545.53.3417.5393.510.63239.85第102页
其中u=lny,ui=lnyii=1,2,3,4,5,6.[解析]由y=cedx,得lny=lnc+dx,即u=lnc+dx.因为x−=3.5,u−=3.34,∑6i=1xi−x−2=17.5,∑6i=1xi−x−ui−u−=10.63,所以d=∑6i=1xi−xui−u∑6i=1xi−x2=10.6317.5≈0.61,所以lnc∧=u−−d∧=x3.34−0.61×3.5=1.205≈1.21,所以c=e1.21,所以经济收入y关于月份x的回归方程为y=e1.21+0.61x.(3)根据(2)所求得的回归方程,预测该公司7月份的经济收入(结果保留两位小数).[解析]当x=7时,y=e1.21+0.61×7=e5.48≈239.85(万元).所以预测该公司7月份的经济收入约为239.85万元.方法技巧常见非线性回归方程与线性回归方程的转换方式非线性回归方程变换公式变换后的线性回归方程y=axba>0,b≠0c=lnav=lnxu=lnyu=c+bvy=aebxa>0,b≠0c=lnau=lnyu=c+bxy=aebxa>0,b≠0c=lnav=1xu=lnyu=c+bvy=a+blnxb≠0v=lnxy=a+bv命题点4列联表与独立性检验6.[2021全国卷甲改编]甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:单位:件一级品二级品合计甲机床15050200乙机床12080200第102页
合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?[解析]由题意,可得甲机床、乙机床生产的产品总数均为200件,因为甲机床生产的产品中一级品的频数为150,所以甲机床生产的产品中一级品的频率为150200=34,因为乙机床生产的产品中一级品的频数为120,所以乙机床生产的产品中一级品的频率为120200=35.(2)依据小概率值α=0.01的独立性检验,分析甲机床的产品质量与乙机床的产品质量是否有差异.附:χ2=nad−bc2a+bc+da+cb+d,α0.0500.0100.001xα3.8416.63510.828[解析]零假设为H0:甲机床的产品质量与乙机床的产品质量无差异.则根据列联表中的数据计算得χ2=nad−bc2a+bc+da+cb+d=400×150×80−50×1202270×130×200×200≈10.256>6.635=x0.01.所以依据小概率值α=0.01的独立性检验,推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不大于0.01.7.[2020全国卷Ⅲ改编]某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率.[解析]由所给数据,可得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:空气质量等级1234概率的估计值0.430.270.210.09第102页
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表).[解析]一天中到该公园锻炼的平均人次的估计值为1100×100×20+300×35+500×45=350.(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,依据小概率值α=0.05的独立性检验,分析一天中到该公园锻炼的人次是否与该市当天的空气质量有关.人次≤400人次>400空气质量好空气质量不好附:χ2=nad−bc2a+bc+da+cb+d.α0.050.010.001xα3.8416.63510.828[解析]零假设为H0:一天中到该公园锻炼的人次与该市当天的空气质量无关.根据所给数据,可得2×2列联表:人次≤400人次>400空气质量好3337空气质量不好228根据列联表得χ2=100×33×8−22×37255×45×70×30≈5.820>3.841=x0.05,依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为一天中到该公园锻炼的人次与该市当天的空气质量有关,此推断犯错误的概率不大于0.05.方法技巧独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=nad−bc2a+ba+cb+dc+d计算.(3)比较χ2与临界值的大小关系,作统计推断.思维帮提升思维快速解题回归分析模型的构建及应用8.[2018全国卷Ⅱ]如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.第102页
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y=−30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值.[解析]利用模型①,该地区2018年的环境基础设施投资额的预测值为y1=−30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为y2=99+17.5×9=256.5(亿元).(2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解析]利用模型②得到的预测值更可靠.理由如下:i从题图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=−30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始,环境基础设施投资额的变化规律呈线性增长,利用2010年至2016年的数据建立的线性模型y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.ii从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)第102页
9.[2023广西师大附中检测]我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件的制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(单位:亿元)与产品的直接收益y(单位:亿元)的数据进行统计,得到下表:年份2015201620172018201920202021x/亿元234681013y/亿元15222740485460根据数据,可建立y关于x的两个回归模型:模型①y=4.1x+10.9;模型②y=21.3x−14.4.(1)根据表格中的数据,分别求出模型①,②的决定系数R2的大小(结果保留三位小数).回归模型模型①模型②∑7i=1yi−yi279.1318.64附:R2=1−∑ni=1yi−yi2∑ni=1yi−y2,17≈4.1.[解析]因为y=15+22+27+40+48+54+607=38,所以∑7i=1yi−y2=232+162+112+22+102+162+222=1750,则模型①的决定系数R12=1−∑7i=1yi−yi2∑7i=1yi−y2=1−79.131750≈0.955,模型②的相关指数R22=1−∑7i=1yi−yi2∑7i=1yi−y2=1−18.641750≈0.989.(2)(i)根据(1)选择拟合精度更高、更可靠的模型;[解析]由(1)知,R12<R22,所以模型②的拟合精度更高、更可靠.(ii)若2022年该公司计划投入研发费用17亿元,使用i中的模型预测可为该公司带来多少直接收益.第102页
[解析]由回归方程y=21.3x−14.4,可得当x=17时,y=21.3×17−14.4≈21.3×4.1−14.4=72.93(亿元),所以若2022年该公司计划投入研发费用17亿元,预测大约为该公司带来72.93亿元的直接收益.方法技巧建立回归模型的基本步骤1.确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.2.建立预测模型,根据解释变量与响应变量的统计数据,观察它们之间的关系(或作出散点图),由经验确定回归模型的类型,然后建立回归模型.3.求出回归方程,利用最小二乘估计求出回归方程中的参数,得到经验回归方程.4.回归结果分析,利用残差、决定系数等判断拟合程度,确定回归方程,进行预测分析.教师尊享·备课题组1.[命题点1,2,3/多选/2023湖湘大联考]对两个变量y和x进行回归分析,得到一组样本数据x1,y1,x2,y2,x3,y3,…,x10,y10,则下列结论正确的是(AC)A.若求得的经验回归方程为y=0.4x+1,则变量y和x之间具有正的线性相关关系B.若其经验回归直线y=bx+a过点3,2.25,则x1+x2+x3+…+x10=y1+y2+y3+…+y10+6.5C.若根据这组数据得到样本相关系数r≈0.96,则说明样本数据的线性相关性较强D.若用决定系数R2来刻画回归效果,回归模型1的决定系数R12=0.32,回归模型2的决定系数R22=0.68,则模型1的拟合效果更好[解析]因为0.4>0,所以y与x之间具有正的线性相关关系,故A正确;经验回归直线y=bx+a恒过样本点的中心x,y,则x=3,y=2.25,故10x=10y+7.5,故B错误;r越接近于1,成对样本数据的线性相关性越强,故C正确;决定系数R2越大,模型拟合效果越好,故D错误.第102页
2.[命题点3角度1]某大学生利用寒假参加社会实践,对机械销售公司7月份至12月份销售某种机械配件的销售量及销售单价进行了调查,销售单价x和销售量y之间的一组数据如下表所示:月份789101112销售单价x/元99.51010.5118销售量y/件111086514(1)根据7月份至11月份的数据,求出y关于x的经验回归方程.参考数据:∑5i=1xiyi=392,∑5i=1xi2=502.5.[解析]因为x=159+9.5+10+10.5+11=10,y=1511+10+8+6+5=8,所以b=392−5×10×8502.5−5×102=−3.2,则a=8−−3.2×10=40,所以y关于x的经验回归方程为y=−3.2x+40.(2)若由经验回归方程得到的估计数据与剩下的检验数据的误差不超过0.5,则认为所得到的经验回归方程是理想的.试依据12月份的数据判断(1)中所得到的经验回归方程是否理想.[解析]当x=8时,y=−3.2×8+40=14.4,则y−y=14.4−14=0.4<0.5,所以可以认为所得到的经验回归方程是理想的.(3)预计在今后的销售中,销售量y与销售单价x仍然服从(1)中的关系,若该种机械配件的成本是2.5元/件,则该配件的销售单价应定为多少元,才能获得最大利润?(注:利润=销售收入-成本).[解析]设销售利润为W,则W=x−2.5−3.2x+40=−3.2x2+48x−100=−3.2x−7.52+80,所以当x=7.5时,W取最大值.所以该配件的销售单价定为7.5元时,获得的利润最大.第102页
3.[命题点3角度2/2022豫北名校联考]某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了如图所示的散点图及一些统计量的值.xyu∑8i=1xi−x215.253.630.2692085.5∑8i=1xi−xyi−y∑8i=1ui−u2∑8i=1ui−uyi−y-230.30.7877.049表中ui=1xi,u=18∑8i=1ui.(1)根据散点图判断:y=a+bx与y=c+dx哪一个模型更适合作为该图书每册的成本费y与印刷数量x的回归方程?(只要求给出判断,不必说明理由)[解析]由散点图判断,y=c+dx更适合作为该图书每册的成本费y与印刷数量x的回归方程.(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(结果精确到0.01).附:对于一组数据ω1,v1,ω2,v2,…,ωn,vn,其回归直线v=α∧+β∧ω的斜率和截距的最小二乘估计公式分别为β=∑ni=1ωi−ωvi−v∑ni=1ωi−ω2,α∧=v−β∧ω.[解析]u=1x,先建立y关于u的线性回归方程,由于d=∑8i=1ui−uyi−y∑8i=1ui−u2=7.0490.787≈8.957,所以c=y−d⋅u=3.63−8.957×0.269≈1.22,所以y关于u的线性回归方程为y=1.22+8.96u,所以y关于x的回归方程为y=1.22+8.96x.第102页
4.[命题点4]有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展.行动期间,公安交管部门加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔、汽车驾乘人员不使用安全带的行为,助推养成安全习惯.该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1000名骑行人员中,记录其年龄(单位:岁)和是否佩戴头盔情况,得到如下图所示的统计图:(1)估算该市电动自行车骑乘人员的平均年龄;[解析]该市电动自行车骑乘人员的平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(岁).(2)根据所给的数据,完成下面的列联表:单位:名年龄/岁是否佩戴头盔合计是否[20,40)[40,70]合计[解析]依题意,完成列联表如下:单位:名年龄/岁是否佩戴头盔合计是否[20,40)54060600[40,70]34060400合计8801201000第102页
(3)根据(2)中的列联表,依据α=0.010的独立性检验,能否认为遵守佩戴安全头盔规则与年龄有关?附:χ2=nad−bc2a+bc+da+cb+d.α0.0500.0100.001xα3.8416.63510.828[解析]零假设为H0:遵守佩戴安全头盔规则与年龄无关.由表得χ2=1000×540×60−340×602600×400×880×120=12522≈5.682<6.635=x0.010,根据小概率值α=0.010的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为遵守佩戴安全头盔规则与年龄无关.作业帮练透好题精准分层基础过关1.在用经验回归方程研究四组数据的拟合效果时,分别作出下列四个关于四组数据的残差图,则用线性回归模型拟合效果最佳的是(A)A.B.C.第102页
D.[解析]用残差图判断模型的拟合效果时,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合效果越好.2.[2020全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据xi,yii=1,2,…,20得到如图所示的散点图.由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(D)A.y=a+bxB.y=a+bx2C.y=a+bexD.y=a+blnx[解析]由散点图可以看出,随着温度x的增加,发芽率y增加到一定程度后,变化率越来越慢,符合对数型函数的图象特征.3.[2023武汉外国语学校测试]如图,在一组样本数据A2,2,B4,3,C6,4,D8,7,E10,6的散点图中,若去掉D8,7,则下列说法正确的为(D)A.样本相关系数r变小B.残差平方和变大C.决定系数R2变小D.自变量x与因变量y的相关程度变强第102页
[解析]由散点图分析可知,只有D点偏离直线较远,去掉D点后,x与y的线性相关程度变强,所以相关系数r变大,决定系数R2变大,残差平方和变小,故选D.4.[2022焦作三模]某高科技公司为加强自主研发能力,研发费用逐年增加.现统计了最近6年的研发费用y(单位:万元)与年份编号x得到样本数据xi,yii=1,2,3,4,5,6,令zi=lnyi,并将xi,zi绘制成如图所示的散点图.若用方程y=aebx对y与x的关系进行拟合,则下列选项正确的是(A)A.a>1,b>0B.a>1,b<0C.0<a<1,b>0D.0<a<1,b<0[解析]因为y=aebx,令z=lny,则z与x的回归方程为z=bx+lna.根据散点图可知z与x成正相关,所以b>0.由回归直线的图象可知,回归直线的截距大于0,即lna>0,所以a>1.故选A.5.[多选]某企业秉承“科学技术是第一生产力”的发展理念,投入大量科研经费进行技术革新,该企业统计了最近6年投入的年科研经费x(单位:百万元)和年利润y(单位:百万元)的数据,并绘制成如图所示的散点图.已知x−=7,y−=10.甲统计员得到的回归方程为y=1.69x+a;乙统计员得到的回归方程为y=2.52e0.17x.若甲、乙二人计算均未出现错误,则下列说法正确的是(ABD)A.当投入的年科研经费为20百万元时,按乙统计员的回归方程可得年利润估计值为75.6百万元(取e3.4≈30)第102页
B.=−1.83C.=1.69x+比=2.52e0.17x的拟合效果好D.y与x正相关[解析]将x=20代入y=2.52e0.17x,得y≈75.6,A正确;将x=7,y=10代入方程y=1.69x+a,得a=−1.83,B正确;由题中散点图可知,y=1.69x+a比y=2.52e0.17x的拟合效果差,C错误;因为y随x的增大而增大,所以y与x正相关,D正确.故选ABD.6.[多选/2023南京六校联考]为研究混凝土的抗震强度y与抗压强度x的关系,某研究部门得到下表的样本数据:x140150170180195y2324262828若y与x线性相关,且经验回归方程为=0.1x+,则下列说法正确的是(ABC)A.a=9.1B.当x增加1个单位时,y增加约0.1个单位C.y与x正相关D.若抗压强度为220时,抗震强度一定是33.1[解析]由题意可得x=140+150+170+180+1955=167,y=23+24+26+28+285=25.8,所以25.8=0.1×167+a,解得a=9.1,所以经验回归方程为y=0.1x+9.1,A正确;对于B,由y=0.1x+9.1可知当x增加1个单位时,y增加约0.1个单位,B正确;对于C,因为0.1>0,所以y与x正相关,C正确;对于D,当x=220时,y=0.1×220+9.1=31.1,抗震强度约为31.1,D错误.综上,选ABC.7.[2022潍坊模拟]某机构为了解某社区居民2021年家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下数据统计表:年收入x/万元8.28.610.011.311.9年支出y/万元6.27.58.0t9.8根据上表可得回归直线的方程为y=0.76x+0.4,则t=8.5.[解析]由题意可得这5户家庭的年收入的平均数x=15×8.2+8.6+10.0+11.3+11.9=10,年支出的平均数y=15×6.2+7.5+8.0+t+9.8=31.5+t5,又回归直线y=0.76x+0.4第102页
必过点x,y,所以31.5+t5=0.76×10+0.4,得t=8.5.8.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内、国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高堆积条形图.根据等高图,依据小概率值α=0.005的独立性检验,能(填“能”或“不能”)认为持乐观态度和国内外差异有关.附:χ2=nad−bc2a+bc+da+cb+dα0.010.0050.001xα6.6357.87910.828[解析]零假设为H0:持乐观态度和国内外差异无关.由题填写2×2列联表如下,单位:名潜在客户态度合计乐观不乐观国内代表6040100国外代表4060100合计100100200根据列联表得χ2=200×60×60−40×402100×100×100×100=8>7.879=x0.005,所以依据小概率值α=0.005的独立性检验,我们推断H0不成立,即能认为持乐观态度和国内外差异有关.9.[2020全国卷Ⅱ]某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据xi,yii=1,2,…,20,其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑20i=1xi=60,∑20i=1yi=1200,∑20i=1xi−x2=80,∑20i=1yi−y2=9000,∑20i=1xi−x⋅yi−y=800.第102页
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数).[解析]由已知得样本平均数y=120∑20i=1yi=60,从而该地区这种野生动物数量的估计值为60×200=12000.(2)求样本xi,yii=1,2,…,20的相关系数(精确到0.01).附:相关系数r=∑ni=1xi−xyi−y∑ni=1xi−x2∑ni=1yi−y2,2≈1.414.[解析]样本xi,yii=1,2,…,20的相关系数r=∑20i=1xi−xyi−y∑20i=1xi−x2∑20i=1yi−y2=80080×9000=223≈0.94.(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.[解析]分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知,各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.10.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示:月份12345678物流成本x8383.58086.58984.57986.5利润y114116106122132114m132残差e=yi−yi0.20.61.8-3-1-4.6-1根据最小二乘估计公式求得经验回归方程为y=3.2x−151.8.(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值e8.[解析]因为y=3.2x−151.8,x=84,第102页
所以y=3.2×84−151.8=117,114+116+106+122+132+114+m+132=117×8,解得m=100,所以8月份对应的残差值e8=132−3.2×86.5+151.8=7.(2)请先求出一元线性回归模型y=3.2x−151.8的决定系数R2(精确到0.0001);若根据非线性回归模型y=267.76lnx−1069.2求得解释变量(物流成本)对于响应变量(利润)的决定系数R02=0.9057,请说明以上两种模型哪种模型拟合效果更好?[解析]由已知公式得∑8i=1yi−yi2=0.22+0.62+1.82+−32+−12+−4.62+−12+72=84.8,R2=1−∑8i=1yi−yi2∑8i=1yi−y2=1−84.8904≈0.9062>R02,所以一元线性回归模型y=3.2x−151.8拟合效果更好.(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元,请重新根据最小二乘法的思想与公式求出新的经验回归方程.附(修正前的参考数据):∑8i=1xiyi=78880,∑8i=1xi2=56528,x=84,∑8i=1yi−y2=904.[解析]第八组数据的利润应为116万元,此时∑8i=1xiyi=78880−86.5×16=77496,又∑8i=1xi2=56528,x=84,y=117−168=115,所以b=∑8i=1xiyi−8xy∑8i=1xi2−8x2=77496−8×84×11556528−8×842=2.7,a=115−2.7×84=−111.8,所以重新计算得经验回归方程为y=2.7x−111.8.能力提升第102页
11.某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,得到如下所示的2×2列联表,经计算χ2≈5.059,则(B)单位:人性别满意程度合计满意不满意男18927女81523合计262450附:α0.0250.010.005xα5.0246.6357.879A.该俱乐部的男性会员对运动场所满意的概率的估计值为13B.该俱乐部的男性会员对运动场所的满意率比女性会员更高C.根据α=0.025的独立性检验,可以推断男性会员、女性会员对运动场所的满意程度无差异D.根据α=0.01的独立性检验,可以推断男性会员、女性会员对运动场所的满意程度有差异[解析]该俱乐部男性会员对运动场所满意的概率的估计值为1827=23,故A错误;该俱乐部女性会员对运动场所满意的概率的估计值为823,又23>823,故B正确;因为χ2≈5.059>5.024=x0.025,所以根据α=0.025的独立性检验,可以推断男性会员、女性会员对运动场所的满意程度有差异,故C错误;因为χ2≈5.059<6.635=x0.01,所以根据α=0.01的独立性检验,无法推断男性会员、女性会员对运动场所的满意程度有差异,故D错误.故选B.12.[多选]下列选项中,正确的是(BC)A.对于回归分析,样本相关系数r的绝对值越小,说明两个变量相关性越强B.以模型y=c⋅ekx去拟合一组数据时,为了求出经验回归方程,设z=lny,将其变换后得到经验回归方程z=0.3x+4,则c,k的值分别是e4和0.3C.经验回归方程y=bx+a中,b的符号和样本相关系数r的符号一致D.通过经验回归直线y=bx+a及回归系数b,可以精确反映变量的取值和变化趋势[解析]对于A,回归分析中,样本相关系数绝对值越小,两个变量相关性越弱,A不正确;第102页
对于B,由y=c⋅ekx两边取对数得lny=kx+lnc,依题意,k=0.3,lnc=4,即c=e4,B正确;对于C,由公式知,C正确.对于D,经验回归直线y=bx+a及回归系数b不能精确反映变量的取值和变化趋势,D不正确.13.[多选/2022济南三模]进入21世纪以来,全球二氧化碳排放量增长迅速,自2000年至今,全球二氧化碳排放量增加了约40%,我国作为发展中国家,经济发展仍需要大量的煤炭能源消耗.下图是2016—2020年中国二氧化碳排放量的统计图(以2016年为第1年).利用图中数据计算可得,采用某非线性回归模型拟合时,R12=0.9798;采用一元线性回归模型拟合时,经验回归方程为y=1.58x+91.44,R22=0.9833.则下列说法正确的是(ABD)A.由图可知,二氧化碳排放量y与时间x正相关B.由决定系数可以看出,线性回归模型的拟合效果更好C.利用经验回归方程计算2019年所对应的样本点的残差为−0.30D.利用经验回归方程预计2025年中国二氧化碳排放量为107.24亿吨[解析]对于A,由题图可知,散点图分布在左下角到右上角的一条直线附近,所以二氧化碳排放量y与时间x正相关,所以选项A正确.对于B,因为采用非线性回归模型拟合时,R12=0.9798,采用线性回归模型拟合时,R22=0.9833,且R22>R12,所以线性回归模型拟合的效果更好,所以选项B正确.对于C,2019年对应x=4,若利用经验回归方程y=1.58x+91.44进行预测,则当x=4时,y=97.76,所以残差为98.06−97.76=0.30,所以选项C错误.第102页
对于D,2025年对应x=10,经验回归方程y=1.58x+91.44,当x=10时,y=107.24,即预计2025年中国二氧化碳排放量为107.24亿吨,所以选项D正确.综上,选ABD.14.根据下面的数据:x1234y32487288求得y关于x的经验回归方程为y=19.2x+12,则这组数据相对于所求的经验回归方程的4个残差的方差为3.2.[解析]将x=1,2,3,4代入经验回归方程可得y的值依次为31.2,50.4,69.6,88.8,所以残差分别为0.8,−2.4,2.4,−0.8,则残差的平均数为0,所以残差的方差为s2=0.82+2.42+2.42+0.824=3.2.15.为了研究昼夜温差与引发感冒的关系,医务人员对某高中在同一时间段相同温差下的学生感冒情况进行抽样调研,所得数据统计如表1所示,并将男生感冒的人数与温差情况统计如表2所示.表1单位:人性别患感冒的情况合计患感冒人数不患感冒人数男生3070100女生4258p合计mn200表2温差x678910患感冒人数y810142023(1)写出m,n,p的值.[解析]根据题表1中的数据可以得出m=72,n=128,p=100.(2)依据小概率值α=0.05的独立性检验判断是否可以认为在相同的温差下“性别”与“患感冒的情况”具有相关性.第102页
[解析]零假设为H0:性别与患感冒无关.根据列联表中的数据,计算得到χ2=200×30×58−42×702100×100×72×128=3.125<3.841=x0.05,所以依据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为在相同的温差下“性别”与“患感冒的情况”无关.(3)根据表2数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(若0.75≤r≤1,则认为y与x线性相关性很强;若0.3≤r≤0.75,则认为y与x线性相关性一般;若r≤0.25,则认为y与x线性相关性较弱).参考数据:∑5i=1xi−x2=10,∑5i=1yi−y2=164,410≈20.2485.附:α0.100.050.025xα2.7063.8415.024[解析]由题意知,x=6+7+8+9+105=8,y=8+10+14+20+235=15,所以∑5i=1xi−xyi−y=40,则r=4010×164=20410≈2020.2485≈0.9877>0.75,所以y与x的线性相关性很强.16.[2023广东省佛山市质检]体育运动是强身健体的重要途径,《中国儿童青少年体育健康促进行动方案2020−2030》(下面简称“体育健康促进行动方案”)中明确提出青少年学生每天在校内参与不少于60分钟的中高强度身体活动的要求.随着“体育健康促进行动方案”的发布,体育运动受到各地中小学的高度重视,众多青少年的体质健康得到很大的改善.某中学教师为了了解体育运动对学生的数学成绩的影响情况,现从该中学高三年级的一次月考中随机抽取1000名学生,调查他们平均每天的体育运动情况以及本次月考的数学成绩情况,得到下表数据:数学成绩(分)[30,50)[50,70)[70,90)[90,110)[110,130)[130,150)人数(人)2512535030015050运动达标的人数(人)104514520010743约定:平均每天进行体育运动的时间不少于60分钟的为“运动达标”,数学成绩排在年级前50%以内(含50%)的为“数学成绩达标”.(1)求该中学高三年级本次月考数学成绩的65%分位数;第102页
[解析]每组的频率依次为0.025,0.125,0.350,0.300,0.150,0.050,∵0.025+0.125+0.350=0.500<0.65,0.025+0.125+0.350+0.300=0.800>0.65,且0.500+0.8002=0.65,∴高三年级本次月考数学成绩的65%分位数位于[90,110),且为[90,110)的中点100,∴该中学高三年级本次月考数学成绩的65%分位数为100.(2)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用该组区间的中点值作代表);[解析]该中学高三年级本次月考数学成绩的平均分x=0.025×40+0.125×60+0.350×80+0.300×100+0.150×120+0.050×140=91.50,∴估计该中学高三年级本次月考数学成绩的平均分为91.50.(3)请根据已知数据完成下列列联表,并根据小概率值α=0.001的独立性检验,分析“数学成绩达标”是否与“运动达标”相关.数学成绩达标人数数学成绩不达标人数合计运动达标人数运动不达标人数合计附:χ2=nad−bc2a+bc+da+cb+dn=a+b+c+d.α0.0100.0050.001xα6.6357.87910.828[解析]数学成绩达标人数数学成绩不达标人数合计运动达标人数350200550运动不达标人数150300450合计5005001000零假设H0为:“数学成绩达标”与“运动达标”无关,χ2=1000350×300−200×1502550×450×500×500=100011≈90.9>10.828=x0.001,∴零假设不成立,根据独立性检验可得,在犯错的概率不大于α=0.001的前提下认为“数学成绩达标”与“运动达标”相关.突破1概率、统计中的开放性与方案选择问题第102页
1.为了增强学生的冬奥会知识,弘扬奥林匹克精神,北京市多所中小学校开展了模拟冬奥会各项比赛的活动.为了了解学生在越野滑轮和旱地冰壶两项中的参与情况,在北京市中小学学校中随机抽取了10所学校,10所学校的参与人数如图所示.(1)现从这10所学校中随机选取2所学校进行调查,求选出的2所学校参与越野滑轮的人数都超过40的概率.[解析]记“选出的2所学校参与越野滑轮的人数都超过40”为事件S,从这10所学校中随机选取2所学校进行调查,样本空间的样本点个数为C102.参与越野滑轮的人数超过40的学校共4所,则事件S包含的样本点个数为C42,所以PS=C42C102=215.(2)现有一名旱地冰壶教练在这10所学校中随机选取2所学校进行指导,记X为教练选中参加旱地冰壶人数在30以上的学校个数,求X的分布列和数学期望.[解析]X的所有可能取值为0,1,2,参加旱地冰壶人数在30以上的学校共4所,则PX=0=C40⋅C62C102=13,PX=1=C41⋅C61C102=815,PX=2=C42⋅C60C102=215.所以X的分布列为X012P13815215EX=0×13+1×815+2×215=45.(3)第102页
某校聘请了一名越野滑轮教练,对高山滑降、转弯、八字登坡滑行这3个动作进行技术指导.规定:这3个动作中至少有2个动作达到“优”,则总考核记为“优”.在指导前,该校甲同学3个动作中每个动作达到“优”的概率都为0.1,且彼此独立.在指导后的考核中,甲同学总考核成绩为“优”.能否认为甲同学在指导后总考核达到“优”的概率发生了变化?请说明理由.[解析]答案不唯一.答案示例1:可以认为甲同学在指导后总考核为“优”的概率发生了变化.理由如下:指导前,甲同学总考核为“优”的概率为C32×0.12×0.9+C33×0.13=0.028.则指导前甲同学总考核为“优”的概率非常小,一旦发生,就有理由认为指导后总考核达到“优”的概率发生了变化.答案示例2:无法确定,理由如下:指导前,甲同学总考核为“优”的概率为C32×0.12×0.9+C33×0.13=0.028.虽然概率非常小,但是也可能发生,所以无法确定总考核达到“优”的概率是否发生了变化.2.据统计,仅在北京每天就有500万单快递等待派送,近5万多名快递员奔跑在一线,快递网点人员流动性也较强,各快递公司需要经常招聘快递员,保证业务的正常开展.下面是50天内甲、乙两家快递公司的快递员每天的送货单数统计表:送货单数30405060天数甲10102010乙515255已知这两家快递公司的快递员的日工资方案分别为:甲公司规定底薪60元,每单抽成1元;乙公司规定底薪80元,每日前40单无抽成,超过40单的部分每单抽成t元.(1)分别求甲、乙快递公司快递员的日工资y1,y2(单位:元)与送货单数n的函数关系式.[解析]甲快递公司快递员的日工资y1(单位:元)与送货单数n的函数关系式为y1=60+n,n∈N∗.乙快递公司快递员的日工资y2(单位:元)与送货单数n的函数关系式为y2=80n≤40,n∈N∗,80+tn−40n>40,n∈N∗.(2)若将频率视为概率,回答下列问题:①记甲快递公司快递员的日工资为X(单位:元),求X的分布列和数学期望;第102页
[解析]由题意知X的所有可能取值为90,100,110,120,则PX=90=1050=0.2,PX=100=1050=0.2,PX=110=2050=0.4,PX=120=1050=0.2,所以X的分布列为X90100110120P0.20.20.40.2故EX=90×0.2+100×0.2+110×0.4+120×0.2=106.②小赵拟到甲、乙两家快递公司中的一家应聘快递员的工作,如果仅从日收入的角度考虑,请你利用所学的统计学知识为他做出选择,并说明理由.[解析]乙快递公司快递员这50天的工资和为5+15×80+25×[80+50−40t]+5×[80+60−40t]=4000+350t(元),所以乙快递公司快递员的日平均工资为4000+350t50=80+7t(元).由①知,甲快递公司快递员的日平均工资为106元.当80+7t<106,即t<267时,小赵应选择甲快递公司;当80+7t=106,即t=267时,小赵选择甲、乙快递公司均可;当80+7t>106,即t>267时,小赵应选择乙快递公司.3.[2023安徽芜湖一中、屯溪一中等校第一次联考]国庆节期间,某大型服装团购会举办了一次“你消费我促销”活动,顾客消费满300元(含300元)可抽奖一次,抽奖方案有两种(顾客只能选择其中的一种).方案一:从装有5个形状、大小完全相同的小球(其中红球1个,黑球4个)的抽奖盒中,有放回地摸出3个球,每摸出1次红球,立减100元.方案二:从装有10个形状、大小完全相同的小球(其中红球2个,白球1个,黑球7个)的抽奖盒中,不放回地摸出3个球,若摸出2个红球和1个白球,则享受免单优惠;若摸出2个红球和1个黑球,则打5折;若摸出1个红球,1个白球和1个黑球,则打7.5折;其余情况不打折.(1)某顾客恰好消费300元,并选择抽奖方案一,求他实付金额的分布列和期望;[解析]设该顾客的实付金额为X元,则X的所有可能取值为0,100,200,300,PX=0=153=1125,PX=100=C32152×45=12125,第102页
PX=200=C31×15×452=48125,PX=300=453=64125,故X的分布列为X0100200300P1125121254812564125所以EX=0×1125+100×12125+200×48125+300×64125=240.(2)若顾客消费500元,试从实付金额的期望值分析顾客选择何种抽奖方案更合理.[解析]若选择方案一,设摸到红球的个数为Y,实付金额为φ元,则φ=500−100Y,由题意可得Y∼B3,15,故EY=3×15=35,所以Eφ=E500−100Y=500−100EY=500−60=440.若选择方案二,设实付金额为η元,则η的所有可能取值为0,250,375,500,Pη=0=C22C11C103=1120,Pη=250=C22C71C103=7120,Pη=375=C21C11C71C103=760,Pη=500=1−1120−7120−760=4960,故η的分布列为η0250375500P112071207604960所以Eη=0×1120+250×7120+375×760+500×4960≈466.67.因为Eφ<Eη,故从实付金额的期望值分析,顾客选择方案一更合理.方法技巧概率统计中的开放性问题往往是一种结论不能确定,需要通过对有关数据进行分析得出结果的问题.这种问题有时结果不唯一,但要给出充足的理由.作业帮练透好题精准分层第102页
1.[2023河南高三名校摸底考试]在实施乡村振兴的进程中,某地政府引领广大农户发展特色农业,种植优良品种柑橘.现在实验基地中种植了相同数量的A,B两种柑橘.为了比较A,B两种柑橘品种的优劣,在柑橘成熟后随机选取A,B两种柑橘各100株,并根据株产量X(单位:kg)绘制了如图所示的频率分布直方图(数据分组为[65,70),[70,75),[75,80),[80,85),[85,90),[90,95]).(1)求a,b的值;[解析]由题中A品种柑橘的频率分布直方图可知,0.01×2+0.03+a+0.06+0.05×5=1,解得a=0.04.由题中B品种柑橘的频率分布直方图可知,0.05+0.06+b+0.03+0.01×2×5=1,解得b=0.04.(2)将频率当作概率,在所有柑橘中随机抽取一株,求其株产量不低于80kg的概率;[解析]A品种柑橘株产量不低于80kg的频率为0.04+0.06+0.05×5=0.75,B品种柑橘株产量不低于80kg的频率为0.03+0.01+0.01×5=0.25,故200株柑橘中株产量不低于80kg的频率为0.75×100+0.25×100100+100=0.5,所以在所有柑橘中随机抽取一株,其株产量不低于80kg的概率为0.5.(3)求两种柑橘株产量平均数的估计值(同一组数据中的平均数用该组区间的中点值作为代表),并从产量角度分析,哪个品种的柑橘更好?说明理由.[解析]设A品种柑橘株产量平均数的估计值为MA,则MA=0.01×67.5+0.01×72.5+0.03×77.5+0.04×82.5+0.06×87.5+0.05×92.5×5=84.5.第102页
设B品种柑橘株产量平均数的估计值为MB,则MB=0.05×67.5+0.06×72.5+0.04×77.5+0.03×82.5+0.01×87.5+0.01×92.5×5=75.5.A品种的柑橘更好.理由一A品种柑橘的株产量平均数的估计值大于B品种柑橘的株产量平均数的估计值,故A品种的柑橘更好.理由二由(2)可知,A品种柑橘株产量不低于80kg的占比为75%,B品种柑橘株产量不低于80kg的占比为25%,故A品种的柑橘更好.(注:答案不唯一,有道理的答案均给分)2.[2022衡水中学模拟]第24届冬季奥林匹克运动会,即北京2022年冬奥会,于2022年2月4日星期五开幕,2月20日星期日闭幕.本届奥运会激发了大家对冰雪运动的热情,某冰雪运动品商店对消费达到一定金额的顾客开展了“冬奥”知识有奖竞答活动.试题由选择题和填空题两种题型构成,共需要回答三个问题,对于每一个问题,答错得0分,答对填空题得30分,答对选择题得20分.现设置了两种活动方案供选择:方案一,只回答填空题;方案二,第一题是填空题,后续选题按如下规则,若上一题回答正确,则下一题是填空题,若上一题回答错误,则下一题是选择题.某顾客获得了答题资格,已知其答对填空题的概率为12,答对选择题的概率为p0<p<1,且答对问题的概率与回答次序无关.(1)若该顾客采用方案一答题,求其得分不低于60分的概率.[解析]采用方案一答题,得分不低于60分的情况为至少答对两道填空题,则其概率为C32123+C33123=38+18=12.(【一题多解】该题也可以转化为对立事件的概率求解,“至少答对两道填空题”的对立事件是“答对0道或1道填空题”,故所求事件的概率P=1−[C30123+C31123]=1−18+38=12)(2)以得分的数学期望作为判断依据,该顾客选择何种方案更加有利?并说明理由.[解析]若采用方案一,设其答对题数为ξ,得分为X,则X=30ξ.第102页
易知ξ∼B3,12,所以EX=30Eξ=30×3×12=45.若采用方案二,设其得分为Y,则Y的所有可能取值为0,20,30,50,60,90.PY=0=121−p2,PY=20=12×p×12+12×1−p×p=3p−2p24,(【易错】方案二中,所答题型与上一个题是否答对有关,所以得分Y的分布不是二项分布)PY=30=12×121−p=1−p4,PY=50=p4×2=p2,PY=60=123=18,PY=90=123=18.则EY=0×1−p22+20×3p−2p24+30×1−p4+50×p2+60×18+90×18=−10p2+652p+1054,所以EX−EY=10p2−652p+754.(【技巧】Y的数学期望是关于p的多项式,所以可采用作差法比较大小)令EX−EY>0,则8p2−26p+15>0,解得p<34或p>52(舍去),即当0<p<34时,选方案一数学期望大.当EX−EY=0,即p=34时,方案一、方案二的数学期望大小一样.当EX−EY<0,即34<p<1时,选方案二数学期望大.综上所述,当0<p<34时,选方案一;当p=34时,方案一、方案二均可;当34<p<1时,选方案二.突破2概率、统计的综合问题命题点1古典概型、条件概率、相互独立事件的概率等与统计的综合1.[2022全国卷甲改编]甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A24020B21030第102页
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;[解析]由题表可得A公司甲、乙两城之间的长途客车准点的概率为240240+20=1213,B公司甲、乙两城之间的长途客车准点的概率为210210+30=78.(2)依据小概率值α=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客车所属公司有关.附:χ2=nad−bc2a+bc+da+cb+d,α0.10.0500.0100.001xα2.7063.8416.63510.828[解析]零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关.根据2×2列联表,可得χ2=500×240×30−20×2102240+20×210+30×240+210×20+30≈3.205>2.706=x0.1,根据小概率值α=0.1的独立性检验,我们推断H0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.2.[2022新高考卷Ⅱ]在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如图所示的样本数据的频率分布直方图.(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);[解析]估计该地区这种疾病患者的平均年龄x=10×5×0.001+15×0.002+25×0.012+35×0.017+45×0.023+55×0.020+65×0.017+75×0.006+85×0.002=47.9.(2)估计该地区一位这种疾病患者的年龄位于区间[20,70)的概率;第102页
[解析]该地区一位这种疾病患者的年龄位于区间[20,70)的概率P=0.012+0.017×2+0.023+0.020×10=0.89.(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间[40,50)的人口占该地区总人口的16%.从该地区中任选一人,若此人的年龄位于区间[40,50),求此人患这种疾病的概率.[解析]设从该地区任选一人,年龄位于区间[40,50)为事件A,患这种疾病为事件B,则PA=16%,由频率分布直方图知这种疾病患者年龄位于区间[40,50)的概率为0.023×10=0.23,结合该地区这种疾病的患病率为0.1%,可得PAB=0.1%×0.23=0.00023,所以从该地区任选一人,若年龄位于区间[40,50),则此人患这种疾病的概率为PB|A=PABPA=0.0002316%≈0.0014.命题点2统计图表等与分布列的综合3.[2023济南摸底]为庆祝中国共产主义青年团成立100周年,某校团委组织团员参加知识竞赛.根据成绩(所有成绩均在[50,100]内),制成如图所示的频率分布直方图.(1)计算x的值;[解析]由频率分布直方图知0.005×10+0.010×10+0.015×10+10x+0.040×10=1,所以x=0.030.(2)采用按比例分层随机抽样的方法从成绩在[80,90),[90,100]的两组中共抽取7人,再从这7人中随机抽取3人,记X为这3人中成绩落在[80,90)的人数,求X的分布列和数学期望.第102页
[解析]按比例分层随机抽样抽取7人,成绩在[80,90),[90,100]的人数分别为3,4.所以X的所有可能取值为0,1,2,3.PX=0=C43C73=435,PX=1=C42C31C73=1835,PX=2=C41C32C73=1235,PX=3=C33C73=135.则X的分布列为X0123P43518351235135所以X的数学期望EX=0×435+1×1835+2×1235+3×135=97.4.[2022昆明三诊]《中共中央国务院关于深入打好污染防治攻坚战的意见》提出“构建智慧高效的生态环境管理信息化体系”,下一步,需加快推进5G、物联网、大数据、云计算等新信息技术在生态环境保护领域的建设与应用,实现生态环境管理信息化、数字化、智能化.某科技公司开发出一款生态环保产品.已知该环保产品每售出1件预计利润为0.4万元,当月未售出的环保产品,每件亏损0.2万元.根据市场调研,该环保产品的市场月需求量x(单位:件)在[155,205]内取值,将月需求量区间平均分成5组,以各组区间的中点值代表该组的月需求量,得到如图所示的频率分布折线图.(1)请根据频率分布折线图,估计该环保产品的市场月需求量的平均值及方差;[解析]由题意,得该环保产品的市场月需求量的平均值x=160×0.05+170×0.2+180×0.4+190×0.3+200×0.05=181(件).解法一该环保产品的市场月需求量的方差s2=∑5i=1xi2pi−x2=32850−1812=89.第102页
解法二s2=∑5i=1xi−x2pi=160−1812×0.05+170−1812×0.2+180−1812×0.4+190−1812×0.3+200−1812×0.05=89.(2)以频率分布折线图的频率估计概率,若该公司计划环保产品的月产量n∈[180,190],n∈N∗(单位:件),求月利润Y(单位:万元)的数学期望的最大值.参考数据:∑5i=1xi2pi=32850,xi是各组区间中点值,pi是各组月需求量对应的频率,i=1,2,3,4,5.[解析]设市场月需求量为M,由题意知,M的所有可能值为160,170,180,190,200,则M的分布列为M160170180190200P0.050.20.40.30.05当180≤n≤190,n∈N∗时,若市场月需求量为160,则Y=96−0.2n;若市场月需求量为170,则Y=102−0.2n;若市场月需求量为180,则Y=108−0.2n;若市场月需求量为190或200,则Y=0.4n.故EY=96−0.2n×0.05+102−0.2n×0.2+108−0.2n×0.4+0.4n×0.35=68.4+0.01n.又n∈[180,190],故当n=190时,月利润Y的数学期望取得最大值,为70.3万元.命题点3回归模型与分布列的综合5.[2023湖北三校联考]近年来,我国大学生毕业人数呈逐年上升趋势,各省市出台优惠政策鼓励高校毕业生自主创业,以创业带动就业.某市统计了该市其中四所大学2022年毕业生人数及自主创业人数(单位:千人),得到下表:A大学B大学C大学D大学2022年毕业生人数x/千人3456自主创业人数y/千人0.10.20.40.5(1)已知y与x具有较强的线性相关关系,求y关于x的线性回归方程y=a+bx.第102页
参考公式及参考数据:b=∑ni=1xi−xyi−y∑ni=1xi−x2,a=y−bx,∑4i=1xiyi=6.1,∑4i=1xi2=86.[解析]由题意得x−=3+4+5+64=4.5,y−=0.1+0.2+0.4+0.54=0.3,b=∑4i=1xiyi−4xy∑4i=1xi2−4x2=6.1−4×4.5×0.386−4×4.52=0.14,所以a=y−bx=0.3−0.14×4.5=−0.33.故y关于x的线性回归方程为y=0.14x−0.33.(2)假设该市政府对选择自主创业的大学生每人发放1万元的创业补贴.(i)若该市E大学2022年毕业生人数为7千人,根据(1)的结论估计该市政府要给E大学选择自主创业的毕业生发放创业补贴的总金额;[解析]将x=7代入得,y=0.14×7−0.33=0.65,所以估计该市政府需要给E大学选择自主创业的毕业生发放创业补贴的总金额为0.65×1000×1=650(万元).(ii)若A大学的毕业生中小明、小红选择自主创业的概率分别为p,2p−112<p<1,该市政府对小明、小红两人的自主创业的补贴总金额的期望不超过1.4万元,求p的取值范围.[解析]设小明、小红两人中选择自主创业的人数为X,则X的所有可能取值为0,1,2,PX=0=1−p2−2p=2p2−4p+2,PX=1=1−p2p−1+p2−2p=−4p2+5p−1,PX=2=p2p−1=2p2−p,则EX=2p2−4p+2×0+−4p2+5p−1×1+2p2−p×2=3p−1≤1.4,p≤45.因为12<p<1,所以12<p≤45,故p的取值范围为(12,45].第102页
命题点4独立性检验与分布列的综合6.[2023曲靖一中检测]为推行“新课堂”教学法,某化学老师分别用传统教学和“新课堂”两种不同的教学方式,在甲、乙两个平行班级进行教学实验.为了比较教学效果,期中考试后,分别从两个班级中各随机抽取20名学生的成绩进行统计,结果如下表.记成绩不低于70分的为“成绩优良”.分数[50,60)[60,70)[70,80)[80,90)[90,100]甲班频数56441乙班频数13655(1)由以上统计数据填写下面2×2列联表,并判断能否依据小概率值α=0.05的独立性检验认为“成绩优良与教学方式有关”.甲班乙班合计成绩优良成绩不优良合计附:χ2=nad−bc2a+bc+da+cb+d,其中n=a+b+c+d.临界值表:α0.100.050.0100.005xα2.7063.8416.6357.879[解析]由题意,列联表如下:甲班乙班合计成绩优良91625成绩不优良11415合计202040零假设为H0:成绩优良与教学方式无关,由列联表计算可得χ2=40×9×4−16×11225×15×20×20≈5.227>3.841,依据独立性检验,有充分证据推断H0不成立,即依据小概率值α=0.05的独立性检验,可以认为“成绩优良与教学方式有关”.(2)现从上述40人中按成绩是否优良采用分层随机抽样的方法抽取8人进行考核.在这8人中,记乙班成绩不优良的人数为X,求X的分布列及数学期望.[解析]由(1)知,8人中成绩不优良的人数为8×1540=3,则X的可能取值为0,1,2,3,所以PX=0=C113C153=3391,PX=1=C112C41C153=4491,PX=2=C111C42C153=66455,PX=3=C43C153=4455.第102页
所以X的分布列为X0123P33914491664554455解法一所以EX=0×3391+1×4491+2×66455+3×4455=45.解法二因为X服从超几何分布H15,4,3,所以EX=4×315=45.7.[2022河北衡水中学考前冲刺]某种疾病可分为A,B两种类型.为了解该疾病的类型与患者性别是否相关,在某地区随机抽取了若干名该疾病的患者进行调查,发现女性患者总人数是男性患者总人数的2倍,男性患A型疾病的人数占男性患者总人数的56,女性患A型疾病的人数占女性患者总人数的13.(1)若本次调查得出“依据小概率值α=0.005的独立性检验,认为所患疾病类型与性别有关”的结论,求被调查的男性患者至少有多少人.附:χ2=nad−bc2a+bc+da+cb+d,其中n=a+b+c+d.α0.100.050.010.0050.001xα2.7063.8416.6357.87910.828[解析]设男性患者有x人,则女性患者有2x人,由题意得2×2列联表如下:A型疾病B型疾病合计男性患者5x6x6x女性患者2x34x32x合计3x23x23x零假设H0:患者所患疾病类型与性别之间无关联,根据列联表中的数据可得χ2=3x5x6⋅4x3−x6⋅2x323x2⋅3x2⋅2x⋅x=2x3,要使依据小概率值α=0.005的独立性检验可以认为所患疾病类型与性别有关,则2x3>7.879,解得x>11.8185,因为x6∈N,x3∈N,所以x的最小整数值为12,所以被调查的男性患者至少有12人.(2)某团队进行预防A型疾病的疫苗的研发试验,试验期间至多安排2个周期接种疫苗,每人每个周期接种3次,每次接种费用为mm>0第102页
元.该团队研发的疫苗每次接种后产生抗体的概率为p0<p<1,如果一个周期内至少2次产生抗体,则该周期结束后终止试验,否则进入第二个周期.若p=23,试验人数为1000,试估计该试验用于接种疫苗的总费用.[解析]设该试验每人的接种费用为ξ元,则ξ的可能取值为3m,6m.则Pξ=3m=C32p21−p+p3=−2p3+3p2,Pξ=6m=1−Pξ=3m=1+2p3−3p2,所以Eξ=3m⋅−2p3+3p2+6m⋅1+2p3−3p2=3m2p3−3p2+2,因为p=23,试验人数为1000,所以该试验用于接种疫苗的总费用为1000Eξ,即1000×3m[2×233−3×232+2]=340009m(元).故该试验用于接种疫苗的总费用为340009m元.命题点5正态分布与分布列的综合8.[2023广西桂林第十八中学、广西师大附中联考]W企业的产品p正常生产时,产品p的尺寸X(单位:mm)服从正态分布N80,0.25,从当前生产线上随机抽取200件产品进行检测,产品尺寸汇总如下表.产品尺寸/mm[76,78.5](78.5,79](79,79.5](79.5,80.5](80.5,81](81,81.5](81.5,83]件数427278036206根据产品质量标准和生产线的实际情况,产品尺寸在(μ−3σ,μ+3σ]以外视为小概率事件,一旦小概率事件发生视为生产线出现异常.产品尺寸在(μ−3σ,μ+3σ]以内为正品,以外为次品.(1)判断生产线是否正常工作,并说明理由;附:若X∼Nμ,σ2,则Pμ−σ<X≤μ+σ≈0.6827,Pμ−2σ<X≤μ+2σ≈0.9545,Pμ−3σ<X≤μ+3σ≈0.9973.[解析]因为产品p的尺寸X服从正态分布N80,0.25,所以X的平均值μ=80,标准差σ=0.5,所以正常产品尺寸范围为(78.5,81.5],生产线正常工作,次品不能多于200×1−0.9973=0.54(件),由表中数据可知产品尺寸在(78.5,81.5]以外的零件数为10,所以生产线没有正常工作.第102页
(2)用频率估计概率,若随机从生产线上取3件产品进行检测,正品检测费为10元/件,次品检测费为15元/件,记这3件产品检测费为Z元,求Z的数学期望及方差.[解析]依题意尺寸在(78.5,81.5]以外的就是次品,故次品率为10200=120.记这3件产品中次品件数为Y,则Y∼B3,120,所以EY=3×120=320,DY=3×120×1920=57400.又Z=103−Y+15Y=5Y+30,所以EZ=5EY+30=1234,DZ=52DY=25×57400=5716.作业帮练透好题精准分层1.[2023浙江高三名校联考]为调查某小学学生的视力情况,随机抽取了该校150名学生(男生100人,女生50人),统计了他们的视力情况,结果如下:男生中有60人视力正常,女生中有40人视力正常.(1)试依据小概率值α=0.01的独立性检验,分析学生的视力正常与否是否与性别有关.附:χ2=nad−bc2a+bc+da+cb+d,n=a+b+c+d.α0.100.050.0250.010.005xα2.7063.8415.0246.6357.879[解析]由已知得150名学生中男生、女生视力正常与否的2×2列联表为视力正常视力不正常总计男生6040100女生401050总计10050150零假设为H0:学生的视力正常与否与性别无关.χ2=150×600−16002100×50×100×50=6<6.635=x0.01,所以依据小概率值α=0.01的独立性检验,没有充分的证据推断H0不成立,因此认为学生的视力正常与否与性别无关.(2)第102页
如果用这150名学生中,男生和女生视力正常的频率分别代表该校男生和女生视力正常的概率,且每位学生视力正常与否相互独立.现从该校学生中随机抽取3人(2男1女),设随机变量X表示3人中视力正常的人数,试求X的分布列和数学期望.[解析]由已知得该小学男生、女生视力正常的概率分别为35,45.X的取值有0,1,2,3,且PX=0=252×15=4125,PX=1=C21×35×25×15+252×45=28125,PX=2=352×15+C21×35×25×45=57125,PX=3=352×45=36125.所以X的分布列为X0123P4125281255712536125则EX=0×4125+1×28125+2×57125+3×36125=28+114+108125=2.2.[2023长沙模拟]某芯片制造企业使用新技术对某款芯片进行试生产,在试生产初期,该款芯片生产有四道工序,前三道工序的生产互不影响,第四道是检测评估工序,包括智能自动检测与人工抽检.(1)在试生产初期,该款芯片的批次M生产前三道工序的次品率分别为P1=160,P2=159,P3=158.①求批次M芯片的次品率PM;[解析]批次M芯片的次品率为PM=1−[1−P11−P21−P3]=1−5960×5859×5758=120.②第四道工序中智能自动检测为次品的芯片会被自动淘汰,合格的芯片进入流水线并由工人进行抽查检验.已知批次M的芯片智能自动检测显示合格率为98%,求工人在流水线进行人工抽检时,抽检一个芯片恰为合格品的概率.[解析]设批次M的芯片智能自动检测合格为事件A,人工抽检合格为事件B,由已知得PA=98100,PAB=1−PM=1−120=1920,则工人在流水线进行人工抽检时,抽检一个芯片恰为合格品为事件B|A,第102页
PB|A=PABPA=1920×10098=9598.(2)该企业改进生产工艺后生产了批次N的芯片,某手机生产厂商获得批次M与批次N的芯片,并在某款新型手机上使用,现对使用这款手机的用户回访,对开机速度进行满意度调查,据统计,回访的100名用户中,安装批次M芯片的有40部,其中对开机速度满意的有30人;安装批次N芯片的有60部,其中对开机速度满意的有58人.依据α=0.005的独立性检验,能否认为芯片批次与用户对开机速度满意度有关?附:χ2=nad−bc2a+bc+da+cb+d,n=a+b+c+d.α0.100.050.0100.0050.001xα2.7063.8416.6357.87910.828[解析]零假设为H0:芯片批次与用户对开机速度满意度无关联.由数据可建立2×2列联表如下:单位:人开机速度满意度芯片批次合计MN不满意10212满意305888合计4060100根据列联表得χ2=100×10×58−2×30240×60×12×88≈10.67>7.879=x0.005.因此,依据α=0.005的独立性检验,我们推断H0不成立,即认为芯片批次与用户对开机速度满意度有关联,此推断犯错误的概率不大于0.005.3.[2023湖北模拟]某企业从生产的一批零件中抽取100件产品作为样本,检测其质量指标值mm∈[100,400],得到如图所示的频率分布直方图,并依据质量指标值划分等级如下表所示.质量指标值m150≤m<350100≤m<150或350≤m≤400等级A级B级(1)根据频率分布直方图估计这100件产品的质量指标值的平均数m.第102页
[解析]由题意知m=125×0.05+175×0.1+225×0.15+275×0.4+325×0.25+375×0.05=267.5.(2)以样本的频率估计总体的概率,解决下列问题:(i)从所生产的零件中随机抽取3个零件,记其中A级零件的件数为ξ,求ξ的分布列和数学期望;[解析]由题意知随机抽取一个零件,其为A级的概率为1−0.05×2=0.9,ξ的所有可能取值为0,1,2,3,Pξ=0=C301−0.93=0.001,Pξ=1=C31×0.9×1−0.92=0.027,Pξ=2=C32×0.92×1−0.9=0.243,Pξ=3=C33×0.93=0.729,则随机变量ξ的分布列为ξ0123P0.0010.0270.2430.729解法一所以Eξ=0×0.001+1×0.027+2×0.243+3×0.729=2.7.解法二因为ξ∼B3,0.9,所以Eξ=3×0.9=2.7.(ii)该企业采用混装的方式将所有零件按400个为一箱包装出售,已知一个A级零件的利润是12元,一个B级零件的利润是4元,估计每箱零件的利润.[解析]设随机抽取一箱零件,其中A级零件有X个,出售该箱零件的利润为Y元,则B级零件有400−X个,Y=12X+4400−X=8X+1600,因为X∼B400,0.9,所以EX=400×0.9=360,所以EY=E8X+1600=8EX+1600=8×360+1600=4480.故每箱零件的利润约为4480元.4.[2023南京学情调研]某高校男、女学生人数基本相当,为了解该校英语四级考试情况,随机抽取了该校首次参加英语四级考试的男、女各50名学生的成绩,情况如下表:合格不合格男生3515女生455第102页
(1)试依据小概率值α=0.010的独立性检验,分析该校首次参加英语四级考试的学生能否合格是否与性别有关.附:χ2=nad−bc2a+bc+da+cb+d,α0.0500.0100.001x−α3.8416.63510.828[解析]零假设为H0:该校首次参加英语四级考试的学生能否合格与性别无关.由题中数据可得χ2=100×35×5−45×15280×20×50×50=6.25.因为6.25<6.635=x0.010,所以依据小概率值α=0.010的独立性检验,没有充分的证据推断H0不成立,因此认为该校首次参加英语四级考试的学生能否合格与性别无关.(2)从这50名男生中任意选2人,求这2人中合格人数的概率分布列及数学期望.[解析]设这2人中合格人数为X,则X的可能取值为0,1,2.PX=0=C350C152C502=335,PX=1=C351C151C502=37,PX=2=C352C150C502=1735,所以这2人中合格人数X的概率分布列为X012P335371735所以数学期望EX=0×335+1×37+2×1735=75.(3)将抽取的这100名学生合格的频率视为该校首次参加英语四级考试的每位学生合格的概率.若学生首次考试不合格,则经过一段时间的努力,第二次参加考试合格的概率会增加0.1.现从该校学生中任意抽取2名学生,求至多两次英语四级考试后,这2人全部合格的概率.[解析]该校首次参加英语四级考试的每位学生合格的概率为35+45100=0.8.两次考试后这2人全部合格可分为三类:第一类,这2名学生第一次考试都合格,则概率为0.82=0.64;第102页
第二类,这2名学生中有一名第一次考试不合格,第二次合格,另一名第一次考试合格,则概率为C21×0.8×0.2×0.9=0.288;第三类,这2名学生第一次考试都不合格,第二次都合格,则概率为0.22×0.92=0.0324.0.64+0.288+0.0324=0.9604,所以至多两次英语四级考试后,这2人全部合格的概率为0.9604.5.某次考试中500名学生的物理成绩(满分为150分)服从正态分布N100,17.52,数学成绩的频率分布直方图如图所示.(1)如果成绩大于135分的为特别优秀,那么本次考试中物理、数学特别优秀的大约各有多少人?[解析]因为物理成绩(记为Y)服从正态分布N100,17.52,所以物理特别优秀的概率为PY>135≈1−0.9545×12=0.02275,数学特别优秀的概率为0.0016×20×34=0.024,故物理特别优秀的学生大约有500×0.02275≈11(人),数学特别优秀的学生大约有500×0.024=12(人).(2)如果物理和数学两科都特别优秀的共有6人,从(1)中的这些学生中随机抽取3人,设三人中两科都特别优秀的有X人,求X的分布列和数学期望.[解析]物理和数学两科都特别优秀的学生有6人,则由(1)可知只有一科特别优秀的学生有11人.X的所有可能取值为0,1,2,3,PX=0=C113C173=33136,PX=1=C112C61C173=3368,PX=2=C111C62C173=33136,PX=3=C63C173=134,所以X的分布列为X0123第102页
P33136336833136134则EX=0×33136+1×3368+2×33136+3×134=1817.(3)根据以上数据及小概率值α=0.001的独立性检验,是否可以认为物理特别优秀的学生,数学也特别优秀?附:①若X∼Nμ,σ2,则Pμ−σ≤X≤μ+σ≈0.6827,Pμ−2σ≤X≤μ+2σ≈0.9545.②χ2=nad−bc2a+bc+da+cb+d.③α0.010.0050.001xα6.6357.87910.828[解析]填写2×2列联表如下:数学成绩物理成绩合计特别优秀不特别优秀特别优秀6612不特别优秀5483488合计11489500零假设为H0:物理成绩与数学成绩独立.根据列联表中数据,得χ2=500×6×483−6×5211×489×12×488≈130.565>10.828=x0.001,依据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为物理特别优秀的学生,数学也特别优秀,该推断犯错误的概率不大于0.001.6.[2022长春质监]某校课题小组为了研究粮食产量与化肥施用量以及与化肥有效利用率间的关系,收集了10组化肥施用量和粮食亩产量的数据,并对这些数据做了初步处理,得到了如图所示的散点图及一些统计量的值.每亩化肥施用量为x(单位:千克),粮食亩产量为y(单位:百千克).参考数据:∑10i=1xiyi∑10i=1xi∑10i=1yi∑10i=1xi2∑10i=1tizi∑10i=1ti∑10i=1zi∑10i=1ti265091.552.51478.630.5151546.5第102页
表中ti=lnxi,zi=lnyii=1,2,…,10.(1)根据散点图判断y=cxd作为粮食亩产量y关于每亩化肥施用量x的回归方程类型比较适宜.根据表中数据,建立y关于x的回归方程,并预测每亩化肥施用量为27千克时,粮食亩产量y的值.(预测时取e≈2.7)[解析]对y=cxd两边同时取对数,得lny=dlnx+lnc,又t=lnx,z=lny,所以z=dt+lnc.由题表中参考数据得t=1.5,z=1.5,所以d=∑10i=1tizi−10×t×z∑10i=1ti2−10×t2=30.5−10×1.5246.5−10×1.52=13,lnc=z−dt=1,所以c=e,所以y关于x的回归方程为y=ex13.当x=27时,y=3e≈8.1.(2)结合文献可知,当化肥施用量达到一定程度,粮食产量的增长将趋于停滞,已知某化肥有效利用率Z∼N(0.54,0.022),那么这种化肥的有效利用率超过56%的概率为多少?附:①对于一组数据xi,yii=1,2,3,⋯,n,其回归直线y=bx+a的斜率和截距的最小二乘估计分别为b=∑ni=1xiyi−nxy∑ni=1xi2−nx2,a=y−bx;②若随机变量Z∼Nμ,σ2,则有Pμ−σ<Z<μ+σ≈0.6827,Pμ−2σ<Z<μ+2σ≈0.9545.[解析]根据Z服从正态分布可知,PZ>0.56=1−P0.54−0.02<Z<0.54+0.022≈1−0.68272=0.15865,所以这种化肥的有效利用率超过56%的概率为0.15865.解题帮快速破题规范解答大题规范6概率与统计考情综述第102页
概率与统计解答题,每年必考,难度中等.该类问题以真实情境为载体,注重考查学生的应用意识、阅读理解能力以及数据分析、数学建模和数学运算素养,充分体现了概率与统计的工具性和综合性.概率问题的核心是概率计算及离散型随机变量的分布列及其期望求解,其中事件的互斥、对立、相互独立是概率计算的核心,条件概率也成为了高考新热点,排列组合是进行概率计算的工具;统计问题的核心是样本数据的获得及分析方法,重点是统计图表的应用,样本的数字特征、一元线性回归模型及独立性检验.具体解题时,需要先过“审题关”,再过“公式关”,最后过“运用关”,否则,极易出现错误,导致“会而不对”.示例[2022新高考卷Ⅰ改编,12分]一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:单位:人不够良好良好病例组4060对照组1090(1)依据小概率值α=0.01的独立性检验,分析患该疾病群体与未患该疾病群体的卫生习惯是否有差异.[思维导引]给什么得什么由所给数据,得出公式所需数据,根据公式求χ2的值,与临界值表对比得结论.[规范答题]零假设为H0:患该疾病群体与未患该疾病群体的卫生习惯无差异.根据列联表中的数据,经计算得到χ2=200×40×90−60×10250×150×100×100=24>6.635=x0.01,(3分)得分点1:正确求出χ2并与临界值表比较得3分根据小概率值α=0.01的独立性检验,推断H0不成立,即认为患该疾病群体与未患该疾病群体的卫生习惯有差异.(4分)得分点2:正确得出结论得1分(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”,PB|APB|A与PB|APB|A的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(i)证明:R=PA|BPA|B⋅PA|BPA|B;[思维导引]第102页
求什么想什么要证明R=PA|BPA|B⋅PA|BPA|B,观察式子中都是条件概率,将等式左右两边分别利用条件概率化简即可.[规范答题]R=PB|APB|APB|APB|A=PB|A⋅PB|APB|A⋅PB|A=PABPA⋅PABPAPABPA⋅PABPA=PAB⋅PABPAB⋅PAB,(6分)得分点3:正确表示出R并化简得2分PA|B⋅PA|BPA|B⋅PA|B=PABPB⋅PABPBPABPB⋅PABPB=PAB⋅PABPAB⋅PAB.故R=PA|BPA|B⋅PA|BPA|B.(8分)得分点4:正确表示出PA|B⋅PA|BPA|B⋅PA|B并化简得证得2分(ii)利用该调查数据,给出PA|B,PA|B的估计值,并利用i的结果给出R的估计值.附:χ2=nad−bc2a+bc+da+cb+d,α0.0500.0100.001xα3.8416.63510.828.[思维导引]求什么想什么要求PA|B,PA|B的估计值,结合题中数据即可求得.要求R的估计值,由(i)的结果可知,只要求出PA|B,PA|B即可.[规范答题]由调查数据可知PA|B=40100=25,PA|B=10100=110,(10分)得分点5:正确求出PA|B,PA|B得2分且PA|B=1−PA|B=35,PA|B=1−PA|B=910,(11分)得分点6:正确求出PA|B,PA|B得1分所以R=2535×910110=6.(12分)得分点7:正确求出R的估计值得1分感悟升华答题策略1.解答概率与统计问题重在“辨”——辨析、辨型第102页
2.概率与统计解答题的解题策略(1)准确弄清问题所涉及的事件有什么特点,事件之间有什么关系,如互斥、对立、相互独立等;(2)厘清事件以什么形式发生,如同时发生、至少有几个发生、至多有几个发生、恰有几个发生等;(3)明确抽取方式,如放回还是不放回、抽取有无顺序等;(4)准确选择排列组合的方法来计算基本事件发生数和事件总数,或根据概率计算公式和性质来计算事件的概率;(5)确定随机变量取值并求其对应的概率,写出分布列后再求期望与方差;(6)会套用求b、χ2等的公式求值,再进一步分析.提分策略1.得步骤分:抓住得分点.如在第(1)问中,正确求出χ2后要与临界值做比较才能得出结论.2.得关键分:必不可少的关键过程必须叙述清楚,没写就没有分.如在第(2)问(i)中,条件概率公式的变形过程要书写清楚.3.得计算分:计算准确无误是得满分的根本保证.如若写对计算表达式,但计算结果错误,则扣1分.第102页
版权提示
- 温馨提示:
- 1.
部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
- 2.
本文档由用户上传,版权归属用户,莲山负责整理代发布。如果您对本文档版权有争议请及时联系客服。
- 3.
下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
- 4.
下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服vx:lianshan857处理。客服热线:13123380146(工作日9:00-18:00)