14级上海建桥学院期末统计学复习资料

作者: 金福彩票浏览次数: 日期:2019-08-14 17:28

  14级上海建桥学院期末统计学复习资料_院校资料_高等教育_教育专区。第1章 (考填空)1.统计学(statistics)是收集、处理、分析、解释数据并从数据中 得出结论的科学。 2.数 据 分 析 所 用 的 方 法 可 分 为 描 述 统 计 方 法 和 推 断 统

  第1章 (考填空)1.统计学(statistics)是收集、处理、分析、解释数据并从数据中 得出结论的科学。 2.数 据 分 析 所 用 的 方 法 可 分 为 描 述 统 计 方 法 和 推 断 统 计 方 法 。 描 述 统 计 (descriptive statistics)(图表描述)研究的是数据收集、处理、汇总、图 表描述、概括与分析等统计方法。推断统计(inferential statistics)(参数 估计和假设检验)是研究如何利用样本数据来推断总体特征的统计方法。 3.下面将给出统计在工商管理中的一些应用。1)企业发展战略 2)产品质量管 理 3)市场研究 4)财务分析 5)经济预测 6)人力资源管理 4.按照所采用的计量尺度不同, 可以将统计数据分为分类数据、顺序数据和数值 型数据。 5.分类数据(categorical data)是只能归于某一类别的非数字型数据 6.顺序数据(rank data)是只能归于某一有序类别的非数字型数据 7.数值型数据(metric data)是按数字尺度测量的观察值 8.分类数据和顺序数据可统称为定性数据或品质数据(qualitative data);数 值型数据可称为定量数据或数量数据(quantitative data)。 9.按统计数据的收集方法,可以分为观测数据(observational data)和实验数 据(experimental data)。 10.按时间状况,将统计数据分为截面数据和时间序列数据。 11.截面数据是在相同或近似相同的时间点上收集的数据。 12.时间序列数据是在不同时间收集到的数据 13.总体是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体 组成。 14.总体分为有限总体和无限总体 15.样本是从总体中抽取的一部分元素的集合 16.参数是用来描述总体特征的概括性数字度量 17.统计量是用来描述样本特征的概括性数字度量 18.样本平均数:?x 总体平均数:? 样本标准差:s 总体标准差:σ 样本比例:p 总体比例:π 19.变量:分类变量、顺序变量、数值型变量(离散型变量、连续型变量) 20.变量:经验变量和理论变量 第2章 1.数据来源:间接来源和直接来源 2.收集二手资料须注意什么内容: (1)资料是谁搜集的? (2)为什么目的而搜集? (3)数据是怎样搜集的? (4)什么时候搜集的? 3.二手数据具有搜集方便、数据采集快、采集成本低等优点 4.概率抽样(成本高、对统计技术含量高、对估计精度有要求):也称随机抽样, 是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 5.简单随机抽样就是从包括总体 N 个单位的抽样框中随机地、一个个地抽取 n 个单位作为样本,每个单位的入样概率是相等的。 6.分层抽样是将抽样单位按某种特征或某种规则划分为不同的层, 然后从不同的 层中独立、随机地抽取样本。 7.将总体中若干个单位合并为组,这样的组成为群。抽样时直接抽取群,然后对 中选群中的所有单位全部实施调查,这样的抽样方法称为整群抽样。 8.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽 取一个单位作为初始单位, 然后按事先规定好的规则确定其他样本单位,这种抽 样方法称为系统抽样。 9.采用类似整群抽样的方法,首先抽取群,但并不调查群内的所有单位,而是再 进一步抽样,从选中的群中抽取出若干个单位进行调查。 10.非概率抽样(操作简单、时效快、成本低、对技术要求不是很高):(1)方 便抽样 (2)判断抽样 (3)自愿样本 (4)滚雪球抽样 (5)配额抽样 11.概率抽样与非概率抽样的比较: 非概率抽样不是依据随机原则抽选样本,样本统计量的分布不是确切的,因而无 法使用样本的结果对总体相应的参数进行推断。 概率抽样是依据随机原则抽选样本,这是样本统计量的理论分布是存在的 12. 13.实验组是指随机抽选的实验对象的子集,而在对照组中,每个单位不接收实 验组成员所接受的某种特别的处理。 14.抽样误差是由抽样的随机性引起的样本结果与总体线.非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引 起的样本观察结果与总体线.概率抽样不可避免,非概率抽样可以避免。 第3章 1.数据的预处理是在对数据分类或分组之前所做的必要处理, 内容包括数据的审 核、筛选、排序等。 2.完整性审核主要是检查应调查的单位或个体是否有遗漏, 所有的调查项目是否 填写齐全等 3.准确性审核主要是检查数据是否有错误,是否存在异常值等。 4.二手数据应着重审核数据的适用性和时效性 5.数据筛选(选择个案)是根据需要找出符合特定条件的某类数据 6.数据排序(升序和降序、寻找数据的基本特征) 7.对于分类数据,如果是字母型数据,排序则有升序、降序之分,单习惯上升序 用的更多(排序可借助计算机完成) 如果是汉字型数据,按汉字的首位拼音字母排列,也可按姓氏笔画排序,多用降 序 8.对于数值型数据,排序只有两种,即递增和递减 9.数据透视表按分析要求进行汇总和作图,即按需要汇总 10.分类数据的整理与图示 频数与频数分布:频数是落在某一特定类别或组中的数据个数 11.由两个或两个以上变量交叉分类的频数分布表也称为列联表。二维的列联表 (两个变量交叉分类)也称交叉表 12.比例也称构成比,它是一个样本(或总体)中各个部分的数据与全部数据之 比,通常用于反映样本(或总体)的构成或结构。 13.比率是样本(或总体)中不同类别数据之间的比值 14.分类数据的图示:条形图、帕累托图、饼图、环形图 15.饼图对于研究结构性问题十分有用 16.每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此 环形图可显示多个样本各部分所占的相应比例,从而有利于对构成的比较研究。 用于展示分类数据和顺序数据。、 17.累积频率是将各有序类别或组的频数逐级累加起来得到的频数 18.累积频率或累积百分比是将各个有序类别或组的百分比逐级累加起来,它也 有向上累积和向下累积两种方法 19.数据分组的主要目的是观察数据的分布特征 20.单变量值分组和组距分两种。单变量值分组是把没一个变量值作为一组 21.组距是一个组的上限与下限的差 22.组中值是每一组中下限值与上限值中间的值 组中值=(下限值+上限值)/2 23.直方图与条形图不同。(1)条形图是用条形的长度(横置时)表示各类别频 数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多 少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度 与其宽度均有意义。 (2)由于分组数据具有连续性,直方图的各矩形通常是连续 排列,而条形图则是分开排列。(3)条形图主要用于展示分类数据,而直方图 则主要用于展示数值型数据。 24.与直方图相比, 茎叶图既能给出数据的分布状况,又能给出每一个原始数值, 即保留了原始数据的信息。 25.箱线图是由一组数据的最大值、最小值、中位数、两个四分位数这五个特征 值绘制而成的 26. 27.时间序列数据:线.多变量数据的图示:(1)散点图 (2)气泡图 (3)雷达图 29.表头一般应包括表号、总标题和表中数据的单位等内容。总标题应简明确切 的概括出统计表的内容,一般需要说明统计数据的时间(When)、地点(Where) 以及何种数据(What),即标题内容应满足 3W 要求。 第4章 1.集中趋势是指一组数据向某一中心值靠拢的程度, 它反映了一组数据中心点的 位置所在。低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,不 成立。 2.众数可以有 0 个、1 个、多个 3.中位数位置=(n+1)/2 4. 5. 6. 7.几何平均数主要用于计算现象的平均增长率 8. 9. 10. 11.组数据的最大值与最小值之差称为极差 12. 13. 14. 15.变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或 z 分数。 16.标准分数具有平均数为 0、标准差为 1 的特性 17.经验法则: 当一组数据对称分布时,经验法则表明: 约有 68%的数据在平均数±1 个标准差的范围之内 约有 95%的数据在平均数±2 个标准差的范围之内 约有 99%的数据在平均数±3 个标准差的范围之内 18.在±3 个标准差之外的数据,在统计上称为离群点 19.至少有(1-1/k?)的数据落在±k 个标准差之内。 20.离散系数主要是用于比较不同样本数据的离散程度。离散系数大,说明数据 的离散程度也大;离散系数小,说明数据的离散程度也小。 21.如果一组数据的分布是对称的,则偏态系数等于 0 22.若偏态系数大于 1 或小于-1,称为高度偏态分布 23.当 K0 时为尖峰分布;当 K0 时为扁平分布 24. 25.4.5 简述众数、中位数和平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响。其缺点是具有不唯一性,一组 数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数只有在 数据量较多时才有意义,当数据量较少时,不易使用众数。众数主要适合作为分 类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受数据极端值影响。当一组数据的分 布偏斜程度较大时, 使用中位数也许是一个好的选择。中位数主要适合作为顺序 数据的集中趋势测度值。 平均是是针对数值型数据计算的,而且利用了全部数据信息,它是实际应用最广 泛的集中趋势测度值。当数据呈对称分布或接近对称分布时,3 个代表值相等或 接近相等, 这时则应选择平均数作为集中趋势的代表值。但平均数的主要缺点是 易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。因此,当 数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数或众数,这时它 们的代表性比平均数好。 26.4.7 标准分数有哪些用途? 标准分数给出了一组数据中各数值的相对位置 标准分数具有平均数为 0、标准差为 1 的特性 27.4.8 为什么要计算离散系数? 离散系数主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离 散程度也大;离散系数小,说明数据的离散程度也小。 第5章 1.在同一组条件下, 对某事物或现象所进行的观察或实验叫做试验,把观察或试 验的结果叫做事件。 2. 3.(1)对任一随机事件 A,有 0≦P(A)≦1 非负性 (2)必然事件的概率为 1,而不可能事件的概率为 0,即 P(Ω)=1 P(Φ)=0 (3)若 A 与 B 互斥,则 P(A∪B)=P(A)+P(B) 可列可加性 4. 5. 6. (考简答题)7.互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一 定是互斥的。不互斥事件可能是独立的,也可能是不独立的。 8.5.2 独立性与互斥性有什么关系? 互斥事件一定是相互依赖(不独立)的,但相互依赖的事件不一定是互斥的。不 互斥事件可能是独立的,也可能是不独立的。 9.5.2 某市有 50%的住户订日报,有 65%的住户订晚报,有 85%的住户至少订两种 报纸中的一种,求同时订这两种报纸的住户的百分比。 10.5.3 设 A 与 B 是两个随机事件,已知 A 与 B 至少有一个发生的概率是 1/3,A 发生 B 不发生的概率是 1/9,求 B 发生的概率。 11.5.4 设 A 与 B 是两个随机事件, 已知 P(A)=P(B)=1/3, (AB) P =1/6, 求P (?A?B) 。 12.5.5 有甲、乙两批种子,发芽率分别是 0.8 和 0.7.在两批种子中各随机取一 粒,试求: (1)两粒都发芽的概率 (2)至少有一粒发芽的概率 (3)恰有一粒发芽的概率 13.5.6 某厂产品的合格率为 96%,合格品中一级品率为 75%,,从产品中任取一 件为一级品的概率是多少? 14.5.7 某种品牌的电视机用到 5000 小时未坏的概率为 3/4,用到 10000 小时未 坏的概率为 1/2.现在有一台这种品牌的电视机已经用了 5000 小时未坏,它能用 到 10000 小时的概率是多少? P(A)=P(t5000)=3/4 P(B)=P(t10000)=1/2 显然,A 包含 B,因此,P(A∩B)=P(B) 已经用了 5000 小时未坏,它能用到 10000 小时的概率是 P(B∣A)=P(A∩B)/P(A)=(1/2)/(3/4)=2/3 15.5.16 一本书排版后一校时出现错误处数 X 服从正态分布 N (200,400) , 试求: (1)出现错误处数不超过 230 的概率 (2)出现错误处数在 190~210 之间的概率 (1)z=(230-200)/20=1.5, P(z≤1.5)=Φ(1.5)=0.9332 ∴出现错误数不超过 230 的概率为 93.32%。 (2) 第6章 1.?X 的期望值与总体均值相同,而方差则缩小为总体方差的 1/n。当 n 越来越大 时,?X 的散布程度越来越小,即用?X 估计 ? 越来越准确。 (考填空)2.中心极限定理:设从均值为 ?、方差为σ?(有限)的任意一个总 体中抽取样本量为 n 的样本, 当 n 充分大时,样本均值 X 的抽样分布近似服从均 值为 ?、方差为σ?/n 的正态分布。 第 7 章(计算大题多出于此) 1.利用样本提供的信息来推断总体的特征 2.参数估计就是用样本统计量去估计总体的参数 3.参数估计是推断统计的重要内容之一 4.区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通 常由样本统计量加减估计误差得到 (考简答)5.95%的置信水平 通俗地说,如果抽取 100 个样本来估计总体的均值,由 100 个样本所构造的 100 个区间中,约有 95%个区间包含总体均值,而另外 5 个区间则不包含总体均值。 (考判断)6.总体参数的真值是固定的、未知的,而用样本构造的区间则是不固 定的。 7. (考判断题) 8.用 95%的置信水平得到某班学生考试成绩的置信区间为 60~80 分, 我们不能说 60~80 分这个区间以 95%的概率包含全班学生平价考试成绩的真值, 或者表述为全班学生的平均考试成绩以 95%的概率落在 60~80 分之间,这类表述 是错误的。 (考填空)9.评价估计量的标准:无偏性、有效性、一致性 10.正态总体、方差已知,或非正态总体、大样本 (考计算)11. (考计算)12. 13.正态总体、方差未知、小样本 (考计算)14. 15. 16.估计总体均值时样本量的确定:令 E 代表所希望达到的估计误差,即 17.7.2 简述评价估计量好坏的标准 ①无偏性②有效性③一致性书 P156-157 18.7.4 解释 95%的置信区间 通俗地说,如果抽取 100 个样本来估计总体的均值,由 100 个样本所构造的 100 个区间中,约有 95%个区间包含总体均值,而另外 5 个区间则不包含总体均值。 19.7.1 从一个标准差为 5 的总体中采用重复抽样方法抽出一个样本量为 40 的样 本,样本均值为 25. (1)样本均值的抽样标准差 σx 等于多少? (2)在 95%的置信水平下,估计误差是多少? 20.7.2 某快餐店想要估计每位顾客午餐的平均花费金额,在为期 3 周的时间里 选取 49 名顾客组成了一个简单随机样本。 (1)假定总体标准差为 15 元,求样本均值的抽样标准差。 (2)在 95%的置信水平下,求估计误差。 (3)如果样本均值为 120 元,求总体均值 ? 的 95%的置信区间 21.7.3 从一个总体中随机抽取 n=100 的随机样本,得到?x=104560,假定总体标 准差为σ=85414,试构建总体均值 ? 的 95%的置信区间。 22.7.4 从总体中抽取一个 n=100 的简单随机样本,得到?x=81,s=12. (1)构建 ? 的 90%的置信区间 (2)构建 ? 的 95%的置信区间 (3)构建 ? 的 99%的置信区间 23.7.5 利用下面的信息,构建总体均值的置信区间 (1)?x=25,σ=3.5,n=60,置信水平为 95% (2)?x=119。6,s=23.89,n=75,置信水平为 98% (3)x=3.419,s=0.974,n=32,置信水平为 90% 24.7.6 利用下面的信息,构建总体均值的置信区间 (1)总体服从正态分布,且已知σ=500,n=15,?x=8900,置信水平为 95% (2)总体不服从正态分布,且已知σ=500,n=35,?x=8900,置信水平为 95% (3)总体不服从正态分布,σ未知,n=35,?x=8900,s=500,置信水平为 90% (4)总体不服从正态分布,σ未知,n=35,?x=8900,s=500,置信水平为 99% 第8章 1.参数估计和假设检验是统计推断的两个组成部分 2.H0:?=3190(克)这里 H0 表示原假设 3.如果原假设不成立,就要拒绝原假设,而需要在另一个假设中做出选择,这个 假设称为备择假设(替换假设) 4.原假设与备择假设互斥 5.第Ⅰ类错误称为α错误或弃真错误;第Ⅱ类错误称为β错误或取伪错误。不能 同时做到犯这两类错误的概率都很小。如果减小α错误,就会增大犯β错误的机 会;若减小β错误,就会增大犯α错误的机会。当然,使α和β同时变小的办法 也有,这就是增大样本量。 6.假设检验的一般流程如下: (1)提出原假设和备择假设。 (2)需要确定适当的检验统计量。 (3)规定显著性水平α (4)计算检验统计量的值 (5)进行统计决策 7. 8. 9. 10. 11.通常把α称为显著性水平 12.8.1 假设检验和参数估计有什么相同点和不同点? 他们都是利用样本对总体进行某种推断,但推断的角度不同。参数估计讨论的是 用样本统计量估计总体参数的方法,总体参数 ? 在估计前是未知的。而在假设检 验中, 则是先对 ? 的值提出一个假设,然后利用样本信息去检验这个假设是否成 立。 13.8.3 什么是假设检验中的两类错误? 7.第Ⅰ类错误称为α错误或弃真错误;第Ⅱ类错误称为β错误或取伪错误。不能 同时做到犯这两类错误的概率都很小。如果减小α错误,就会增大犯β错误的机 会;若减小β错误,就会增大犯α错误的机会。当然,使α和β同时变小的办法 也有,这就是增大样本量。 14.8.8 在单侧检验中原假设和备择假设的方向应该如何确定? 如果原假设不成立,就要拒绝原假设,而需要在另一个假设中做出选择,这个假 设称为备择假设(替换假设) 原假设与备择假设互斥,肯定原假设,意味着放弃备择假设;否定原假设,意味 着接受备择假设。 由于假设检验是围绕着对原假设是否成立而展开的,所以有些 文献也把备择假设称为替换假设,表明当原假设不成立时的替换。 一、单选题 20*1’=20’ 二、多选题 5*2’=10’ 三、判断题 10*1’=10’ 四、填空题 10*1’=10’ 五、简述题 4*5’=20’ 六、计算题 3*10’=30’ (PPT 选择后续整理)

金福彩票

所属类别: 企业动态

该资讯的关键词为: