统计基础知识

时间:2026-01-03 02:03:54编辑:流行君

统计学的基本概念

总的来说它有总体、样本、标志、产量、统计指标、指标体系六大基本概念。

一、总体

  统计学重要的概念之一,总体它是指统计研究的客观对象全体,它是由所有具有某种共同属性的事物所组成的集合体。它有三大特征,分别是大量性、同质性和差异性,也就是说必须有足够多的个体所组成,这些个体之间具有某种共同的属性,同时又存在许多的差异性。

(一)根据个体数量是否有限:分为有限总体与无限,有限总体是由有限个的个体所组成,例如全国企业总体,浙江省高校中心;无线总体就是有无限多的个体,例如宇宙中的星球中心,可无限重复的实验数据。

(二)按照它的存在形式不同:可以分为具体总体和抽象总体,具体总体是由具体的客观存在的个体组成,例如全国人口总体、某批产品总体等等;抽象总体是由假设的个体所组成的,如某类特定的消费者主体、某种条件下连续生产的产品总体等等。

(三)按照个体能否计数:就是可计数总体和不可计数总体,可计数总体指的是个体可以可计数并可以相加,如人口总体、同款同型号的产品总体;不可计数总体,指的是个体不可计数或者计数以后的结果不能相加,如超市的商品总体,它的计数结果是难以想象的。

(四)根据总体是否认为划定:分为自然总体和人为总体,自然总体它是由自然存在的个体所组成的,如人口总体、法人单位总体的;人为总体,它里面的个体通常由人来加以规定,实际上就是人为个体所组成的,如我们人口普查时候的小区。

二、样本

(一)它是从总体中随机抽取的一部分个体所组成的集合,我们有时候也称之为小总体。

它有两个术语平时可能会经常混淆,一个是样本容量、一个是样本个数。所谓样本容量是指样本当中包含的个体数;样本个数从一个总体当中抽取一个容量为n的样本,一共有多少种样本组合,也就是说最多可抽取的样本数。例如:采用不重复的抽样方法,从1234这5个数字构成的总体当中来抽取两个数字,组成一个样本,那么我们就说样本容量是2,而可以计算出来的样本个数是20。

(二)样本与总体的关系

1.总体是我们所要研究的对象,而样本则是所要观测的对象。

2.我们把样本理解为是总体的代表和缩影。

3.抽取样本的目的是来推断总体的。

4.随之考察角度的改变,总体和样本的角色是可以改变的。

三、标志

(一)、含义

它是用以描述或体现个体特征的名称。

(二)、分类

1.按照结果表现方式的不同分为:品质标志和数量标志。品质标志,它表明的是个体的属性特征,结果表现为定性数据,通常用文字来表现结果,如人的性别;数量标志,它表明个体的数量特征,表现为定量数据,例如人的身高,也就是说数量标志需要用数值来表现。2.按照表现结果是否相同分为:不变标志和可变标志。不变标志指所有个体的表现结果都一样,如一所高校学生的身份;可变标志,指的是这个标志它在不同个体上的结果是有差异的,是不完全一样的,如一所高校学生的身高。(不变标志就是同质性的要求,可变标志是差异性的要求)

3.按照表现个体特征的直接程度分为:直接标志和间接标志。直接标志,它是能够直接表明个体的属性特征或数量特征,如人口、性别、年龄,所以它既是品质标志又可以是数量标志;间接标志,它只能间接地来表明个体的数量特征,它只能是数量标志,它通过两个数量标志计算的结果,如企业的人均薪酬水平、人均产量等。

四、变量

(一)、含义

它是指可变的(数量)标志,现在我们越来越采用广义的变量即可变的标志与可变的指标都是变量(标志、指标、变量这三者都是通用的。)

(二)、分类

1.按照反映数据的计量尺度不同分为:定性变量和定量变量。定性变量是能够把结果表现为定性数据的变量;定量变量指的是能够把结果表现为定量数据的变量。

2.按其所受影响因素不同分为:确定性变量和随机变量。确定性变量指的是它的影响因素是可控的,如一个单位的工资总额取决于人数和人均工资水平这两个可控的因素;随机变量指的是这种现象的变化受各种不确定性的因素影响,如作物产量它就是一个随机变量。

3.按照数值变化是否连续分为:离散型变量和连续型变量。离散型变量通常指我们只能取整数,如人数、企业数;连续型变量指的是它的数值是连续不断的,任意两个数值之间还可以取很多个中间的数值,如身高、重量等。

五、统计指标

(一)

1.定义:反映总体综合数量特征的概念及其数值。

2.构成要素:指标名称、计算方法、时间界定、空间界定、数值、计量单位。

(二)分类

注:1.总量指标反映的是现象外在的规模数量特征,亦称为外延指标。

2.质量指标反映的是现象总体的内涵特征。

(三)统计指标和标志之间的关系

1.区别:标志是说明个体特征,而指标是说明统计总体数量特征。(大数据背景下,个体或总体和数值或文字可以理解为都是数据。)

标志的具体表现有的用数值,有的用文字表示;而指标都是用数值表示的。

2.联 系:标志是计算统计指标的依据;标志与指标之间存在变换关系。

六、指标体系

(一)统计指标体系它是反映统一总体多个方面数量特征的、一系列相互联系的统计指标所形成的体系。

(二)表现形式:

1.等式关系:指标体系内的相关指标可以用一个等式来表现,如一个国家的或地区的人口密度=人口总数/国土或领土面积。

2.补充关系(最为常见的表现形式):指统计指标体系内的不同指标可以从不同角度相互补充的来说明同一总体的不同的数量特征。

3.相关关系:指的是这个指标体系内部的指标之间具有某种内在关联性或者存在比较高的相关关系。这类指标体系可能是一个庞大的指标体系当中的一个分支体系。

4.原因、条件、结果关系:指的是指标体系内的指标有些作为原因或条件或结果。这四种表现形式有时候要共同配合使用。


统计学中的八个基本概念

统计学中的基本概念介绍如下:1.变异(variation):是社会和生物医学中的普遍现象。2.总体(population):根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体。3.样本(sample):从总体中随机抽取的部分研究对象。4.随机抽样(random sampling):为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。5.参数(parameter):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数。6.统计量(statistic):样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 s。 参数附近波动的随机变量 。7.频率(frequency):样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。8.概率(probability):随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。9.小概率事件:P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。10.随机误差 (random error):随机误差受测量精确度限制,重复测量获得的实际测量值往往并不能稳定在同一值,而是无方向性地围绕某一个数值左右波动,这种误差称为随机误差 。11.系统误差 (systematic error):也叫偏倚(bias) , 是测量仪器或人为因素等导致的实际测量值与真实值之差。12.准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。13.可靠度(reliabiliy):也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。14.相关系数(correlation coefficient):又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1 r 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。15.决定系数(coefficient of determination) :回归平方和与总平方和之比。取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。

上一篇:金秀贤非诚勿扰

下一篇:没有了