【统计学】统计学专业术语-白红宇的个人博客

【统计学】统计学专业术语

发布日期：2021-09-18 21:55:52 浏览次数：3 分类：技术文章

本文共 10458 字，大约阅读时间需要 34 分钟。

绝对变化( absolute change):从参考值到新值的实际增加或减少:

绝对变化=新值一参考值

绝对差异( absolute difference):比较值和参考值之间的实际差异:

绝对差异=比较值-参考值

绝对误差( absolute error):测量值与真实值之间的差距:

绝对误差=測量值-真实值

意外事故率( accident rate):由于某种特殊原因的事故发生的次数,被表示为由于同样的原因而处于危险中的所有人的一个比率。例如,“每1000个人中的5个人”,这个意外事故率意味着由于这个特殊原因平均每1000个人有5个人发生事故。

准确度( accuracy):测量值接近真实值的程度。一个准确的测量值是十分接近真实值的

备择假设( alternative hypothesis)(H2):只有原假设被拒绝时才能被支持的声明。

方差分析( analysis of variance)( ANOVA):通过分析样本方差来检验三个或者更多总体均值是否相等的一种方法。

联合概率( and probability):事件A和事件B同时发生的概率。如何计算取决于两个事件是否独立。

先验方法( a priori method):见理论方法。

条形图( bar graph):一种由条形组成的图其中条形代表某种特殊分类的频数。条形的长度和频数成比例。

最佳拟合线( best-fit line):散点图中的一条线,它比其他可能的线更接近数据点(根据距离的标准统计测量),也叫作回归线。

偏好(bias):在统计研究中,研究设计和进行时的任何问题都倾向于支持某种结果。也叫特殊偏好或选择偏好。

双峰分布( bimodal distribution}:有两个峰值的分布。

分组( binning):将数据分组,每组包含一系列可能的数值。

盲法( blinding):使实验对象和/或实验者始终不知道谁是实验组,谁是对照组,包括双盲实验和单盲实验。

箱形图( boxplot):由五个数总结的图形。一个数线用作参照,从更小到更大的数值被装入箱中为中位数画一条贯穿整个箱子的线。两个“胡须分别伸出到低数值和高数值。也叫作箱线图。

个案对照研究( case-control study):类似实验的观察研究,因为样本很自然地被划分为两组(或更多组)。在研究时参与行动的参与者形成个案,类似于实验研究中的实验组。没有参与行动的参与者就是对照组,类似于实验研究中的对照组。

因果关系( causality):当一个变量是引起另个变量变化的原因时所呈现的关系。

人口普查( census):收集总体中每一个成员的数据。

中心极限定理( Central Limit Theorem):对于任何分布中的随机样本(样本容量都相同),随着样本容量的增加,样本均值的分布近似服从正态分布。

卡方统计量( chi-square statistic)(x2):用来决定在列联表(或双向表)中假设检验的统计显著性的数值。如果它小于临界值(取决于表格大小和期望的显著性水平),那么观测频数和期望频数之间的差别是不显著的。

整群抽样( cluster samp|ing):将总体分成很多组,在其中随机选择一些组,然后通过选择每组中的所有成员来获取样本。

判定系数( coefficient of determination)(R2):描述通过多元回归找出的最佳拟合方程的数值是如何拟合数据的。

比较值( compared value):在计算相对差异时与参考值进行比较的数值。

补集( complement):对于事件A,A不发生的所有结果表示为A。那么它的概率为:P(A)=1-P(A)

条件概率( conditional probability):给定个事件发生的概率,另一个事件发生的概率。记为P(B在A发生后)或者P(B|A)

置信区间( confidence interval):与置信水平相关的数值范围.即可能包含真实总体参

混杂（ confounding):当不能确定单个被调查的因素而将不同因素影响混合在一起时,描述统计结果就会发生混杂。

混杂因素( confounding factors):在统计研究中能够混杂在一起的任何因素或变量.也被称为混杂变量

居民消费价格指数( Consumer Price Index)CPI):为了衡量通货膨胀率的指数。它根据超过600品、服务和居民消费的样本,每月计算并公开一次。

列联表( contingency table):见双向表。

连续数据(ontinuous data):可以呈现出给定区间中任何数值的定量数据。

等高线地图( contour map):地图中以相同的数值用曲线(等高线)连接地理区域。

对照组( control group):在实验研究中没有被处理的主体所组成的组。

任意抽样( convenience sampling):随意选择个样本。

相关性( correlation):两个变量的统计关系也可见负相关、不相关和正相关。

相关系数( correlation coefficient)(r):对两变量之间相关度的测量。它的值总是处于-1-1之间(即-1≤r≤1)

累计频数( cumulative frequency):对于某类别数据,这个类别和之前所有类别中数值的数量总和

死亡率( death rate):由于某种特殊原因的死亡人数,被表示为所有由于同种原因处于危险中的人们的分数。例如,“每1000个人中5个人”的死上率意味着100人中有5个人死于这个特殊原因的平均值。

自由度( degrees of freedom)(对于分布):样本容量减1,即n-1

相关事件(dedependent events:两个事件,其中一个事件的结果会影响另一个事件的概率

离差( deviation):特定数值离数据集均值的距离。可以用来计算标准差。

离散数据( discrete data):呈现出某个特殊值而不是它们之间其他数值的定量数据(如整数0，1，2）

分布( distribution):变量呈现出所有可能值的方式。可以用图表来表示。

样本均值的分布( distribution of sample means):找出给定容量的所有可能样本中的均值(x)后得出的分布。

样本成数的分布( distribution of sample proportins):找出给定容量的所有可能样本中的成数(p)后得出的分布

点图( dotplot):类似于条形图,除了每-个数值都是由点来表示。

双盲实验( double- blind experiment):参与者和实验者都不知道谁属于实验组,谁属于对照组的实验。

或然概率( either/or probability):事件A或事件B发生的概率。如何计算取决于事件是重叠的还是非重叠的。

经验法( empirical method):见相对频数法。

事件( event):在慨率中,拥有同一性质的个或很多结果的集合。也可见结果。

期望频数( expected frequency):在双向表中,行变量和列变量相互独立时,给定小格中期望的频数。

期望值( expected value):某个随机变量结果的平均值。

实验研究( experiment):研究人员使用一种处理方法,然后观察其对主体影响的研究。

实验者效应( experimenter effect):当研究人员或实验者通过类似于表情、音调或态度等因素在某种程度上影响主体时,就会发生这一效应。

五数概括法( five-number summary):用最小值、下四分位数、中位数、上四分位数和最大值描述数据分布的离散程度。

频数( frequency):对于一个数据类型,数据落人这一类型的次数。

频数表( frequency table):这种表格在一栏中列出所有数据类型,在另一栏中列出每个数据类型

赌徒谬误( gambler’ s fallacy):坏运气使一个的频数。人“预期”有好运气的错误想法。

地理数据( geographical data):代表不同地理位置的数据。

直方图( histogram):显示定量数据(在定距测量和定比测量中)分布的条形图。条形有自然的顺序,条形的宽度有特殊的意义。

假设( hypothesis):在统计学中,指有关总体参数的声明,比如总体成数p或总体均值r。也可见备择假设和原假设。

假设检验( hypothesis test):检验有关总体参数声明的标准过程。

独立事件( independent events):两个事件,其中一个的结果不受另一个概率的影响。

指数( index number):用于比较不同时间或不同地点测量值的数值。必须选择某一特定时间(或地点)的数值作为参考值(或基数).其他时间(或地点)的指数是:

数值 = 指数/参考值 X100

通货膨胀( inflation):物价和工资随着时间推移而不断增长。它的总体比率用CPI来度量。

定距测量( interval level of measurement):对定量数据的测量,其中的差异或者区间都是有意义的,但比率是没有意义的。这个水平上的数据有任意起点。

联合概率( joint probability):见联合概率(and probability）

大数定律( law of large numbers):概率论中的一个重要结论。应用的前提条件是事件A的概率是P(4),且重复实验结果是独立的。定律:在实验不变的条件下,实验次数越多,则频率越接近P(A)。它也被称为平均法则。

左偏分布(| eft -skewed distribution):数值更多分散在左侧的分布。

左侧检验( left-tailed test):检验总体参数是否在声明数值左侧(更小的数值)的假设检验。测量尺度( level of measurement):见定类测量、定比测量、定距测量和定序测量。

预期寿命( life expectancy):当前给定年龄的人期望生存的平均年数。它基于目前的健康和医疗统计量,但并不考虑医疗科学和公共健康未来的变化

折线图( line cha):将一系列点连接成线形成的定量数据的分布图表。每个点的水平位置与它所代表数据集的中心相对应,而垂直位置与数据集的频数相对应。

下四分位数( lower quartile):见低四分位数。

误差幅度( margin of error):观测的样本统计量和总体参数真实数值之间的最大可能差异。它的大小取决于期望的置信水平。

均值(mean):所有数值的总和除以数值个数的总和,即多数人平时所说的平均值。

中位数( median):在已选择的数据集中处于中间位置的数值(如果数值的个数是偶数,那么就是中间两个数值的平均值)

中位数组( median class):对于分组数据,指中位数落在的那个数据组。

综合分析( meta-analysis):研究人员将很多个体的研究(有关一个特定主题)看作一个联合组进行分析,目的是找出个体研究中不明显的趋势。

中四分位数( middle quartile):见中间四分位数。

众数(mode):在分布中出现次数最多的数据(或者数据组)

多维条形图( multiple bar graph):正规条形图的简单扩展,用两个或更多条形代表两个或更多数据的对比。

多维折线图( multiple line chart):正规折线图的简单扩展,用两个或更多折线代表两个或更多数据的对比。

多元回归( multiple regression):计算一个变量(如价格)和其他两个或更多变量(如重量和体积)之间最佳关系的最拟合等式的技术

负相关( negative correlation):两个变量呈现出朝两个不同方向变化的关系,即一个增加而另一个减少。

不相关( no correlation):两个变量之间缺乏任何明显的关系。

定类测量( nominal level of measurement对性数据的测量,包括名称、符号,或不能按顺序排名的种类。

非线性关系 nonlinear relationship：两个变量的关系不能用直线方程表示。

非重叠事件( non-overlapping events):一个事件的发生不影响另一个事件的发生。

正态分布( normal distribution):对称的钟型分布，且具有与均值、中位数、分布模式相关的单峰，它的波动用标准差描述。

原假设( null hypothesis)(H):和被检验的择假没们对的其体声明(比如总体参数的具体值

观察研究( observational study):在研究中研究人员观察或者测量样本成员的特征,但是并不打算影响或者改变这些特征。

对比高于(低于)法则[ of versus more than( ess than)rue]:用于对比的法则。如果比较比参考值高P∞%,那么比较值就是参考值的100+P%如果比较值比参考值低P%,那么比较值就是参考值的(100-P)

单侧检验( one-tailed test):见左侧检验和右检验。

定序测量( ordinal level of measurement);可以按照某种次序排列定性数据的测量方法。一般情况下,对这些数据进行计算是没有意义的。

结果( outcome):用概率表示的,观察或实验中大多数基本可能发生的结果。也可见事件。

异常值( outlier):在数据集中,比几乎所有其他数值都更大或更小的值。

重叠事件( overlapping events):两个可能同时发生的事件。

帕累托图( Pareto chart):一种按定类测量数据发生频率降序排列的条形图。

参与者( participants):研究主体(与客体相反)

参与偏差( participation bias):每当一项研究中的参与者是自愿的,就会发生的偏差。

同行评审( peer review):在研究报告发表之前,同领域的专家评估研究报告的过程。

百分位( percentiles):将一个数据分布分为100个部分,每一部分代表数值的1‰

统计图表( pIctograph):用图形进行润色的图表

饼图 pie chart):一个被分割的圆形。每一块代表一个特定类型的相对频数。每部分的大小和频数是成比例的。完整的饼图代表100%的全部相对频数

安慰剂( placebo):一些缺少处理的积极因素,但是却出现和处理一样效果的事物。

安慰剂效应( placebo effect):由于思者相信己正在接受有效的治疗、他们的状况有所好转。然而治疗事实上是无效的。

总体( population):所研究的人或事物的完整集合。

总体均值( population mean):总体的真实平均值,记为希腊字母o

总体参数( population parameters):用统计研究估计的总体的具体特征。

总体成数( population proportion):总体某种特征的真实比例,记为p

正相关( positive correlation):一种相关类型即两种变量往往一起增长(或降低)

实际显著性( practical significance):在统计调查中,结果与某种有意义的行为过程相联系的显著性。

精确度( precision}:测量中数值的详细程度。

概率( probability):对于一个事件,事件将要发生的可能性。被写作P(事件)的事件概率总是在0-1之间。概率0意味着事件是不可能发生的,而概率1意味着事件是确定的。也可见相对频数法、主观法和理论法

概率分布( probability distribution):与特定变量和关的所有可能事件的概率的完整分布。它可以由表格、图形或者公式表示出来。

尸值( P-value):在假设检验中假设原假设正确时,选择一个样本至少和观测样本一样极端的概率

定性数据( qualitative data):由描述品种或者非数据类型值构成的数据。

定量数据( quantitative data):由计数值或者测量值构成的数据。

低四分位数( quartile, lower):数据组下半部分的中位数,也称为第一四分位数。

中间四分位数( quartile,mdde):数据组的中位数,也叫作第二四分位数。

高四分位数( quartile, upper):数据组上半部分的中位数,也称为第三四分位数。

四分位数( quartiles):将样本数据分成四个部分,且每部分的数值大约为25%

随机误差( random errors):在测量过程中,随机事件或者内在的不可预测事件产生的误差

随机选择( randomization):确保实验的主体是随机分配到实验组或对照组的过程。用这种方法可以使每个主体有同样的机会被分配到任意一组。

极差( range):对于一个分布,最小值和最大值之间的差值。

极差经验法则( range rule of thumb):法则规定:对于没有异常值的数据集,标准差大约等于极差除以4。

稀有事件规则( rare event rule):规则声明,如果一个特殊事件和观察事件一样极端且概率很小,那么给定的假设(如原假设)很可能是不正确的。

定比测量( ratio level of measurement):对定量数据的测量,其中区间和比率都是有意义的。这种类型的数据都有真实的零点。

原始数据( raw data):从样本中收集的真实测量值或观测值。

参考值( reference value):用来进行比较的基础数值。

回归线( regression line):见最佳拟合线。

相对变化( relative change):与参考值进行比较的绝对变化的大小,表示为百分比:

相对变化=新值-参考值/参考值 *100%

相对差异( relative difference):与参考值进行比较的绝对差异的大小,表示为百分比:

相对差异=比较值-参考值/参考值x100%

相对误差( elative error):测量值不同于真实值的相对数量,表示为百分比:

相对误差=测量值-真实值/真实值x100%

频率( relative frequency):对于任何数据类型,类别的频数占总频数的分数或者百分数:

频率 = 类别频数/总频数

相对频数法( relative frequency method):观察或者測量感兴趣事件的相对颍数,根据这个观察和实验估计出概率的方法。

代表性样本( representative sample):一般来说,指成员的相关特征和总体特征完全一样的样本

右偏分布( right-skewed distribution):数值更多位于右侧的分布。

右侧检验( right-tailed test):检验总体参数是否在声明数值右侧(更大的数值)的假设检验。

舍入保留规则( rounding rule):在统计计算中,答案的精确度要比原始数据多一位小数。例如,

2,3,5的平均值是3333,3答案要舍人为33

样本(sample):总体的子集,且样本中的数据是可以实际获得的。

样本均值( sample mean):样本的平均值,记为x。

样本成数( sample proportion):在样本中具有某种特征的比例,记为P。

样本统计量( sample statistics):通过总结原始数据找出的样本特征。

抽样( sampling):从总体中选择样本的过程。

抽样分布( sampling distribution):来源于特定容量的所有可能样本中样本统计量的分布,如均值和比例。

抽样误差( sampling error):当随机样本被用于估计总体参数时而产生的误差,即样本结果和总体参数之间的差别。

抽样方法( sampling methods):见整群抽样任意抽样、简单随机抽样、分层抽样和系统抽样。

散点图( scatterplot):经常用于研究相关性的图形,其中每个点都对应两个变量的值。

选择性偏差( selection bias):毎当研究人员用不公平的方式选择样本时,就会发生偏差。也被称为选择性影响。

自主选择调查( self-selected survey):人们自己决定是否被包含在内的调查。也称为自愿回答调査

简单随机抽样( simple random sampling):用这种方式选择样本,同样容量的每个可能样本都有相同的机会被选择。

辛普森悖论( Simpson' s paradox):当整组的结果和子组结果不一致时出现的统计悖论;每当子组容量不相等时,悖论就会发生。

单盲实验( single-blind experiment):在实验研究中,参与者不知道他们是实验组成员还是对照组成员,但是实验者却知道。或者反过来,参与者知道,但实验者却不知道。

单峰分布( single- peaked distributio):仅有个众数的分布。

偏态( skewed):见左偏分布和右偏分布。

多层图( stack plot):条形图或折线图的一种,热两个或者更多的数据组垂直堆叠。

标准差( standard deviation:用于描述数据分的波动,计算公式如下

标谁差=根号下(离差)^2的总和/数值的总数-1

标准分数( standard score):(通常记为z)个特殊数值与分布的均值之间的差值,是标准差的倍数:

z = 标准分数 = 数值-均值/标准差

也叫作z分数。

统计显著性( statistical significance):测量个结果是有意义的概率。

统计显著性结果( statistically significant result):在统计研究中,不可能偶然发生的结果。最经常被引用的显著性水平是0.05水平(结果偶然发生的概率为5%或更低,也可说少于1/20)和0.01水平(结果偶然发生的概率为1%或更低,也可说少于1/100

统计量( statistics):描述或总结某种样本特征的数据。

统计学( statistics):收集、分析并解释数据的科学。

茎叶图( stemplot):这个图形看起来像是用独立的数据列代替条状并且侧置的直方图。

分层抽样( tratified sampling:在总体中区分子组或各层的抽样方法。首先要分好层,然后在每一层中取得一个随机样本。总体样本由所有各层的样本组成。

主观法( subjective method):根据经验或者直接估计概率的方法。

主体( subjects):在统计调査中,为样本选择的人或物。也可见参与者。

对称分布( symmetric distribution):左侧和右侧完全一样的分布。

系统误差( systematic err:使相同方式影响所有测量值的测量系统出现问题,从而导致的误差

系统抽样( systematic sampling):用一个简单系统来选择样本,比如对总体成员的每10个或每50个选择一次。

t分布( t distribution):类似于正态分布形状和对称性的分布。但是对于小样本来说,t分布和正态分布有很大的差异。它接近大样本的正态分布。

理论法( theoretical method):用理论或一系列假设估计概率的方法。假设所有结果都是同样可能发生的,通过用事件发生方式的数目除以可能结果的总数找出一个特殊事件发生的理论概率。这也被称为先验法。

时间序列图( time-series diagram):水平轴代表时间的直方图或折线图。

处理( treatment):在实验中被给定或应用于实验组成员的某种方式。

实验组( treatment group):在实验研究中接受被检验处理的主体所在的组。

双侧检验( two-tailed test):检验总体均值可能在声明数值两侧任一侧的假设检验。

列联表( two-way table):通过在横排列出一个变量的数值而在竖排列出另一个变量的数值,显示出两个变量之间关系的表格。

第|类错误( type I error):在假设检验中,当原假设H正确时,错误地拒绝了原假设。

第‖类错误( type lI error):在假设检验中,当原假设H错误时,却没有拒绝原假设。

均匀分布( uniform distribution):所有数值都有相同频数的分布。

单峰分布( unimodal distribution):见上页的

单峰分布( single-peaked distribution)

异常值( unusual values):在数据分布中不可能偶然出现的数值,比如离均值超过2个标准差的

上四分位数( upper quartile):见高四分位数。那些数值。

变量( variable):任何可以变化或取不同数值

目标变量( variables of interest):在统计研究中,研究者测量的分量或总量

离散程度( variation):数据从分布中心扩散开的范围。也可见五数概括法、极差、标准差。

加权平均值（weighted mean）：根据数值和对重要性的不同进行平均，每个数值分配一个权重，公式：

加权平均值 = （数值x权重）的总和/所有权重的总和

转载地址：https://blog.csdn.net/ChenVast/article/details/83270522 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：【统计学】统计学基础

下一篇：【深度学习】资源：最全的 Pytorch 资源大全

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章