excel正态分布分组数(正态分布组数怎么确定)

Exce表格网 2023-01-14 07:25 编辑:admin 269阅读

1. 正态分布组数怎么确定

正态分布标准差应该所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。

正态分布也称“常态分布”,又名高斯分布,最早由棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

2. 正态分布需要多少组数据

答:只要样本量大于30个,那么这些样本就似地服从正态分布。

3. 正态分布参数怎么确定

正态分布的分布函数:若随机变量X服从一个位置参数为μ、尺度参数为σσ的概率分布,且其概率密度函数为f(x)=12π−−√σe−(x−μ)22σ2。

4. 正态分布随机数组

一、制作直方图

将数据输入到EXCEL同一列中(这里放入A列);

计算“最大值”、“最小值”、“极差”、“分组数”、“分组组距”;

最大值:max(A:A);(=57.9)

最小值:min(A:A);(=50.6)

极差:最大值-最小值;(=7.3)

分组数:roundup(sqrt(count(A;A)),0);(=18);

分组组距:极差/分组数;(0.4)

数据分组:选一个比最小值小的一个恰当的值作为第一个组的起始坐标,然后依次加上“分组组距”,直到最后一个数据值比“最大值”大为止。

这里第一个组的起始坐标选为50.5,依次增加0.4,最后一组坐标为58.2,共计20组

统计频率:统计每个分组中所包含的数据的个数。

方法:采用FREQUENCY函数,以一列垂直数组返回一组数据的频率分布,

1、=frequency(原始数据的范围,直方图分组的数据源);

2、先选中将要统计直方图每个子组中数据数量的区域

3、再按“F2”健,进入到“编辑”状态

4、再同时按住“Ctrl”和“Shift”两个键,再按“回车Enter”键,最后三键同时松开.

制作直方图:选择频率数插入柱状图

修整柱形图:设置数据系列格式-调制无间距

二、制作正态分布图

获取正态分布概念密度:NORMDIST(作用:返回指定平均值和标准偏差的正态分布函数)

语法:

NORMDIST(x,mean,standard_dev,cumulative)

X 为需要计算其分布的数值;(以每一个分组边界值为“X”,依次往下拉)

Mean 分布的算术平均值;(Mean=AVERAGE(A:A)(数据算术平均))【这里为54.09】

Standard_dev 分布的标准偏差;(Standard_dev=STDEV.S(A:A)(数据的标准方差)【1.15】

Cumulative=false(概率密度函数)

Cumulative 为一逻辑值,指明函数的形式。如果 cumulative 为 TRUE,函数 NORMDIST 返回累计分布函数;如果为 FALSE,返回概率密度函数。

在直方图中增加正态分布曲线图:设置曲线图,选择次坐标轴。

觉得有用点个赞吧

5. 正态分布分组组距

偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短。

定义

偏态分布(skewness distribution)指频数分布的高峰位于一侧,尾部向另一侧延伸的分布。它分为正偏态和负偏态。偏态分布的资料有时取对数后可以转化为正态分布,反映偏态分布的集中趋势往往用中位数。

种类

偏态分布分为正偏态分布和负偏态分布。

正偏态分布是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M>Me>Mo时,即平均数大于中数,中数又大于众数,则数据的分布是属于正偏态分布。正偏态分布的特征是曲线的最高点偏向X轴的左边,位于左半部分的曲线比正态分布的曲线更陡,而右半部分的曲线比较平缓,并且其尾线比起左半部分的曲线更长,无限延伸直到接近X轴。

负偏态分布也是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M<Me<Mo时,即平均数小于中数,中数又小于众数,则数据的分布是属于负偏态分布。负偏态分布的特征是曲线的最高点偏向X轴的右边,位于右半部分的曲线比正态分布的曲线更陡,而左半部分的曲线比较平缓,并且其尾线比起右半部分的曲线更长,无限延伸直到接近X轴。

分组下的众数

当均值大于众数时称为正偏态;当均值小于众数时称为负偏态。

在组距分组情况下,众数的计算要考虑最大频数所在组相邻组的分布,其计算公式如下:

式中,L=最大频数所在组的下限值,d=最大频数所在组的组距,=最大频数所在组的频数与上组频数之差,=最大频数所在组的频数与下组频数之差。

在组距分组条件下,中位数的计算要考虑频数的全部排序,其计算公式如下:

式中,L=频数累积到50%()所在组的下限值,d=频数累积到50%所在组的组距,Sm=频数累积到50%所在组上组的累积频数,fm=频数累积到50%所在组的频数。

偏离系数

偏态分布(skew distribution),又称歪分布,指偏离对称的变量值的频数分布,偏离程度可用偏离系数(asymmetry coefficient)表示。其公式为:

式中代表偏度量数;式中X 为变量值,为样本均数,n为频数,“”为归并校正数,如计算过程中用组距时则须经校正,若用原始数据直接计算,可不必经“”的校正。若为0,表示对称;为正值时,曲线呈正偏态,此时曲线较长的尾部在右侧,所以也称为向右偏态;为负值时,曲线呈负偏态,此时曲线较长的尾部在左侧,所以也称为向左偏态。的绝对值越大,表示偏离越甚。检验样本偏度量数是否显著,需进行u检验。呈偏态分布的资料,有些可通过变量代换变为正态。

偏度系数反映数据分布偏移中心位置的程度,记为SK,则有

SK= (均值一中位数)/标准差.

在正态分布条件下,由于均值等于中位数,所以偏度系数等于0。当偏度系数大于0时,则为正偏态;当偏度系数小于0时,则为负偏态。

觉得有用点个赞

6. 如何求一组数据的正态分布

方法主要是两种:

第一,概率密度估计。用模式识别里常用的概率密度函数估计方法,估计出该组数据的概率密度函数p(x)。然后用这组数据的均值和方差作为参数,得出一个gauss(正态)概率密度函数f(x)。用绝对值偏差、方均根或其他标准比较f(x)和p(x),如果充分接近,则说明该组数据符合正态分布。(甚至可以利用假设检验的概念指定置信度水平等)。

第二,累积量。三阶和四阶累积量有其明确的意义,即所谓“偏度”和“峰度”。前者表明概率密度函数的对称性,如果值接近0则表示对称性好;后者表明概率密度函数(假定是单峰的)的尖锐程度,如果值接近0则表示接近正态分布(正态分布的所有二阶以上累积量值为0)。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
点击我更换图片