1. 怎么算最大似然估计量
均匀分布的矩估计量求法:
由于x在区间(0,θ)服从均匀分布,因此ex=θ/2
令ex=x,则θ=2x,即θ的矩估计为θ=2x
又因为似然函数为
l(x1,x2,…,xn;θ)=θ=1/θ/n/n/π
i=1
i(0<xi≤θ),其中i(0<xi≤θ)为示性函数。
要使得似然函数达到最大,首先一点是示性函数取值应该为1,其次是1θn应尽可能大。
由于1θn是θ的单调减函数,所以θ的取值应尽可能小,但示性函数决定了θ不能小于x(n)。
因此,θ的极大似然估计为θ=x(n)。
e(2x)=2n?(nθ2)=θ,即2x是θ的无偏估计。
e(x(n))=θ2≠x(n),即x(n)不是θ的无偏估计
2. 最大似然估计量什么时候取最大
似然比检验的思想是:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。也就是说似然比检验的实质是在比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。似然比定义为有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。以似然比为基础可以构造一个服从卡方分布统计量。
3. 最大似然估计例题
.求极大似然函数估计值的一般步骤:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数 ;
(4) 解似然方程 所谓矩估计法,就是利用样本矩来估计总体中相应的参数.最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差.
4. 最大似然估计量是统计量吗
“统计”一词,英语为statistics,用作复数名词时,意思是统计资料,作单数名词时,指的是统计学。一般来说,统计这个词包括三个含义:统计工作、统计资料和统计学。这三者之间存在着密切的联系,统计资料是统计工作的成果,统计学来源于统计工作。原始的统计工作即人们收集数据的原始形态已经有几千年的历史,而它作为一门科学,还是从17世纪开始的。英语中统计学家和统计员是同一个(statistician),但统计学并不是直接产生于统计工作的经验总结。每一门科学都有其建立、发展和客观条件,统计科学则是统计工作经验、社会经济理论、计量经济方法融合、提炼、发展而来的一种边缘性学科。 1,关于单词statistics 起源于国情调查,最早意为国情学。 十 七世纪,在英格兰人们对“政治算术”感兴趣。1662年,John Graunt发表了他第一本也是唯一一本手稿,《natural and politics observations upon the bills of mortality》, 分析了生男孩和女孩的比例,发展了现在保险公司所用的那种类型的死亡率表。 英文的statistics大约在十八世纪中叶由德国学者 Gottfried Achenwall所创造,是由状态status和德文的政治算术联合推导得出的,第一次由John Sinclair所使用,即1797年出现在Encyclopaedia Britannica。(早期还有一个单词publicitics和statistics竞争“统计”这一含义,如果得胜,现在就开始流行 publicitical learning了)。 2,关于高斯分布或正态分布 1733年,德-莫佛(De Moivre)在给友人分发的一篇文章中给出了正态曲线(这一历史开始被人们忽略) 1783年,拉普拉斯建议正态曲线方程适合于表示误差分布的概率。 1809年,高斯发表了他的关于天体运行论的伟大著作,在这一著作的第二卷第三节中,他导出正态曲线适宜于表示误差规律,同时承认拉普拉斯较早的推导。 正态分布在十九世纪前叶因高斯的工作而加以推广,所以通常称作高斯分布。卡尔-皮尔逊指出德-莫佛是正态曲线的创始人,第一个称它为正态分布,但人们仍习惯称之高斯分布。 3,关于最小二乘法 1805年,Legendre提出最小二乘法,Gauss声称自己在1794年用过,并在1809年基于误差的高斯分布假设,给出了严格推导。 4,其它 在十九世纪中叶,三个不同领域产生的重要发展都是基于随机性是自然界固有的这个前提上的。 阿道夫·凯特莱特(A. Quetlet,1869)利用概率性的概念来描述社会学和生物学现象(正态曲线从观察误差推广到各种数据) 孟德尔(G.Mendel,1870)通过简单的随机性结构公式化了他的遗传法则 玻尔兹曼(Boltzmann,1866)对理论物理中最重要的基本命题之一的热力学第二定律给出了一个统计学的解释。 1859 年,达尔文发表了《物种起源》,达尔文的工作对他的表兄弟高尔登爵士有深远影响,高尔登比达尔文更有数学素养,他开始利用概率工具分析生物现象,对生物计 量学的基础做出了重要贡献(可以称他为生物信息学之父吧),高尔登爵士是第一个使用相关和回归这两个重要概念的人,他还是中位数和百分位数这种概念的创始 人。 受高尔登工作影响,在伦敦的大学学院工作的卡尔-皮尔逊开始把数学和概率论应用于达尔文进化论,从而开创了现代统计时代,赢得了统计之父的称号,1901年Biometrika第一期出版(卡-皮尔逊是创始人之一)。 5,关于总体和样本 在早期文献中可找到由某个总体中抽样的明确例子,然而从总体中只能取得样本的认识常常是缺乏的。 ----K.皮尔逊时代 到十九世纪末,对样本和总体的区别已普遍知道,然而这种区分并不一定总被坚持。----1910年Yule在自己的教科书中指出。 在 1900年代的早期,区分变的更清楚,并在1922年被Fisher特别强调。----Fisher在1922年发表的一篇重要论文中《On the mathematical foundation of theoretical statistics》,说明了总体和样本的联系和区别,以及其他概念,奠定了“理论统计学”的基础。 6,期望、标准差和方差 期望是一个比概率更原始的概念,在十七世纪帕斯卡和费马时代,期望概念已被公认了。K.皮尔逊最早定义了标准差的概念。1918年,Fisher引入方差的概念。 力学中的矩和统计学中的中数两者之间的相似性已被概率领域的早期工作者注意到,而K.皮尔逊在1893年第一次在统计意义下使用“矩”。 7,卡方统计量 卡方统计量,是卡-皮尔逊提出用于检验已知数据是否来自某一特定的随机模型,或已知数据是否与已给定的假设一致。卡方检验被誉为自1900年以来在科学技术所有分支中20个尖端发明之一,甚至敌人Fisher都对此有极高评价。 8,矩估计与最大似然 卡-皮尔逊提出了使用矩来估计参数的方法。 Fisher则在1912年到1922年间提出了最大似然估计方法,基于直觉,提出了估计的一致性、有效性和充分性的概念。 9,概率的公理化 1933年,前苏联数学家柯尔莫格洛夫(Kolmogorov)发表了《概率论的基本概念》,奠定了概率论的严格数学基础。 10,贝叶斯定理 贝叶斯对统计学几乎没有什么贡献,然而贝叶斯的一篇文章成为贝叶斯学派统计学的思想模式的焦点,这一篇文章发表于1763年,由贝叶斯的朋友、著名人寿保险原理的开拓者Richard Price在贝叶斯死后提出来的----贝叶斯定理。 概 率思想的两种方法,(1)作为一个物理系统内在的一种物理特性,(2)对某一陈述相信程度的度量。 在1950年代后期止,多数统计学家采取第一种观点,即概率的相对频数解释,这一时期贝叶斯定理仅应用在概率能在频数框架内解释的场合。贝叶斯统计学派著 作的一个浪潮始于1960年。自此,赞成和反对贝叶斯学派统计的两方以皮尔逊和费舍尔所特有的激情和狂怒进行申辩和争辩。 在1960年以前,几乎所有的统计书刊都避免使用贝叶斯学派方法,Fisher坚持避免使用贝叶斯定理,并在他的最后一本书中再一次坚决的拒绝了它。卡尔-皮尔逊偶然使用,总的来说是避免的。奈曼和E.S.皮尔逊在他们有关假设检验的文章中坚决反对使用。
5. 最大似然估计量和极大似然估计量
二项分布就是n个两点分布,两点分布的概率是P=p^x*(1-p)^(1-x),所以似然函数 L=p^∑Xi*(1-p)^(n-∑Xi),构造 lnL=∑Xi*lnp+(n-∑Xi) ln(1-p),对p进行求导,令其结果等于0,就是∑Xi/p+(n-∑Xi)/(1-p)=0,通分后令分母等于0,可以得到p=(∑Xi)/n
求极大似然函数估计值的一般步骤:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数 ;
(4) 解似然方程 。
扩展资料:
极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。
6. 最大似然估计量和极大似然估计量一样吗
解:由题设条件,P(xi=i)=(p^i)(1-p)^(1-i),i=0,1。 ①矩估计。
E(x)=∑kp(xi=i)=0*(1-p)+1*p=p,而样本均值x'=(1/n)∑xi,∴E(x)=x',p=(1/n)∑xi。
②似然估计。
∵xi=i,∴作似然函数L(xi,p)=∏(p^xi)(1-p)^(1-xi)=[p^(∑xi)](1-p)^(n-∑xi),求∂ln[L(xi,p)]/∂p、并令其值为0, ∴(∑xi)/p-(n-∑xi)/(1-p)=0,∴p=(1/n)∑xi。 供参考。
7. 最大似然估计量与极大似然估计量
正态分布有两个参数:总体均值及总体方差 总体均值的极大似然估计为样本均值x0=1/nΣXi 总体方差的极大似然估计为s1^2=1/nΣ(xi-x0)^2,其中x0为上述的样本均值 因此这个估计与样本方差不同,样本方差是s^2=1/(n-1)Σ(xi-x0)^2,而样本方差是总体方差的无偏估计,极大似然估计s1不是无偏估计
8. 最大似然估计量怎么求
最大似然估计量是样本的函数,表达式中的Xi均是大写的。若把样本的观测值x1,..., xn带入到统计量的表达式中,得出的就是最大似然估计值。 前者是个随机变量,后者是一个确定的值,没有随机性。
9. 最大似然估计量是什么意思
极大似然估计
贝叶斯决策
首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:
其中:p(w):为先验概率,表示每种类别分布的概率,P(X|W):类条件概率,表示在某种类别前提下,某事发生的概率;而P(W|X)为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。
我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?
从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。
设:
由已知可得:
男性和女性穿凉鞋相互独立,所以
(若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要)。
由贝叶斯公式算出:
问题引出
但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率
和类条件概率(各类的总体分布)
都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。
先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。
类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度
转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。
重要前提
上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。
重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件),且有充分的训练样本。
极大似然估计
极大似然估计的原理,用一张图片来说明,如下图所示:
总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
由于样本集中的样本都是独立同分布,可以只考虑一类样本集D,来估计参数向量θ。记已知的样本集为:
似然函数(linkehood function):联合概率密度函数
称为相对于
的θ的似然函数。
如果
是参数空间中能使似然函数
最大的θ值,则
应该是“最可能”的参数值,那么
就是θ的极大似然估计量。它是样本集的函数,记作:
求解极大似然函数
ML估计:求使得出现该组样本的概率最大的θ值。
实际中为了便于分析,定义了对数似然函数:
1. 未知参数只有一个(θ为标量)
在似然函数满足连续、可微的正则条件下,极大似然估计量是下面微分方程的解:
2.未知参数有多个(θ为向量)
则θ可表示为具有S个分量的未知向量:
记梯度算子:
若似然函数满足连续可导的条件,则最大似然估计量就是如下方程的解。
方程的解只是一个估计值,只有在样本数趋于无限多的时候,它才会接近于真实值。
极大似然估计的例子
例1:设样本服从正态分布
,则似然函数为:
它的对数:
求导,得方程组:
联合解得:
似然方程有唯一解
:,而且它一定是最大值点,这是因为当
或
时,非负函数
。于是U和
的极大似然估计为
。
例2:设样本服从均匀分布[a, b]。则X的概率密度函数:
对样本
:
很显然,L(a,b)作为a和b的二元函数是不连续的,这时不能用导数来求解。而必须从极大似然估计的定义出发,求L(a,b)的最大值,为使L(a,b)达到最大,b-a应该尽可能地小,但b又不能小于
,否则,L(a,b)=0。类似地a不能大过
,因此,a和b的极大似然估计:
总结
求最大似然估计量
的一般步骤:
(1)写出似然函数;
(2)对似然函数取对数,并整理;
(3)求导数;
(4)解似然方程。
最大似然估计的特点:
1.比其他估计方法更加简单;
2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;
3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
用python实现简单的极大似然估计,正正态分布为例:
代码:
import numpy as np
import matplotlib.pyplot as plt
fig = plt.figure()
mu = 30 # mean of distribution
sigma = 2 # standard deviation of distribution
x = mu + sigma * np.random.randn(10000)
def mle(x):
'''
极大似然估计
:param x:
:return:
'''
u = np.mean(x)
return u, np.sqrt(np.dot(x - u, (x - u).T) / x.shape[0])
print(mle(x))
num_bins = 100
plt.hist(x, num_bins)
plt.show()
10. 如何求最大似然估计量
二项分布就是n个两点分布,两点分布的概率是P=p^x*(1-p)^(1-x),所以似然函数 L=p^∑Xi*(1-p)^(n-∑Xi),构造 lnL=∑Xi*lnp+(n-∑Xi) ln(1-p),对p进行求导,令其结果等于0,就是∑Xi/p+(n-∑Xi)/(1-p)=0,通分后令分母等于0,可以得到p=(∑Xi)/n
求极大似然函数估计值的一般步骤:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数 ;
(4) 解似然方程 。
11. 什么叫最大似然估计
通俗的说吧。比如说一个骰子投出10次,点数都是6。你觉得哪种可能性大?
1、骰子是均匀的。
2、骰子不均匀,点数1的那头灌了铅
这时我们更愿意接受第二种估计,原因是在第二种假设下,“更有可能”出现10个6点。
可以说,这就是最大似然估计。
如果我们面临的是从多个可选答案中挑选正确答案的决策任务,那么“使得样本出现的可能性最大”可以作为决策的准则。这种估计方法就是最大似然法。
- 相关评论
- 我要评论
-