苹果ml开头的型号是什么机子,苹果mle开头是什么版本

  

  点击上方关注,All in AI中国   

  

  作者:Tirthajyoti Sarkar   

  

     

  

  如果问题涉及到最小二乘损失函数的数学基础,在机器学习面试中你会怎么回答?问题:“为什么在回归机器学习任务中使用误差平方?”回答:‘因为它把所有的误差(残差)都变成正数!’问题:“好吧,为什么不使用更简单的绝对值函数| x |使所有误差平方为正?”回答:‘啊哈,你想骗我。绝对值函数无处不在!问题:‘这对于数值算法并不重要。LASSO回归使用带有绝对值的项,可以进行处理。况且为什么不是x或者log(1 x)的4次方呢?平方误差有什么特别的?答:“嗯.贝叶斯分析.   

  

  请记住,对于机器学习中所有棘手的问题,如果你在你的论点中混合使用‘贝叶斯’这个词,你可以很快得到一个听起来很严肃的答案。   

  

  好吧,我开玩笑的。   

  

  但是,至少当我们试图通过贝叶斯论证找出与监督学习问题最可能的假设时,我们应该准备好争论流行的损失函数,比如最小二乘法和交叉熵从何而来。   

  

  继续阅读.   

  

  基础知识:贝叶斯定理和"最可能的假设"   

  

  贝叶斯定理可能是现代机器学习和人工智能系统中最具影响力的概率论特征。关于这个主题的超级直观的介绍,请参考Brandon Rohrer的这个精彩教程。我很担心这个等式。   

  

  https://brohrer.github.io/how_bayesian_inference_works.html   

  

     

  

  这基本上是告诉你在看到数据/证据(可能性)后更新你的信念(先验概率),并将更新后的信念度赋给后验概率这个术语。你可以从一个信念开始,但每个数据点都会加强或削弱这个信念,你总会更新假设。   

  

  视频加载.   

  

  现在让我们用不同的数据符号,也就是与数据科学相关的符号来重写贝叶斯定理。我们用D表示数据,H表示假设。这意味着,在给定数据的情况下,我们应用贝叶斯公式来尝试确定数据来自哪个假设。我们将定理改写为,   

  

     

  

  现在一般来说,我们有一个很大的(通常是无限的)假设空间,也就是有很多假设可供选择。贝叶斯推断的本质是我们要检查数据,使最有可能产生观测数据的一个假设的概率最大化。基本上我们想确定P(h|D)的argmax,也就是想知道哪个h,观测到的D最有可能。   

  

  快捷方法:最大似然   

  

  上面的方程看起来很简单,但实际操作中,计算非常棘手,因为对复杂概率分布函数求积分时的假设空间和复杂度都非常大。   

  

  但在寻求‘给定数据的最大似然假设’的过程中,我们可以进一步简化。   

  

  我们可以把这一项放在分母中,它不包含任何h是假设的项。我们可以把它想成一个规格化器,这样总概率和达到1。统一先验假设——这基本上放松了任何关于P(h)性质的假设,使之一致,即所有假设都是可能的。然后是常数1/|Vsd|,其中|Vsd|是版本空间的大小,即所有假设与训练数据一致的集合。然后,在确定最大可能假设时,实际上不成立。在这两个简化的假设之后,最大似然(ML)假设可以由下式给出:   

  

     

  

  这只意味着最有可能的假设是观测数据的条件概率(给定假设)达到最大。   

  

  拼图中的下一部分:数据中的噪音   

  

  通常,我们在Stats 101中学习简单线性回归时开始使用最小二乘误差,但这个简单的损失函数几乎完全存在于每一个有监督的机器学习算法中。即线性模型、样条、决策树或深度学习网络。   

  

  那么,它有什么特别之处呢?和贝叶斯推断有关系吗?   

  

  事实证明,最小二乘误差和贝叶斯推断之间的关键联系是通过假定的误差性质或残差。   

  

  测量/观察到的数据永远不会是无误差的,总有与数据相关的随机噪声,可以看作是感兴趣的信号。机器学习算法的任务是通过从噪声中分离信号来估计/近似可能已经产生数据的函数。   

  

  但是我们能说出这种噪音的本质吗?证明了噪声可以建模为随机变量。因此,我们可以把我们选择的概率分布与这个随机变量联系起来。   

  

  最小二乘优化的一个关键假设是残差的概率分布是高斯正态,我们可靠的老朋友。   

p>   

https://en.wikipedia.org/wiki/Normal_distribution

  

这意味着,监督学习训练数据集中的每个数据点(d)可以写为未知函数f(x)(学习算法试图对其进行近似)和从零均值(μ)和未知σ的正态分布得出的误差项的和。

  

  

从这个断言中,我们可以很容易地得出最大似然假设是最小化最小二乘误差的假设。

  

警告:从最大似然(ML)假设中正式推导出最小二乘优化准则,无法绕过某些数学运算。并且没有好的方法可以在Medium中键入数学。所以,必须粘贴两张图像来显示推导,如下所示。请跳过本节,我们将在下一节总结关键结论。

  

基于极大似然假设的最小二乘法推导

  

  

  

最后一个术语只是简单的最小二乘最小化。

  

那么,所有这些数学表明了什么?

  

它表明,从监督训练数据集的误差分布在高斯正态分布的假设开始,训练数据的最大似然假设是最小化最小二乘误差损失函数的假设。

  

关于学习算法的类型没有假设。这同样适用于从简单线性回归到深度神经网络的任何事物。

  

这就是贝叶斯推理的力量和统一性。

  

以下是线性回归拟合的典型场景。贝叶斯推理论证对这个模型进行了验证,并且使误差平方选择的可信度成为最佳损失函数。

  

  

常态的假设是否足够?

  

你可以质疑关于正态分布误差项的假设的有效性。但在大多数情况下,它都有效。这是从中心极限定理(CLT)得出的,因为误差或噪声从来不会由单个基础过程产生,而是从多个子过程的综合影响中产生。当大量随机子流程结合时,它们的平均值遵循正态分布(来自CLT)。因此,对于我们承担的大多数机器学习任务来说,假设这样的分布并不是一个延伸。

  

类似的论点是否适用于分类问题?

  

最小二乘损失函数用于回归任务。但是我们处理类和概率的分类问题呢,而不是任意实数?

  

令人惊讶的是,事实证明,类似的推导可以使用最大似然(ML)假设和类定义的简单选择来实现,

  

  

......这只是交叉熵损失函数。

  

因此,相同的贝叶斯推理产生交叉熵作为损失函数的首选选择,以获得分类问题中的最大似然假设。

  

总结与结论

  

我们可以通过以下几点来总结和扩展文章中的讨论和论点:

  

最大似然估计(MLE)是一种强大的技术,如果我们可以做出统一的先验假设,即在一开始时,所有假设都是同样可能的,那么就可以得出给定数据集的最可能的假设。如果我们可以假设机器学习任务中的每个数据点是真实函数和一些正态分布的随机噪声变量的总和,那么我们可以推导出最大可能假设是最小化平方损失函数的假设。这个结论与机器学习算法的本质无关。然而,另一个隐含的假设是数据点的相互独立性,这使我们能够将联合概率写成个体概率的简单乘积。这也强调了在建立机器学习模型之前消除训练样本之间共线性的重要性。最后,可以说最小二乘最小化是非常特殊的,因为它实际上与这个最著名的分布函数密切相关。

  

相关文章