贝叶斯方法¶
在深入研究概率及其在及其学习中的应用时, 会发现这个主题之下有两种截然不同的流派: 一种是学校里经常教授的频率法, 另一种是以托马斯贝叶斯的名字命名的贝叶斯方法. 托马斯贝叶斯最初在18世纪提出了这一方法, 虽然贝叶斯方法鲜为人知, 但是在机器学习中很受欢迎. 贝叶斯方法为我们提供了一种可以在构建算法时明确识别和使用从历史数据中得到经验值的方法. 首先, 我们先会介绍一下频率法和贝叶斯方法之间的区别. 然后以贝叶斯概率为基础, 介绍一些有助于我们理解基于贝叶斯思想的机器学习论文和文档的相关知识. 本节讨论的贝叶斯方法, 又称为贝叶斯定理, 是贝叶斯统计理论的基石. 贝叶斯方法既是一个公式也是一个实质性的话题, 所以我们会从广义的角度来讨论它.
频率法和贝叶斯概率¶
在数学界, 我们总是尝试使用很多方法来解决某个或者某个领域的问题. 有时, 这些方法之间的差异是细微的, 有时却是巨大的, 概率绝对是后者. 关于概率, 我们将介绍两种概率论中的两种视角和观点: 频率法和贝叶斯方法. 这两种方法之间的差异有着很深的哲学根源, 每种方法都有其优缺点, 主要体现在构建各自概率理论所需的数学基础和逻辑上. 这使得我们很难在不涉及理论细节的情况下讨论这些差异. 两种学术流派的差异非常巨大, 要想清晰地描述这两种概率方法之间地区别是特别困难的.
频率法¶
一般来说, 频率论者指的是不相信任何特定测量值或者观测结果的人, 他们认为测量值只是潜在真值的近似值. 例如, 现在频率论者想知道一座山的高度, 但每一次测量得到的值都可能会有偏差. 频率论的核心是人们相信真实的答案已经存在, 并且致力于找到这个真值. 也就是说, 这座山有一个清晰明确的高度, 如果我们矢志不渝地观测下去, 将有可能会发现这个真值.
为了找到这个真值, 需要进行大量的观测. 即使每个测量值可能都不精确, 但是我们也希望每个测量值都是真实值的近似值. 进行大量观测后, 最频繁出现的值就有可能是真值. 频率派成名的原因是对高频值的关注, 真值是通过结合大量观测值得出的, 频率最高的值对其影响最大(因为在某些情况下, 我们只能取所有测量值的平均值).
当我们第一次在学校讨论概率的时候, 频率论方法通常会被提及, 因为它很容易理解, 并且很符合常识.
贝叶斯方法¶
相反的, 贝叶斯派相信每一次观测都是对某件事的准确测量, 尽管我们每次观测得到的值都可能略有不同. 贝叶斯派的态度是, 根本没有那个等着我们发现的"真"值. 回到刚刚的例子, 贝叶斯派会说, 表示一座山的高度的真值是一个没有意义的概念, 相反, 每一次测量这组山的高度, 都描述了从地面上的某个点到山顶附近某个点的距离, 但是不会每次都娶相同的两个点. 因此, 即使每一次测量得到了不同的值, 但是它们都是对山的高度的准确测量. 每一次仔细地测量都和其他测量一样真实, 没什么真值等着我们去发现.