机器学习的有趣之处是什么?

为什么认为机器学习是未来的发展趋势?

你认为认知系统能战胜人类经验吗?

这些是在机器学习领域工作的计算机科学家们会想到的主要问题。

我们现在努力要实现的就是训练代理来执行某些任务;其中一些是分类任务,一些是预测任务,还有许多其他任务。怎样才能增强我们的代理?怎么做才能使我们的代理更加准确?答案很简单,即数据。我们训练代理时,代理可能会被暴露在所谓的训练集中,代理运行特定的算法来检测特征并将一个点归类于定义的类别中。

机器学习的工作原理与人脑的工作原理相同

孩子出生时,最初一无所知,开始学习后,会逐渐积累人生阅历。这是一个必然的过程,此处的人生阅历即为代理的训练集。

如果您生病了且需要就医,您会选择什么样的医生呢?

有经验的医生还是经验不足的医生?我猜答案肯定是有经验的医生。
在任何职业生涯中,获得的经验越多,薪水就越高,工作领域中的地位也就越高。经验对于工作来说至关重要,因为你会接触到很多情况,这些情况再次出现时,你就不太会像以前一样做出错误的决策。

正如我们之前所说的,机器的工作原理和人脑完全一样,它获得的经验越多,就能更好地执行任务。对于更有经验的机器或更精确的代理而言,这就意味着训练集应更大。假设两个代理运行相同的算法,其中一个代理的训练集比另一个代理的训练集大,或者假设一个代理的训练集是另一个代理的子集,那么哪个代理在分类或预测方面具有更高的准确性呢?毋庸置疑,拥有更大训练集的代理将会更准确。

现在闪现在您脑子中的问题是:

是否存在向训练集中添加数据但不会提高代理准确性的情况?

例如,如果训练集包含了大量的数据(比如 3 亿数据点),我们对代理的准确性进行测试,会发现代理的得分为 87%,然后我们向数据集中增加一倍的数据点,我们在新的 6 亿数据点上训练模型。这是否意味着代理的准确性会提高一倍?当然不是。代理的准确性还会和以前相同吗?答案也是否定的。
许多研究人员试图对这一问题进行研究,以发现随着训练数据集的增加,是否会达到一个固定点。经过多次尝试,他们发现没有达到固定点,换言之,在训练集中添加的越多,代理就会越准确,并且代理的学习能力永无止境。代理的准确性和数据集的大小之间的关系如下图表所示。

Picture1

从以上图表可以很容易地得出以下结论:

  1. 最初添加训练集时,准确性会显著提高。
  2. 在某一个点,准确性的提高并不像训练开始时那么显著。
  3. 到达某个点时,即使训练集的大小是以前的两倍,准确性也仅会稍微提高。

由此得出,随着训练集不断增大,准确性也会不断提高,但是,准确性的提高不会那么显著。

因此,现在我们可以解决主要问题是物联网如何释放机器学习的真正力量?

在这个新时代,物联网被认为是最大的数据源。研究表明,截止到 2020 年,全球将有 500 亿物体接入物联网网络。你能想象出仅来自物联网数据的用于训练代理的数据点的数量吗?

数据科学和分析将用于存储从物联网设备收集的数据,而机器学习代理可以轻松使用这些数据。现在的问题是如何对这些数据进行整理和排序(根据相关性进行排序),这个问题现在得到了解决,科学家们正在研究算法和代理,以便以一种高效、有益的方式对数据进行排序。

那么,下面即为本文开头提出的问题的答案:
机器学习的有趣之处是什么?为什么认为机器学习是未来的发展趋势?你认为认知系统能战胜人类经验吗?

机器学习的有趣之处在于,在不久的将来,机器将会比我们做得更好。为什么?因为它们可以专注于正在进行的工作,而不受外部因素的影响,这就是为什么认为机器学习是未来的发展趋势。想象一下,将会有一个医生,他知晓整个历史上所有的医生和病人的情况。他知道所有医生以前犯过的每一个错误。我猜这个医生不会犯任何错误。这就是伪装成医生的机器学习代理,你可以将任何其他职业与这个例子联系起来,我想现在我已经回答了这个问题。你觉得呢?机器学习代理会打败人类经验吗?

本文翻译自:How IoT could unleash the real power of the machine learning(2018-01-04)

加入讨论