发新帖

机器学习是什么

[复制链接]
1151 4

快来加入 TensorFlowers 大家庭!

您需要 登录 才可以下载或查看,没有帐号?加入社区

x
当今世界,数据无处不在。从一张图片,到一段乐曲,再到一篇文章,数据充斥着我们的生活,并且在相当一段时间内,数据仍然会是数字世界的主体。而机器学习给予了我们从这些无穷无尽的数据中找出规律并加以利用的可能。

腾讯视频连接:什么是机器学习

在这一系列文章中,我们一起探秘人工智能的世界,共同品味艺术,探索科学以及掌握机器学习的工具。一路上,我将为你展现机器学习的魅力并指导你亲身体会整个创造的过程。千里之行,始于足下,我们将从概念开始,逐渐深入到它们背后的技术细节。

1_QM2anuSVjcAXx0XidUzlxw.jpeg

Arthur C. Clarke 曾讲过:任何先进之技术,乍一看,如梦如幻。
一开始你会觉得机器学习好似变戏法一般深不可测,但当你深入其中,会发现它就是一堆用来从数据中挖掘信息的工具。

数据就在我们身边
在过去,人们往往通过分析数据,并针对数据模式的变化来适配软件系统。但是,当数据容量超越人类的感知或模式制定能力之后,我们不得不倾向于使用那些可以从数据自主总结归纳的方式,尤其是从变化的数据中自主学习的软件系统。

机器学习早已无处不在
如今我们能够在日常生活当中瞥见机器学习的身影,但却忽视了一些难以发现的应用。比如你可能发现相册应用自动为照片分门别类是利用了机器学习算法,却可能没有意识到,YouTube 等视频网站、Google 等搜索引擎的推荐算法也得力于机器学习。

0_YuR6_o73K-UXinlS.png


如你所料,也许当前最庞大和复杂的机器学习系统就是 Google 搜索了。每一次你「Google」某个关键字的过程,就是在使用一个于软件内核大量运用机器学习的系统(从理解你检索的文本,到根据用户的个人喜好调整搜索结果)。譬如当你搜索「Java」时,机器学习将通过判断你的身份(是开发者还是咖啡大拿,亦或是二者兼有)来选择哪些结果优先显示在你面前。

如今,机器学习的直接应用已经非常广泛了,包括图像识别、欺诈检测、推荐引擎、文本和语音系统等等。这种强大的能力被广泛应用于糖尿病视网膜病变、皮肤癌检测到零售以及自动泊车与自动驾驶运输系统等等领域当中。

备受期待的特性
1_31IGFHL0dzr3ZZqjAW3DXw.jpeg

不久以前,人们普遍认为一个公司或是一款产品在其产出中使用机器学习简直是痴人说梦。现在,每个公司都在探索将机器学习应用到自身产品的方法。这已然成为对产品的一种预期。正如当初我们希望每个企业都有一款好用的 App 或者一个漂亮实用的网站那样,不久的将来,人们将会希望这些技术或服务都更加个性化,都能深入洞悉用户需求并且还具备一定的自我纠错能力。

我们希望机器学习能够让现今的任务办得更好、更快、更轻松,同时也希望在未来,机器学习可以帮助我们实现一些曾经通过人力无法完成的工作。

我们应当庆幸,要充分发挥机器学习的优势并不困难。利刃早已磨好,你要的就是数据、开发者和强大的意志力来挥舞宝刀!

用数据来解决问题
此处我们可以将机器学习的定义简化为 8 个字:

『使用数据解决问题』

这一表述也许过度简化了,但足以充分表达我们的目标。尤其是当我们将这句话拆分成两个部分:「使用数据」和「解决问题」,我们会发现两者充分勾勒出机器学习的两个重要层面(训练和预测)。

1_jGlX9qS5pIh-zF8kOA41VQ.png

「使用数据」也就是常说的「训练」,而「解决问题」则被当作是「预测」或是推理的过程。

将这两者联系起来的部分叫做模型。我们使用数据集来训练模型以实现更好、更有用的预测。训练完成后,这一模型就可以通过部署来预测未曾出现过的数据。

数据是金钥
1_NI6zrAL0N98kRV6LU8hl4w.png


如你所见,在整个流程中最关键的部分就是数据。将数据比作机器学习的核心,有如将机器学习比作开启数据洞察殿堂的金钥。

接下来呢?
这篇文章仅仅只是在鸟瞰机器学习,解答为什么它如此有用,当然,我们也列举了它的一些应用。机器学习是一个非常广阔的领域,涵盖了一整个与「从数据推断答案」相关的技术栈群。之后,我们将致力于为大家提供如何根据给定的数据集和问题挑选合适的方法来解答,同时还会提供相关的实现工具。

这是 Cloud AI Adventures 系列的首个分享。下一次,我们会更详细深入探究机器学习的过程,通过一个公式一步一步剖析怎样解决机器学习问题。

向 Sara Robinson 致谢!

「注」:Arthur C. Clarke 是英国著名科幻小说家、科学作家、未来主义者,同时还是著名的水下探险家、发明家和知名电视节目主持人。他和罗伯特-海因莱因及艾萨克-阿西莫夫并称科幻小说界三巨头,曾与库布里克合写了《2001 太空漫游》的剧本。

感谢阅读这一系列的第一期,后续更新请持续关注哦!


本楼点评(0) 收起

精彩评论4

zerov  TF荚荚  发表于 2018-5-22 18:25:23 | 显示全部楼层
哪些数据,能通过训练后,建出模型,并实现预测呢?
本楼点评(0) 收起
神话  TF荚荚  发表于 2018-5-22 19:14:34 来自手机  | 显示全部楼层
zerov 发表于 2018-5-22 18:25
哪些数据,能通过训练后,建出模型,并实现预测呢?

从大量数据中找规律挖掘有用信息
本楼点评(0) 收起
ckevinit  TF荚荚  发表于 2018-6-6 19:27:55 | 显示全部楼层

训练集和测试集该如何划分?

我碰到一个奇怪的数据分集案例:

将原始数据集按三七分成两部分,其中30%(记作D1)是测试集,将剩余的70%数据(记作D2)再进行一次划分,仍然按三七分,其中D2的70%作为训练集,D2的30%作为in-sample validation数据,也就是说训练集仅占原始数据集的49%。这么说可能不够形象,我做了一个示意图:

test_sample.jpg

显然,训练集只占了原始数据集的49%,测试集是30%,这样跑出来的模型可靠吗?

通常,我们的经验是将原始数据集三七分,30%是测试集,70%是测试集,训练集模型,直接用于测试集预测。
而且,一般来说,训练集的划分不应低于原始数据集的60%。否则,划分过小的训练集的解释度或者代表性不足。

大家怎么看待这个问题?有没有一个比较统一的说法?
本楼点评(0) 收起
ckevinit  TF荚荚  发表于 2018-6-6 19:44:37 | 显示全部楼层
ckevinit 发表于 2018-6-6 19:27
我碰到一个奇怪的数据分集案例:

将原始数据集按三七分成两部分,其中30%(记作D1)是测试集,将剩余的70%数 ...

补充:

推荐训练和评估所用的数据比例是4:1 或 7:3。选取何种比例取决于原始数据集的规模。如果你的数据非常多,那么用于验证的数据可能就不需要那么多了。


这段话是在【AIA 系列第二课 | 机器学习常见的七个步骤】看到的,这里提到了两种推荐分集方法,一个是4:1,一个是7:3,这两种都符合我们的通常做法。
其中,文章也提到,如果数据非常多,那么测试集的数据可以少一点,这个可以理解。但这里并没有提到的是,如果数据同样非常多,训练集是否也可以分得少一些呢?或者,训练集仍需按80%或者70%划分呢?

求官方解释。
本楼点评(0) 收起
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

主题

帖子

70

积分
快速回复 返回顶部 返回列表