发新帖

简化劳动的评估器 API

[复制链接]
658 3

快来加入 TensorFlowers 大家庭!

您需要 登录 才可以下载或查看,没有帐号?加入社区

x
本帖最后由 dong 于 2018-5-29 01:19 编辑

AIA (AI Adventures)系列现在已经进入第三期了。前两期分享当中,Yufeng 介绍了机器学习的核心概念、基本逻辑,也介绍了要进行机器学习需要经过哪些步骤。今天的分享中,他会继续用浅显易懂的表达,为我们介绍 TensorFlow 的评估器 API。
总的来说,机器学习还是非常赞的(当然,除了某些时候你不得不对付复杂恼人的数学运算)。当下机器学习相关工具已经得到很大的改善,并且训练模型也更加简单方便。
我们将利用对数据集的认知来编写与之对应的模型,而不是基于对原始数学问题来求解。

【视频审核中】

这一期,我们将会用一些趁手的代码来实操训练出一个简单的分类器,所用到的程序可以在这个 GitHub Gist 当中得到:AIA003_tf_estimators.ipynb hosted with ❤ by GitHub

TensorFlow 中专门解决机器学习问题的评估器
要训练我们的分类模型,我们需要使用 Google 的开源机器学习库——TensorFlow。TensorFlow 对外开放了非常丰富的 API 接口,但此时我们需要用到的仅仅是一些高层次 API,也就是评估器(Estimator)。

评估器替我们打包好了训练的循环迭代,所以我们可以通过配置评估器来控制训练过程,而不是手动编码实现。这样以来,许多样板化的东西都不再存在,也让我们能够在更高级的抽象中考虑问题。同时这也意味着尽情享受机器学习的乐趣,而不必纠结实现的细节。

既然目前我们只探讨过线性模型的设计问题,不妨就此打住。今后我们会有机会回过头讨论这个问题,并提升其识别能力。

花卉分类:是否和酒水判别同样充满趣味?
本周我们会构建一个模型来区分三种非常相似的花卉。虽说这次比不上上次那样同酒水打交道那么令人向往,但是由于花卉更难辨认,所以这次的任务会更具挑战性。

参阅上期文章:《机器学习七步走

特别是,今天我们需要区分开不同品种的鸢尾花。其实我自己不太能从一片玫瑰当中找出一枝鸢尾花,但是我们的模型将会准确认出山鸢尾、变色鸢尾和维吉尼亚鸢尾。

ep3-1.png
山鸢尾、变色鸢尾和维吉尼亚鸢尾

我们有一个数据集(如下图)记录了花卉的花瓣、萼片的宽高数据。表中的四列也就是之前提到的「特征」。
ep3-2.png


载入数据

在引入 TensorFlow 和 NumPy 两个模块后,我们需要使用 TensorFlow 的 load_csv_with_header() 函数来加载数据集。这些数据(或者说特征),都以浮点数的形式呈现,而每一列数据、目标花卉的标记则用 0、1 和 2 来表示,与三种花卉的品类相对应。

ep3-3.png


此时我已经将数据加载的结果输出来了,现在我们可以通过命名属性来取得训练数据和相关的标记、目标。


构建模型
下一步我们需要构建模型了。为了完成这一步操作,首先需要设定特征列。特征列定义了进入模型当中的数据类型。我们使用四个维度的特征列来表示数据集中的特征,并将之称为「花卉特征」。

ep3-4.png


要搞定评估器非常简单。 通过把特征列、模型预测的输出数量(此处为 3)和指定的用于存储模型训练进程以及输出结果的目录传入 tf.estimator.LinearClassifier() 函数就能实例化模型了。这些参数有助于让 TensorFlow 从中断点继续之前的训练。

输入函数
上述的 classifier 对象会为我们记录训练状态,此时差不多可以开始训练了。胜利在望,我们的模型距离成功连接训练数据仅仅只差一个输入函数。输入函数的主要工作是创建一个可以为模型生成数据的 TensorFlow 算子。

ep3-5.png



现在,所以我们已经完成了从处理原始数据,到创建输入函数(传入之后会以特征列来映射的数据)的过程。要注意的是我们使用与元数据中同样的特征列名作为特征值的标记,这样数据与模型训练才能对应起来。

开始训练
接下来开展训练工作。只需将输入函数传入 classifier.train() 方法就可以了。我们就是这样将数据与模型联系起来的。

ep3-6.png


训练函数会控制在数据集上循环或迭代的过程,同时在每一阶中不断提升自身性能。正如我们所料,下图显示已经成功完成了 1000 个阶的训练!我们的数据集并不算大,所以这个过程非常快。

ep3-7.png



精确度评估
好啦,是时候评估结果了。由于前面的 classifier 对象保存了模型训练的状态,所以我们此处仍然使用同一个对象来评估。要评估模型的优劣,我们通过调用 classifier.evaluate() 并传入测试数据,然后从返回的矩阵当中提取出精确度数据即可。

ep3-8.png



快看!得到的精确度是 96.88%,厉害了我的哥!

ep3-9.png



评估器:一路向前的流水线
这周就先进行到这里,一起来回顾学习评估器的收获:

评估器 API 为我们提供了一个优秀的流水线用于获取元数据、传入输入函数、配置特征列和模型结构、运行训练过程和进行预测。这个易于理解的框架让我们能够关注数据和他们的属性,而不需要一直纠结数学上的问题,实在是赞!

下回预告
这次我们一起用封装好的评估器来浅尝了简单版的 TensorFlow 高级 API。后面我们还会了解怎样为模型加入更多细节、使用更复杂的数据和加入更多高级功能。

敬请期待!



本楼点评(0) 收起

精彩评论3

李为龙  TF荚荚  发表于 2018-5-29 11:36:50 来自手机  | 显示全部楼层
这个鸢尾花源程序有吗?没看到train时的batch.size是多少,100吗
本楼点评(0) 收起
dong  TF豆豆  发表于 2018-5-29 20:30:05 | 显示全部楼层
李为龙 发表于 2018-5-29 11:36
这个鸢尾花源程序有吗?没看到train时的batch.size是多少,100吗

Gist from Yufeng Guo 试试这个呢
本楼点评(0) 收起
dbuskin  TF荚荚  发表于 2018-6-14 15:08:13 来自手机  | 显示全部楼层
test
本楼点评(0) 收起
您需要登录后才可以回帖 登录 | 加入社区

本版积分规则

主题

帖子

70

积分
快速回复 返回顶部 返回列表