唱歌软件,机动车违章查询,pdca-酷技术,最新世界技术新闻发布,有趣有料的头条

频道:国际新闻 日期: 浏览:196

[译] 运用 What-If 东西来研讨机器学习模型

  • 原文地址:Using What-If Tool to investigate Machine Learning models.
  • 原文作者:Parul Pandey
  • 译文出自:翻译方案
  • 本文永久链接:github.com/xitu/gold-m…
  • 译者:Starrier
  • 校对者:lsvih,TrWestdoor

运用 What-If 东西来研讨机器学习模型

Google 开源了一个在无需编码的状况下,即可轻松剖析 ML 模型的东西。

好的实验能够协助咱们更好地了解它们的模型

在这个可解说机器学习的年代,人们不能仅仅满足于简略地练习模型并从中获得猜测。为了能够实在产生影响和获得杰出的作用,咱们还应该能够探究和研讨咱们的模型。除此之外,在进行该模型之前,还应该清楚地记住算法的公正性束缚和误差。


研讨一个模型需求探究许多问题,当事者需求有侦察般的才智去探究和寻觅模型中的问题和不共同性。并且,这样的使命一般都很杂乱,需求编写很多的自定义代码。走运的是,What-If Tool 为咱们处理了这个问题,它运用户更简略、更精确地检查、评价和调试机器学习体系。

What歌唱软件,机动车违章查询,pdca-酷技能,最新国际技能新闻发布,风趣有料的头条-If 东西(WI李智孝T)

What-If 东西 是一种用于研讨机器学习模型的交互式视觉东西。缩写为 WIT,它使人们能够经过检查、评价和比较机器学习模型来了解分类或回归模型。由于它的用户友爱界面和对杂乱编码的依靠程度较低,开发者、产品司理、研讨人员或许学生都能够经过运用它来到达意图。

WIT 是由 Google 的 PAIR(人 + AI 查找) 团队发布的一个开源可视化东西 。PAIR 经过 Goo红楼之安全终身gle 将研讨人员聚齐,研讨偏从头规划了人与 AI 体系的交互办法。


能够经过 TensorBoard 运用该东西,也能够将其作为 Jupyter 或 Colab notebook 的拓宽运用。

优势

该东西的意图是为人们供给一种简略、直观和强壮的办法,仅经过可视化界面就能够在一组数据上运用经过练习的机器学习模型。以下是 WIT 的首要优势。


在运用该东西的示例中,咱们会包含上述的一切要害。

示例

为了阐明 What-If 东西的功用,PAIR 团队现已运用预先练习过的模型发布了一组示例。你能够在 notebook 中运转演示程序或许直接在网页运转它。


用例

WIT 能够在 Jupyter 或 Colab notebook 中运用,也能够在 TensorBoard 网站使用程序中运用。在文档中现已对此进行了详尽了的阐明,我强烈建议你经过这篇短文来解说整个进程。

中心思维是,先练习一个模型,然后在测验集上运用 what-if 东西对练习的分类器的成果可视化。

结合 Tensorboard 运用 WIT

你需求经过 TensorFlow 模型服务器 布置你的模型,才能在 TensorBoard 中运用 WIT,而要剖析的数据有必要作为 TFRecords 文件。在 TensorBoard 运用 WIT 的更多细节,能够参看文档。

在 notbook 上运用 WIT

为了能在 notebook 中拜访 WIT,你需求一个 WitConfigBuilder 目标,该目标指定要剖析的数据和模型。这个文档为在 notebook 中运用 WIT,供给了一个渐渐学习的教程。


为了保证作业的进行,你能够运用 notbook 示例,来修正代码以此来包容数据集。

完好示例

咱们用一个示例来评论 WIT 的功用。这个示例样本来自名为 Income Classification 的网站,咱们需求依据一个人的人口普查来猜测内濑户实在他一年的收入是否超越 5 万美元。数据集来历于 UCI Census dataset,由年纪、婚姻状况、教育程度等特点组成。

概览

咱们首要对数据集进行研讨。这儿有一个用于后续演示的链接。

What-if 东西有两个主面板。右面板包含你加载的数据会集各个数据点的可视化内容。

在这种状况下,蓝点是模歌唱软件,机动车违章查询,pdca-酷技能,最新国际技能新闻发布,风趣有料的头条型揣度收入小于 50k 的人,红点是模型揣度出收入超越 50k 的人。默许状况下,WIT 运用值为 0.5 的正分类阀值。这意味着,假如模型揣度分数为 0.5 或身份证大全号码游戏用以上,该数据点就会被视为在正类(即高收入)中。

这儿值得注意的是,数据集是在 Facets Dive 中进行可视化的。Fsmuttyacets Dive 是 PAIR 团队从头开发的 FACETS 东西的一部分,它协助咱们了解数据的各种特性并探究它们。假如不熟悉该东西,你能够参阅这篇关于 FACETS 功用的文章,它是我不就之前编写的。

  • Google FACETS 的可视化机器学习数据集。一个来自 Google 的开源东西,能够轻松地从很多数据中学习形式

人们还能够通歌唱软件,机动车违章查询,pdca-酷技能,最新国际技能新闻发布,风趣有料的头条过从下拉菜单中挑选字段,以各种不同的办法来安排数据点,包含亲吻相片混杂矩阵、散点图、直方图和小倍数。以下是罗列的几个比方。

左面板包含三个选项卡 数据点修正、功能和公正性 和 特征。

1. 数据点修正面板

数据点修正经过以下办法来完结数据剖析:

  • 检查和修正数据点的详细信息

它答应进入在右侧面板中以黄色高亮的数据点。咱们能够测验将年东邪侃球龄从 53 改为 58,点击“运转”来查询它对模型功能的影响。

经过简略改动年纪,模型现在将猜测这个人归于高收入类别。对于此数据点来说,前期的正类得分为 0.473,负类得分为 0.529。但是经过改动年纪,正得分到达了 0.503。

  • 寻觅最近的反现实

了解模型的另一种办法是,吴浈保护伞看看什么样的小范围更改会导致模型翻转其决议方案,即所谓的反现实。只要害击一下,咱们就能够看到与咱们所选定的数据点最类似的反现实(用绿色高亮)。在数据点修正器选项卡中,咱们还看到了与原始数据点的特征值相反的拔刀队之歌特征值。绿色文本标明两个数据点不同的特征。WIT 运用歌唱软件,机动车违章查询,pdca-酷技能,最新国际技能新闻发布,风趣有料的头条 L1 和 L2 间隔来核算数据点之间的类似。

在这种状况下,最近的反现实是年纪稍大,有一个不同的工作笑面死者现象和本钱收益,但在其它方面是相同的数据点。

咱们还能够运用显现与所选数据点类似的按钮来检查所选点与其它点之间的类似性。WIT 测歌唱软件,机动车违章查询,pdca-酷技能,最新国际技能新闻发布,风趣有料的头条量从选定的点到其他每一个数据点的间隔。让咱们改动咱们的 X 轴跨度,来显现到选定数据点的 L1 间隔。

  • 剖析部分依靠图

部分依靠图(简写为 PDP 或 PD 图)显现了一个或两个特征对机器学习模型猜测成果的边缘效应(J. H. Friedman 2001)。

有关年纪和教育程度的数据点的 PDP 如下:

上图标明:

  • 该模型学习到了年纪和收入之间的正相关
  • 更高的学位会让模型更有决心断定此人为高收入
  • 高本钱收益是高收入的一个十分有力的目标,比任何其他单一特征都要强得多。

2. 功能和公正选项卡

这个选项卡答应咱们运用混杂矩阵和 ROC 曲线来检查整个模型的功能。

  • 模型功能剖析

为了衡量模型的功能,咱们需求告知东西什么是实在特征,即模型视图猜测的特征在这种状况下是“超越 —— 50k”。

咱们能够看到,在默许的阀值水平 0.5 时,大约有 15% 的状况,咱们的模型是不正确的,大约 5% 的状况是假阳性,大约有 10% 的状况是假阴性。更改阀值来检查其对模型精度的影响。

能够进行调整的还有设置“本钱比率”和“优化阀值”的按钮。

  • 机器学习公正性

机器学习中的公正性与建模和猜测成果相同重要。练习数据中的任何误差都会反映在练习出来的模型中,假如布置了这样的模型,那得到的成果也会有误差。WIT 能够经过考虑各种不同的办法来协助查询公正问题。咱们能够设置一个输入特征(或一组特征)来对数据进行切片。例如,让咱们看看性别对模型功能的影响。

能够看到该模型对女人的猜测比对男性更精确。此外,该模型猜测,女人的高收入远低于男性(女人为 9.3%,男性为 28.6%)。一个可歌唱软件,机动车违章查询,pdca-酷技能,最新国际技能新闻发布,风趣有料的头条能的原因是由于女人在数据会集的代表性缺乏,咱们会在下一节中继续深究这个问题。

此外,此东西能够最优化两个子集间设置的决议方案阀值,一起考虑与算法公正性相关的许多束缚中的任何一个比方人口计算或机会均等。

3. 特征选项卡

特征选项卡,供给了数据会集每个特征的汇总计算信息,包含直方图孙歆艾、分位数图、条形图等。该选项卡还答应检查数据会集每个特征的值散布。例如,它能够协助咱们讨论性别、本钱收益和种族特征

咱们揣度 本钱收益 是极不共同的,大多数莎菲宝数据点都被设置为 0。


同江苏丰县天气预报样,大部分数据点来历于美国,而女人在数少帅劫个色据会集没有很好的体现。由于数据有误差,其猜测只针对一个集体是很天然的。究竟魏炳文,模型从所供给的数据中学习,假如数张贤莹据源存在误差,那么成果必定也会有相同的误差。机器学习现已在许多使用和范畴证明了它的价值。但是,机器学习模型工业使用的一个要害妨碍是确认用于练习模型的原始输入数据是否含有歧视性的误差。

定论


这仅仅对一些 what-if 东西特性的简略预览。歌唱软件,机动车违章查询,pdca-酷技能,最新国际技能新闻发布,风趣有料的头条WIT 是一个十分便利的东西,它为决议方案者供给了探究模型的才能。简略的创立和练习模型并不是朴太珠机器学习的意图,了解为何以及怎么创立一个模型才是实在意义上的“机器学习”。

参阅文献:

  1. The What-If Tool: Code-Free Probing of Machine Learning Models
  2. pair-code.github.io/what-if-too…
  3. github.com/tensorflow/…

假如发现谷宜成译文存在过错或其他需求改善的当地,欢迎到 翻译方案 对译文进行修正并 PR,也可获得相应奖赏积分。文章最初的 本文永久链接 即为本文在 GitHub 上的 MarkDown 链接。


翻译方案 是一个翻译优质双狮地球牌互联网技能文章的社区,文章来历为 上的英文共享文章。内容掩盖 Android、iOS、前端、后端、区块链、产品、规划、人工智能等范畴,想要检查更多优质译文请继续重视 翻译方案、官方微博、知乎专栏。

参阅文献:K码农-http://kmanong.top/kmn/qxw/form/home?top_cate=28