在增强现实中可视化多维数据
发布时间:2018-01-25 10:03 来源: AR酱
作者
Benjamin Resnick
Augmented Reality Designer at IBM
想象一下,就在几年后的某个周一早晨,你走进办公室。
你给自己倒了一杯咖啡,看看新闻,然后戴上一副AR眼镜。
你会发现自己被一大片闪闪发光的彩色小圆包围着。
orbs代表了所有驱动你的业务的数据。
你很了解这些数据。
这些光点的图案和颜色就像指纹一样。
但在咖啡机上方漂浮的数据有一些非典型的东西。
你伸出手去选择那些数据。
在附近的电脑屏幕上可以看到所有相关细节的摘要。
如果某件事对你的业务很重要,你的系统会跟踪它。
当你想要消费所有这些信息时,你就会使用这种沉浸式的视觉效果;突破电脑屏幕的界限,信息密集、高效、美观。
我在IBM的团队正在努力使上述体验成为现实。
沉浸式洞察是一款增强现实数据可视化应用。
概述
这篇文章概述了我的团队最近一直在做的一项技术。
我们一直在试验一种方法,用沉浸式的见解对高维度数据进行总结和可视化。
这种在复杂数据中总结重要关系的能力是我们长期愿景的关键部分。
数据可以有很多属性。
以Instacart的开源数据为例。
这个数据集中的每个人都可以被看作是一个数据点。
每一个数据点都可以用购买的产品列表来描述。
对于每个用户来说,这一数字超过5万种。
了解所有这些人之间的关系是非常有用的。
但我们如何才能开始理解如此多的数据呢?
通常情况下,当数据科学家第一次获得数据集时,他们会使用一个2D散点矩阵来快速浏览内容。
2D散点图显示了成对属性的关系。
但对于拥有大量属性的数据,这种类型的分析并不会扩大规模。
受到了http://projector.tensorflow.org/的启发,我们使用以下技术分析数据:
将复杂的数据简化为三个维度,总结重要的关系(在这个例子中应用PCA)
使用IBM沉浸式洞察可视化数据
根据对嵌入式关系的不断演进的理解,迭代地对数据进行标签和颜色编码。
通过使用沉浸式的洞察来导航这一功能空间,我们可以更快地验证假设,并对多维数据集实体之间的关系建立一种更好的直觉。
浸入式洞察与IBM DSX集成。
这使得使用沉浸式可视化技术成为典型的数据分析工作流的扩展成为可能。
在R、Python和沉浸式洞察之间来回切换相对容易。
适用于这种技术的数据集经常被用于训练机器学习模型。
如果数据科学家利用这一过程来理解数据中嵌入的关系,那么这将有助于他们改进自己的ML特性和模型。
这一技术还可以帮助人们更好地理解黑箱预测模型在幕后的作用。
在短期内,沉浸式洞察团队正专注于为数据专家提供可视化技术,这些专家擅长编程。
我们正在为这些专家开发方法,让他们能够可视化时间序列、地理和网络数据。
从长远来看,我们希望扩大产品的范围,让业务分析师也可以使用沉浸式的洞见!
Instacart分析代码
我们是如何在附加的视频中创建可视化的呢?
首先,数据是在python笔记本中准备的。
请查看这里的代码。
Instacart的用户使用了一个矢量图,描述了他们与每一款产品的关系。
这个向量的形式是0和1的稀疏数组。
每个1对应的是一种产品,该产品至少曾被该用户购买过一次。
每一个0对应一个未购买的产品。
这种技术被称为“一种热编码”。
然后,PCA(主要组件分析)在数据上执行,以便用三个数字来描述每个用户,或者“主要组件”。
每个主要成分总结了数据中的一个差异方面。
在实践中,在执行PCA时,我只能分析12万个用户的内存限制。
在执行PCA之后,预先准备好的数据将输出到CSV。
接下来,数据被发送到一个头戴设备,通过一个单独的R笔记本进行可视化。
请查看这里的代码。
笔记本根据不同的标准对用户进行颜色编码,这些标准可能会影响潜在空间的用户分布。
用户根据他们最频繁订购东西的部门(如速冻食品、零食、农产品)按颜色进行编码。
另一种颜色编码方案显示用户是否购买了有机食品。
我还在沉浸式洞察中参考了不同用户的id,然后在R笔记本中查找他们的购买历史记录。
这让我能够直观地认识到,什么样的产品购买会导致用户被放置在潜在空间的不同区域。
分析结果
没有购买任何有机食品的用户,在潜在的空间内紧密地聚集在一起。
这一发现是一个引人注目的证据,支持从可视化中得出的定性观察:在购买高级商品的用户和喜欢较低成本版本的同类产品的用户之间,Instacart的购买模式有很大的差异。
成本谨慎与高级买家之间的这种差异,对Instacart的营销、推广和推荐策略有着深远的影响。
我们还发现,Instacart的用户购买的产品远远超过其他任何一种商品。
有许多不同类型的用户喜欢产品。
几乎每个人都买农产品!
当用户根据他们购买商品的最常见的部门(mode department)进行分类时,他们不是线性可分的。
我们发现,虽然有助于理解用户购买模式之间的某些关系,但这种类型的分类似乎忽略了数据集的三个主要组成部分所描述的大部分差异。
结论
这篇文章介绍了一种利用增强现实技术分析大数据的技术。
这项技术最适用于那些准备创建机器学习模型的数据科学家。
大数据、AR和ML正成为三种颠覆性技术,它们将塑造企业和社会的未来。
正如我们所展示的,这些颠覆性技术可以以创造性的、有用的方式相互促进。
你可以点击这里了解更多关于这两种颠覆性技术的潜在影响:
本文描述的技术有限。
但沉浸式洞察的视野是巨大的。
沉浸式洞察团队很高兴能够继续展望数据可视化和分析的未来。
我们的目标是:让数据变得简单。
推荐阅读