“大数据”李鬼和李逵

在2014年10月纽约的Strata and Hadoop World会议上,大数据从业者和厂家们齐聚一堂以相互学习互通有无。今年会议上一个值得注意的方向是“伪大数据”产品的兴起,“伪大数据”产品就是加上了“大数据”这个形容词以博眼球的产品。

科技营销紧跟正在上升的有力潮流来盈利,这是个长期公认的做法。在互联网热潮(.com boom)时期,和互联网一点儿关系没有的公司都在名字里加上了“.com”。环保产品满身绿色。云端产品都和“云”贴边。现在又兴起用大数据来贴金。

这些夸张的手段是否弊大于利呢?也许因为营销中利用了“大数据”这个词,人们能去接触并了解一个不然他们不会去考虑的产品。但这个伎俩几乎骗不了谁,并且会让用伪大数据技术的用户抓狂。

大数据分析平台厂商Platfora引起了Luth Research调查大数据分析市场现状的兴趣。他们的调查问卷直接问回答者他们是否把小数据产品换了个包装说成是大数据产品;55%回答了是。大约一半的回答者称他们不得不把大数据分成小份来分析,并且小数据产品用在大数据上是不太成功的。Luth Research分析结论是:“不好用的大数据分析工具影响士气。对他们用的工具不满意的回答者更倾向于用压力大、令人沮丧、浪费时间这种词来形容他们的大数据分析体验。”(更多Luth Research的细节请参见这个。)

“你总用那个词(大数据)。我不认为它和你想的意思一样。”

我的观点是如果一个公司把它本质不是大数据的产品定位成大数据产品那就是在自砸招牌。今年早些时候,我为DataRPM写了些东西,DataRPM有非常好的产品,我在下面这些文章中写过它们:“为何自动语义能够解决商务智能面板危机”,“语义是如何把数据分析做得像Google搜索一样的”。自从我认识他们起,我就建议他们大数据不是描述他们的产品价值的正确用词。但在最近的广告上我看见DataRPM用“大数据公司”来描述他们自己。

DataRPM通过自然语言,自动创建面板及对数据进行语义建模来解决顶层漏斗形商业智能问题(“为何顶层漏斗形商业智能会引领新潮流”)。没受过训练的用户也可以尝试通过用自然语言问问题在DataRPM上试水。根据问题会生成新的面板。通过增加更多的语言,这个面板可以被细化。这样一来,用户可以找到他们并不知道的数据集。一般公司中,只有30%人接触到商业智能,通过利用DataRPM这样的产品,可以极大地提高这一比例。

但是这个和大数据有啥关系呢?也许勉强可以说DataRPM能从大数据库中进行查询吧。但是通过表单也可以做呀。表单是大数据技术么?一摞纸是大数据技术么?我认为DataRPM为了和大数据贴边的做法反而掩盖了它真正的价值。

QlikTableau和大数据公司都有很多合作并且经常被用来处理大数据,但是他们的市场营销都看重他们的核心价值即辅助数据的探索和发现过程。Looker是这个领域的新秀,他们独特的探索发现方法已经有了一些活跃的初期用户,但是他们非要在产品介绍页面上写上一段他们的产品能“解开大型数据集的迷”。

从这方面来说,Platfora提供了更简单的数据读取方式。Platfora的主要功能是把Hadoop里的各种各样的数据提供给更广泛的用户。使用Hadoop说明他们和大数据是紧密相连的。但是Platfora没把大数据当成重点。Platfora的秘方是向数据分析者开放端对端的数据转换和处理。他们的目标是:解决IT造成的瓶颈。现在通过Hadoop进来的数据很大,Platfora看重它理所应当,但我猜想将来Platfora应该能够在各种各样的数据库中一展身手。

Platfora的创始人兼CEO Ben Werther说“我认为,当新的大量的数据集被包含进来、能够更能让你掌握模式和结果的联系被简历起来的时候,数据分析就变成了大数据分析。当你合并了如用户交互、交易和机器数据这些通常属于不同体系的部分的时候,你就来到了大数据时代。我认为让每个商业分析员都能够不怕IT瓶颈而问出有意义的问题是一个严峻的挑战。”

说到底,大数据到底是啥意思呢?

Luth Research的报告验证了Werther的观点。回答者被问到了有关下面这些能力的问题:

  • 指定小时数/天数内的结果
  • 不使用IT技术来添加数据源
  • 迭代分析
  • 获取数据源访问
  • 不需要把数据分成小块
  • 分享结果的简易成都
  • 不使用IT来做分析
  • 数据放在集中式数据库内
  • 处理任何数量级的数据
  • 自动实时的分析
  • 能方便地加入新数据集
  • 可视化的结论
  • 分析不同种类的数据

超过半数的大数据分析产品用户称他们有上述所有的能力。计划使用大数据产品的用户中有四分之一有上述的能力。注意上面和大数据有严密关联的只有几项而已。大多数不过是更好的商业智能技术罢了。

那么伪大数据技术究竟是什么呢?是并不能把大的数据集广泛让人们使用或不能帮助数据科学家有新突破的技术。就DataRPM来说,他们的技术也许是很不错的,但它并不是大数据技术。

那什么是真的大数据技术呢?是超赞的能够让人更容易地有意义地使用大数据。换句话说,大数据就是说一个东西很好并且能处理大量的数据。想要分辨真假大数据技术的话,当一个零售商向你推销他们的故事的时候你可以问他这个技术是否能帮你爸妈使用大数据,或者数据科学家是否能用它来做以前做不到的事。如果两样它都可以,那才可以被称作大数据技术。如果不能,但你认为该技术也不错,那就只能管它叫商业智能。

本文文字及图片出自 伯乐在线

你也许感兴趣的:

共有 1 条讨论

  1. 1  这篇文章, 并对这篇文章的反应是飘过~

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注