大数据俨然是当下热门的概念。和前些年“云计算”把人搞得云里雾里一样,围绕大数据也产生了无数迷惑人心的说法。归纳起来,各种说法都在强调大数据的“大”——规模庞大,计算复杂,等等。可惜说来说去,大数据到底是干嘛的,对工作有什么实际作用,能举出来的就只有干巴巴的几个例子而已。

怀着对各种“大数据”书籍的失望,我翻开了车品觉的《决战大数据》。让我意外的是,书名里虽然包含“大数据”,通篇讲的却是“数据”,而没有多少篇幅来强调“大”的神奇。我相信,这样一本基于经验而没有太多神奇理论的书,反而能帮很多人真正树立对“大数据”的准确认识。

《决战大数据》提到,大数据不只是规模大,更要求大家能驾驭数据。传统方式能应对数据的规模不大,可以挖掘出数据中的价值,很多时候靠的是基础直观的经验,比如经典的点击率、转化率等等数据,理解起来毫无门槛。这背后所掩盖的,是数据思维的断层:收集数据的人不知道数据会运用在什么地方,会怎么运用;运用数据的人不知道从哪里收集数据,收集什么数据。所以即便大家都在喊着“大数据时代”,思维方式却还停留在小数据的时代。怎样填充收集数据和运用数据的鸿沟,这是每家公司都需要思考的问题。

先看收集数据的方面。传统的思维模式下,因为数据收集和应用之间的关系简单直观,很多时候可以直接从结果倒退过程。要算转化率,很容易想到去收集点击率和购买率。相应的,点击率和购买率的数据收集,也有直接的目的,就是计算转化率。但是在大数据时代,背靠海量的存储和分析能力,再简单收集这两个数据,就显得非常原始了。

拿点击-购买来说,客户到底是用的什么浏览器,在什么网络进行的购买?在商品详情页是否执行了滚屏操作?如果执行了滚屏操作,是滚动到什么位置才下的订单?这样的数据如果不收集,事后也就无法复原。如果收集了,则可以相当精确地分析客户的购买行为,对商品详情页的排版起到非常好的指导作用,有效提高购买量。所以《决战大数据》提出,企业的数据部门应当从“根据需求被动收集数据”转向“主动养数据催生需求”,持续思考可以收集的数据,创造业务价值。

“养数据”的观点我是非常认可的,虽然我之前没有专门做过数据部门的工作,但经验已经无数次证明,在没有现实业务需求的情况下,有意识地收集运行和业务数据,未来需要分析和决策时就可以起到非常重要的作用。

数据养起来之后,无可避免地发现很多有意思的现象,甚至和简单直觉相违背,由此加深大家对数据的思考和理解。

很多网站都喜欢在用户注册时让用户填一些基本信息,比如性别、年龄等等。通常,大家会觉得性别是一成不变的固定属性。但是分析用户的购买行为,却可以发现用户的性别经常会变化。比如用户性别分明是男性,收货地址也不变,但只有晚上购买男性用品,早上和深夜的购买行为都体现出女性的特点。原因很简单,是全家人共用一个帐号(这种情况也很普遍)。掌握了这一点,在规划业务时就能更加细致,也找到更多的机会。车品觉说,淘宝的用户有8个性别,原因就在这里——2个性别很可能是常识的结果,但忽略了用户的实际使用情况;8个性别看起来违背常理,却是符合实际的。

车品觉进一步提出,大数据时代提供了海量数据的收集、存储、处理能力,其中要价值之一就是让数据符合实际,或者说,能最大限度地还原现实。

举个例子:某人早上上班,他在地铁里看到了某件商品在淘宝上的广告。到公司之后,因为时间还早,他打开电脑登录淘宝,找到了这件商品,经过比较选定了商铺准备下单。不凑巧,单还没下,他被领导叫去开会了。因为会议很无聊,他掏出手机上淘宝,直接购买了之前已经确定的产品。

在传统业务里,这个过程产生的数据会分配到三个领域:广告投放到购买,淘宝网站搜索购买行为,手机淘宝搜索购买行为。而且这三个领域是彼此孤立的:从广告端来看,投放广告的人不知道具体哪些购买是广告直接带来的,所以业务非常粗疏;从网站端来看,这个用户搜索比价之后却没有下单,所以打算去分析到底页面应该如何优化;从手机端来看,用户没有任何比较,直接购买了某件产品,毫无征兆可言。

不得不承认,这种数据割裂的情形虽然怪异,却是普遍存在的,很多怪异的结果也正是来自于此。比如在很多公司,销售和售后的数据是分开的,所以冲销量的时候当然可以冲得很猛,超额完成任务,却看不到背后是退货率的急剧上升。

针对这种情况,《决战大数据》指出,大数据的发展方向之一,就是增强对现实的还原能力。在上面的第一个例子中,如果我们能还原出用户的购买行为与之前广告展示的直接联系,以及手机端“延续”了电脑端购买过程的信息,就可以从整体上把握整个购买过程,不必为各种怪异的结论大费脑筋。在上面第二个例子中,如果我们可以把“冲销量”所产生的结果全面集中展现出来,当然就可以避免退货率急剧上升的尴尬。

当然,要实现准确的还原能力,还有很长的路要走,但这个方向是没有错的。业界普遍认为,淘宝的广告投放效果比较好。但真的如此吗?就我所见,不光互联网媒体,甚至许多平媒的广告效果都不输于淘宝。不幸的是,其它媒体的广告投放,没有完整的数据追踪链条,也就无法准确还原广告产生影响的真实情况。结果就是,在淘宝投广告或许真实效果不一定最好,但能够完整追踪、有的放矢,自然更受广告主的青睐。

增强数据对真实场景的还原能力,这是《决战大数据》反复提到的“大数据”的价值。仔细想想,它强调更多的其实是“数据”,而不是“大”。这个观点我非常认可,在我看来,让大数据回归数据,是打破“大数据”的魔咒,让大数据真正发挥价值的有效途径——要知道,企业的经营行为,很多时候无非是基于过去和现在的情况,对未来做出判断和决策而已。


附注:这是随手写的一篇短评。《决战大数据》里还介绍了很多作者总结的工作方法和工作实例,有一些相当有意思也发人深省,比如汇报时注意领导何时在认真听,何时会发文,何时会玩手机,基于这些数据有针对性地改进汇报的内容和形式…… 这更让我相信,大数据的关键不在大,而在数据本身。