经常有朋友问,免费的生意到底是怎么玩的?团购这种“站在跟前打折”的做法没有猫腻吗?每次我解释完这类问题,常会有人感叹说:好精明。是的,传统上说做这种生意的人必须“心眼多”、“会算”。但换个角度看,“精明”和“心眼多”并不是独特的天赋,说到底无非是“驾驭数据的能力”而已。如果说过去驾驭数据很大程度上需要依赖聪明才智,那么现在依靠技术的发展,驾驭数据的门槛已经大大降低了,进入“大数据”时代之后,这一点应该体现得更加明显。
不得不承认,”大数据“已经成了热门的词汇,仿佛一夜之间,我们就进入了”大数据“时代,处理数据的各种限制和困难都不复存在了。随之而来的,大家驾驭数据的能力都应该突飞猛进,玩转数据再也不是什么难事。但是,事实真的如此吗?
不幸的是,现在很多所谓的”大数据“,只有量的积累,没有质的提升,只有规模的增长,没有价值的飞跃。依靠迅速提升的存储能力,我们可以保存几乎无限的数据。但是大家能从数据里挖掘出来多少内容?看来看去,似乎还只是原先的那些指标,充其量是能更快得到结果而已。这就是我们想要的”大数据“吗?如果不是,真正的”大数据“应该怎样玩?
要回答这个问题,可以去阅读各种和”大数据“相关的书籍,得到一大堆”经典“例子,也可以听听在每天与数据打交道的先行者们的说法,倾听来自第一线的感悟。第一种方式很容易实现,第二种方式则更讲机缘——所以,8月29日七牛云存储在上海举行的D-Future”数据重构未来“的大会,就尤其值得参加了。这次大会不叫“技术大会”而叫“数据大会”,因为它是名副其实的,尤其是两位演讲嘉宾许式伟(老许,七牛CEO)和李道兵(道哥,七牛首席架构师),都是我以前的同事,是有多年开发经验、技术非常纯熟的高手,但他们分享的内容不是技术,而是数据以及他们与数据打交道的心得,在我看来这些观点是非常有价值的。
老许的第一个观点是,很多人还没有为大数据做好准备,最明显的,还有很多公司仍然在定期清理日志。存储容量在大数据时代已经不再重要,所以”存储日志“并没有严格的容量限制。即便是看来简单的日志,也包含了足够多的数据,只是尚未挖掘出足够的价值。这个观点被之后的演讲嘉宾,《大数据时代》的作者牛津大学教授舍恩伯格推进了一步:传统观念里大家把数据视作成本,为了某个目的(或者假设),精打细算地收集数据,分析得出结论。但是到了大数据时代,因为容量不再是问题,所以数据的角色从成本变成了环境,很多探索也变为从“无目的”收集的海量数据中提炼价值的过程。所以在大数据时代,背靠云服务提供商,大家都应当在头脑里把“容量”和“成本”解绑,改换全新的思维方式。
老许的另一个观点我也非常赞同,即“非结构化数据”是未来的重要发展方向。长期以来,有很多技术人员——包括我在内——都期望世间万物都是规范严谨、逻辑清晰的,就好像柏拉图那纯净的理念世界。然而真实的世界里总是充满了噪音、变异、错误,于是大家需要做大量的规范和清洗,而且免不了抱怨连天。近几年我逐渐想到,或许我们不应该简单把不规范的世界肢解后硬塞到规范的世界里,而应该用更高明的办法来驾驭不规范的世界;不应当强求接收的数据都是”结构化“的,而应当努力适应各种非结构化的数据。我的遐想在老许那里变成了扎实的结论,老许的演讲里提供了不少关于音频、视频等”非结构化数据“的巧妙应用,充分说明了这种思路的价值。
如果说老许的演讲更侧重于大数据的”静“的方面,那么之后道哥的分享更侧重于”动“的方面,也就是通过把数据真正盘活。现在很多的云服务都侧重存储和计算,而忽略了真正的应用,云服务更习惯扮演简单的“保险箱”,不去关心箱子里到底装了什么,能挖掘出什么价值。相应的,很多的应用开发商也只把云服务当“保险箱”来用,所有的应用都由自己来动手。
比如对于常见的视频类应用,无论是SNS圈中流行的秒拍,还是安防领域热门的视频监控,其背后的要求和逻辑是有很多共性的。但是长期以来市场上并没有这种”数据+应用“的解决方案,所以即便有云服务,应用的开发团队还是需要花费大量的精力来做鉴权、转码、分发、直播等业务。
造成这种现象的重要原因是云服务时代的脱节:网络上现成的类库往往侧重于功能,在单机来做相当简单,但是云环境下的玩法不同于单机,所以把单纯的功能变成云服务环境下的应用就成了相当有挑战的工作。结果,应用开发商自己来包装却事倍功半,或者云服务提供商提供了一些功能,但往往失之简单,无法与应用深度结合。结果就是功能和云服务融合不起来,总有功亏一篑的遗憾。
如果云服务提供商能深入理解各种应用,把通用服务抽象出来并以云服务组件的方式提供,就能实现云服务提供商和应用开发商的双赢。如果要给云服务打分的话,数据的存储和简单处理就像是1,各种包装好的应用组件就像是0,有多少种应用组件,1后面就有多少个0,效能就可以增加多少个数量级。从道哥给出的例子来看,七牛显然已经找到了不小的想象空间。
老许和道哥关于数据的“动静结合”的讲解,我不由得想起以前看过的一本书,《硬球:政治是这样玩的》,因为本次大会的介绍的方案,分享的经验,都在宣示“数据是这样玩的”,让大家看到数据的真正玩法,刷新大家对数据的认识。
不过我也需要承认,听完整场大会,长期以来我的疑惑还是没有得到解答。
如何确保“大数据”真正反映了现实,让我们能基于此认识世界呢?
我们当然可以收集海量的、非结构化的数据,但现实世界高度复杂的,在应对大数据时,我们如何才能证明在我们构建的“数据世界”里已经包括了足够的数据?比如要分析人的某人运动模式,我们当然需要收集人的运动轨迹,除了常见的经纬度和速度,是否还需要关心高度、温度、湿度、心跳等等信息?如果某项信息,比如血压,与我们关心的内容或规律密切相关而又没有被收集进来,即便有了海量数据,有了超强的数据分析能力,我们是否仍然会茫然无绪?退一步说,如果这些数据已经收集了,但结构不同,分布不同,归属不同,我们应该如何把这些数据串通融合起来,真正发现其中的规律?
这些问题我没有答案,我也认为暂时不可能有答案。因为解答这类问题,不再依赖单纯的思辨和逻辑的推理,而是更多需要依靠扎扎实实的探索,尤其需要大量有聪明才智和深厚积累的人才的持续投入。我能够确认的是,在这次的数据大会上,我看到了未来的希望。