瑞金麟集团洪斌:Data Lake K.O 传统数据分析理念
数据猿 · 2016-12-15 14:36:00 · 热度:加载中...
传统的数据分析理念,基本难以解决海量数据的问题。而Data Lake的理念则恰恰相反。它鼓励企业存储最小颗粒度的细节数据,无需预先定义分析目标和汇总数据...

瑞金麟集团联合创始人&瑞雪科技CEO 洪斌“每个企业每天都被数据的海洋包围着。如线下零售门店每天的客流数据;餐饮企业每天的翻台数据等,这些很少被关注但却真实存在。“它们中的绝大多数,都没有被记录下来就已经消失了。这是数据的悲哀,更是企业的不幸”日前,瑞雪科技正式对外发布新品瑞雪分析云,据悉该产品最大特点在于它会存储每一个可能有用的细节数据,当需要时再进行一站式分析。瑞金麟集团联合创始人&瑞雪科技CEO 洪斌表示,瑞雪分析云的灵感来自于舶来品“数据湖泊”(Data Lake),而瑞雪是首批将其引进中国的公司,“数据湖泊”(Data Lake)的引进,则是大数据时代伟大且具颠覆性的发明创造。现在,传统的数据分析理念,基本难以解决海量数据的问题。而Data Lake的理念则恰恰相反。它鼓励企业存储最小颗粒度的细节数据,无需预先定义分析目标和汇总数据。洪斌说:“企业关注的视角,是时候从定义分析目标,转移回到数据的价值本身了。如果数据只要可能有用就可以被存储下来,任何分析目标都有对应的原始数据作为支撑,那么自然也就不再需要专家不断提供服务了”。最后,他还指出工程师才是企业连接数据与价值的最大障碍。在他看来,传统的数据分析理念已过时,每个企业都坐拥一个数据宝藏急需开采。只有实践Data Lake才能帮助企业保持数据分析的势能和活力,将数据与价值直接连接起来。(完)以下为洪斌演讲实录:各位来宾,下午好。说起来,这些年跟企业打交道很多,但和媒体朋友们见面,这还是第一次,我感到很荣幸。先花几分钟简单交代一下我本人和瑞雪科技的背景吧。我叫洪斌,也可以叫我Michael。我是2009年瑞金麟集团成立时的联合创始人之一,出身于北京大学理论经济学专业,2010年只身创办了瑞雪科技这家子公司。有朋友可能会有疑问,你一个学经济学的,怎么走上了IT这条路呢?其实吧,我与IT从小就有不解之缘。我人生中的第一台电脑是286,学习的第一门计算机语言是BASIC语言,就连触网,我也比绝大多数人接触得早得多。不知道在座有没有朋友知道瀛海威这家公司?现如今已经不存在了,但在当年,绝对是互联网行业的巨头。连马云都在一次谈创业的时候,提到自己互联网创业半年后才有了瀛海威。我开始接触互联网的时候,瀛海威也还没成立呢。瑞雪科技最初的三年,只做了一套系统——瑞雪ERP系统,成功帮助瑞金麟电子商务奠定了如今的“江湖地位”。没有哪个工程师不讨厌coding的时候有人在旁边叽叽歪歪不是吗?后来我遇到了国内CRM领域的领军人物王鸿老师(如今终于也被我拉进了我的团队)。他向我布道了全球最先进的CRM理念,使我深刻意识到了21世纪企业的一切经营行为都必须围绕客户展开,而瑞雪科技的使命就是利用最先进的技术真正帮助企业连接好他们的客户,于是我提出了Contact Beyond Imagination的口号。下面,正式开始我简短的演讲。首先,让我们想象一个理想世界:所有可能用于企业分析的数据就静静地躺在那里,随取随用。任何分析需求都不必向工程师提出。他们存在,但却好像是透明的。数据分析工作可以自助完成。报表想到即生成,无需等待。今天,我带来一个神奇的概念,它可以将梦想变成现实。而瑞雪科技,也有幸成为第一批将其引入中国,并付诸实践的公司。那么是什么概念呢?这个概念就叫数据湖泊,它其实是一个舶来品。2010年James Dixon首次提出了Data Lake(数据湖泊)的概念。当时并没有引起足够的重视,直到最近才开始被广泛关注和讨论。我从第一次接触Data Lake的理念开始,就深深地为其着迷。甚至我认为,这是大数据时代最伟大、最具颠覆性的发明创造。我迫不及待地想把它引进中国,于是就创造了瑞雪分析云这款产品。希望通过简单易用的产品,能够使中国的企业直观感受到Data Lake的强大之处并从中受益。Data Lake究竟是什么,为什么具备如此大的魔力呢?它最初的定义非常晦涩。我简单地讲,就是存储每一个可能有用(注意是可能有用)的细节数据,当需要时再一站式分析的理念。咦?听起来没有什么特别之处嘛。难道跟我们现在的数据分析有什么不同吗?听我讲,这里的差别是非常非常巨大的。接下来,我通过以下三点逐步说明。首先,我要说明的第一点是:大数据其实离我们很近很近,只有一个转身的距离。很多企业可能会说,你不是骗人吧?我们哪有那么多的数据啊?我告诉大家,数据就好像空气一样,其实无处不在。你看不到,只是因为管理精细度还不够。任何企业的生存和发展,其实都逃不开数据的支撑。就好像人离不开空气一样。再粗线条的老板,至少也要了解公司的财务状况不是吗?财务报表可不能胡乱编造。虽然看起来只有几十行数据,背后却是根据企业销售的每一件商品的成本和售价统计出来的。几乎所有的企业都已经把这些数字,以某种形式记录了下来。回去看一下就知道这些数据有多少了。企业其实每天都被数据的海洋包围着。比如线下零售门店每天的客流数据,再比如餐饮企业每天的翻台数据。它们很少被关注过,但却真实存在。它们中的绝大多数,都没有被记录下来就已经消失了。这是数据的悲哀,更是企业的不幸。我给大家讲一个真实的故事。我曾经遇到过一个做在线教育的公司老板。他说啊:“虽然最近几年大数据很火,但我估计一辈子都用不上。别看我现在有几十万的用户,可我的数据规模根本就没有那么大。有空琢磨大数据,还不如琢磨怎么做好营销呢。”我说:“你真是守着金矿过穷日子。你的网站有多少视频?每个视频有多长时间?如果把每个视频都按秒划分并记录内容,这是多少数据?如果把每个用户每天在网站上的操作行为也记录下来,这是多少数据?如果再把每个用户的操作行为和每秒的视频内容一一对应起来,有没有意义?你是不是就知道了每个用户喜欢什么内容?讨厌什么内容?这又是多少数据?还是担心一下,你有没有能力处理得了吧。”他跟我聊完很受启发。回去第二天,就开始组建大数据团队了。其实大数据并没有创造新的数据。它只是把企业忽视的、遗漏的数据重新挖掘出来,然后进行统一的、交叉的分析。注意,这不是简单的1+1+1+到n,而是Cnn。什么是Cnn?就是跨所有数据源,每一条数据的各种排列组合。这是无法估量的指数型规模。既是数据的规模,同时也是价值的规模。让我们再展望一下不远的将来。当万物互联的时代真正到来,每个人的一言一行,都将链式产生成千上万的设备数据。要实现智能商业,可能面对的数据规模还会进一步膨胀。我再强调一下,这道算术题可不是加法,而是乘法!听我讲到这里,有的朋友可能已经后悔参加这个会了。“没来参加之前,我还觉得大数据离我很远,不用着急。听你讲完,我不知道该怎么办了。”不知道怎么办就对了!说明你开始意识到了问题。我想说,如果现在还没有一点必须要迎头赶上的觉悟,那么等到将来就只能是一筹莫展了。其次,我要说明的第二点是:传统的数据分析理念,根本无力解决海量数据的问题。在坐的朋友里,一定有不少人使用过所谓的BI和数据仓库。我告诉大家一个秘密,目前主流的数据分析产品都是在耍流氓。企业数据少的时候,这个系统好像还管点用。可是业务越做越大,数据越来越多,系统就开始难用了。等到了大数据时代,就彻底没用了。你有没有注意到?每次所谓的专家顾问过来解决问题,肯定是先问你分析目标,然后就帮你做ETL。他们每来一次,下一次你的报表需求反而会增加一倍。这个不正常啊。我们花钱请人过来是解决问题的啊,怎么问题还越来越多了呢?我来解释一下啊。由于技术的先天局限,传统数据分析理念其实是在不断引导企业抛弃细节数据。企业数据少的时候,直接把诸如订单数据搬家过来,整理整理就完事了,简单。等数据多了,系统处理不了了,速度越来越慢,就要开始归集汇总数据了。数据每归集一次,规模就缩小一个单位。只要不断归集,一定可以最终归集到传统数据分析产品能够处理的数据规模。那么根据什么汇总、汇总到什么程度呢?注意啊!这里专家就开始引导企业定义分析目标了。可是,数据每汇总一次都是分析潜力的丧失。就好比一个剑客,将出剑还未出剑的时候,他才是最强大的。一旦出剑,破绽跟着就来了。汇总数据就像是剑客出剑,出剑越多破绽越多。传统数据分析理念最失败之处,就在于没有搞清楚剑客强大的根源。剑客之所以强大,根本在于锻炼自身,而不是出剑的好坏,那是末流。当前企业处在什么样的环境?市场需求在不断升级,竞争环境在不断升级,竞争对手的管理精细度在不断升级。当新的分析目标不断产生时,就会不断地发现找不到数据了。因为数据已经被汇总了,原始数据不见了。这个时候除了费时费力费钱再次求助专家外,还能怎么办呢?就这样企业最终得到的,只能是越来越多不同程度汇总过的数据了。而有价值的细节数据却在不断汇总的过程当中,越来越多地被过滤掉了。这很可惜不是吗?这里被过滤掉的,可不只是数据,还有价值和商机。而Data Lake的理念则恰恰相反。它鼓励企业存储最小颗粒度的细节数据,无需预先定义分析目标和汇总数据,这正是对我们曾经深信不疑的传统数据分析理念的最大颠覆之处!企业关注的视角,是时候从定义分析目标,转移回到数据的价值本身了。如果数据只要可能有用就可以被存储下来,任何分析目标都有对应的原始数据作为支撑,那么自然也就不再需要专家不断提供服务了。最后,我要说明的第三点是:工程师才是企业连接数据与价值的最大障碍。虽然企业的分析目标有一部分确实是可以预先定义的,但更多的是临时产生的分析需求。而往往后者的满足程度才是企业的生命线,才是企业核心竞争力的保障。比如希望了解公司的收入水平,这个分析目标就是可以预先定义的。而如果当月企业的市场业绩不佳,恰逢竞争对手落井下石挖我们的墙角。于是我们决定采取对策,提高Top Sales们的销售提成比例避免人才流失。那么就产生了一个新的分析目标:分区域的销售排名情况。类似这样的不能被预先定义的分析目标如果不能被及时满足,可以想象后果有多严重。企业不可能预先定义所有的分析目标,这就意味着业务需要不断地与工程师沟通新的数据分析需求。天天PK报表需求的合理性、数据获取的难度、开发的工作量、交付的时间等等,苦不堪言。所有需要工程师参与的数据分析工作都是反人类的。想一想,从商业诞生之初到上个世纪前期是没有计算机的,自然也就没有工程师这个物种。可是那个时候,以营利为目的的组织和围绕经营的数据分析工作就已经存在了。组织里的每一个人都是业务人员,只是职责大小不同罢了。他们自己整理数据、自己分析、自己调整工作内容和方向,没有人可以打扰他们。我认为这是极富创造性和成就感的。虽然工程师这个物种出现以后,利用工具和技术极大地推动了商业的发展和进步(这一点客观上还是必须要承认的)。但是,不能成为限制业务快速运转的理由。本来没有你这个环节,你生生夹在中间,天天和业务PK,这是一种彻头彻尾的倒退。所以一定要干掉工程师,将分析的权利和能力彻底交还给业务。工程师只需要搬运可能有用的数据就够了。瑞雪分析云实现了这一点。它是一款面向未来的产品,是数据湖泊理念在当前中国最好的一个轻量化商业实现。它轻松存储细节数据,并提供大数据级别的处理能力。它接入数据时不要求预先定义分析目标;任何分析目标都可以随时产生即时解答,无需依赖工程师搜集整理数据。今天的时间有限,就先讨论到这里。我做一下总结。传统的数据分析理念已经过时了。它鼓吹的汇总数据的方向是错的,预先定义分析目标也是错的。每个企业都坐拥一个数据宝藏急需开采。只有实践Data Lake才能帮助企业保持数据分析的势能和活力,将数据与价值直接连接起来。除了瑞雪分析云,瑞雪科技在2017年还将会推出一系列面向未来的新型CRM产品,这里就不多做透露了,届时再与诸位见面。

来源:数据分析

本文来源:数据猿