数据的态度
好久没吐槽了,虽然最近一直比较忙,而且现在也已是凌晨0点30分。但是想起博客好久没更新了,而且正好这段时间一直有在纠结这个问题,而且思考到我们这个工作本身的意义,咬咬牙写出来舒服一点,反正晚睡也不是两三天了。
近些年“数据”这个词越来越热,“大数据”这个概念也被炒得比栗子还熟,但是在这个浮躁的年代,新生事物总是被过度得炒作和夸大从而偏离了其本身的意义。我的理解是,做数据分析,最重要的目的是以目标为导向,发现数据中各种现象的原因和规律,并给出相应的建议以达到更佳的效果。数据再多再复杂,如果你只是看着爽了,玩的开心了,但是用不到实处,那所谓的“大数据”也只能沦为摆设。同样,另一种相同的情况是“数据可视化”,目前相当流行的信息图,着实让看惯了PPT的人眼前一亮,内容也比较多彩绚丽,但是同时也发现许多人数据关没把好,导致了一部分乌龙情况的发生。好的内容用好的方式呈现那叫锦上添花,数据本身不够重视而花大部分时间在展示效果上,这叫舍本逐末。
我以前也常常走进这种误区,也许这和性格有关系,发现什么比较酷比较炫,总想学着来玩,而且绝对不满足于初级水平,而是想做出一点让人“惊艳”的东西出来。也就是为什么我大学玩了PS又玩AI,接下来又鼓捣Premiere剪片子;工作以后又搞搞EXCEL高级公式或者技巧、学点HTML、CSS、JS自己搞网站改代码玩;到最近又在学Python,想着以后写点有用或者好玩的东西出来(这件事肯定会继续的)。到最近这个状态,由于工作占用了太多的时间,而且下班了也需要用一定时间来思考工作上的事情,导致一直觉得时间不够,所以不能再像之前那样把什么都想折腾得深一点。所以调整了一下状态,业余时间除了Python这条主线,其他的等需要用到的时候再研究或者google,目前来看效果还不错。
说完了工具的部分接下来说说数据,一般来说拿到数据以后是这么个流程:过滤——处理——分析——呈现,现在许多人都认为这几个过程的重要性是依次递增的,而我却不这么认为,相反,我认为应该倒着来。许多人都小看过滤这个步骤,但是他是整个数据的基础,如果数字拿出来都是错的,那么后面的一系列处理可能会因此失之毫厘谬以千里。传说中的“蝴蝶效应”,你认为蝴蝶煽的这一下翅膀不重要吗?正确的数据是得出正确结果的必要前提。这里顺便提一下,如果代码是你自己来部署,那么其部署方式与方法也应该想得越周全越好,什么点应该加上代码,加上以后会产生什么数据,如果数据出现了几种情况,那么是否说明了什么规律或者是否印证了你之前的某种猜测?在后面处理数据或者分析的时候你就会感觉,前期工作做足的话后期会轻松多少倍。
处理和分析这两个步骤,个人觉得是凭着对网站内容的熟悉和经验的积累,每个人都有不同的见解,总体的方向应该是一致的,但是细化出来可能会存在一些区别,所以这里不细说。最后主要说一说数据的呈现,因为这是直接与看报告的人接触的阶段。现在大家都喜欢看起来简洁而内容又丰富的报告,这就考验一个数据分析人员的技术和艺术功底了。什么样的数据用什么图形呈现,可以让原来不懂这个的观众能迅速理解你要表达的意义,这是一门比较深的学问,我也一直在做各种尝试和求索。但是万变都不离其宗,以目的为导向,时常提醒自己以免误入歧途。
最后一个问题也是困惑我最多的,要好看的数据还是要数据背后的真相?作为一个有一点理想主义+完美主义的人,有的时候会把自己比做类似于福尔摩斯一样的人物,用数据这个工具来当英雄。但是时间久了碰到的问题也比较多,有时会有一种挖个坑自己跳进去的感觉。到最后许多想说的话就只有自己知道,因为一说出来不仅不会改善现状,还会让其他人跟着你一起纠结。“我们能给什么”和“别人要什么我们给什么”,这两种状况差别还是很大的。
好吧,就算事情不如意十有八九,至少我们还是可以把剩下的一二给做得如意了。数据分析最后的结论可能会有偏颇,但是对数据的态度依然不能迷失,这应该是底线了吧……