本篇文章5934字,读完约15分钟
编者按:本文作者是桑文峰,传感器数据的创始人兼首席执行官,百度大数据部前技术经理。2005年毕业于浙江大学计算机系,2007年加入百度,负责组建并领导团队,从零开始实现百度用户日志的大数据平台。
首先,大数据思维
大数据概念在2011年和2012年流行之后,可以说,近年来,许多传统企业以及互联网企业都将业务转向了大数据,并提出了更多的大数据思想。
那么大数据思维呢?让我们看两个例子:
[案例1:输入法]
首先,让我们看一个输入法的例子。我在2001年上了大学。当时,我使用智能abc、微软拼音和吴彼作为输入法。那时,输入法比现在慢多了。在很多情况下,我必须选择一个单词几次才能打出来。效率非常低。
2002年,2003年,一种新的输出方法,紫色拼音,问世了。感觉真的很快,键盘没按下就跳出来了。然而,人们很快发现紫色拼音输入法也有它的问题。例如,当时互联网发展迅速,一些新词经常出现。如果这些词不在词典里,就很难打出来。
大约在2006年,搜狗输入法出现了。搜狗输入法是一种基于搜狗本身的搜索,它积累用户输入的一些搜索词的数据以及用户使用输入法时产生的这些词的信息,并对它们进行统计分析,逐渐向词库添加一些新词,并通过云进行管理。
例如,去年有一个流行的词叫“冉炳銮”。如果以传统方式使用这样一个词,因为它是一个重构的词,所以在输入法中不能通过拼音“冉炳銮”直接找到。然而,在大数据的思维下,情况就不同了。换句话说,我们一开始并不知道有这样的词汇,但是我们发现很多人已经进入了这个词汇。因此,我们可以通过统计找到一个新的高频词汇,把它添加到司库并更新给每个人,每个人在使用它的时候都可以直接找到这个词。
第二,数据驱动
至于数据驱动,也许有些人从未养成阅读数字的习惯,这是一个很大的进步。你能读懂一些数字吗,这叫做数据驱动?这远远不够。让我们谈谈什么是数据驱动。或者现有的创业公司在数据驱动方面存在一些问题。
在一个例子中,公司里每个人都有一个数据工程师,他的工作职责是运行数据。
无论是市场、产品、运营还是老板,每个人都会有各种各样的数据需求,但这些需求都会呈现给他。然而,这种资源也是有限的,他的工作时间也是有限的,所以他只能应付一个又一个的需求。他工作很忙,每个人提出的要求可能不会马上得到处理,但可能需要等一会儿。即使他处理这个需求,一方面,他可能有不完整的数据准备,他需要收集一些数据,或者进行一些升级,他需要带来数据。接管后,我们可以对这些数据做一些分析。这个过程本身可能会在两三天内过去,如果我们加上等待时间,会更长。
对有些人来说,这段等待期太长,整个机会可能会错过。例如,学习一个假期或学校开学的时间,然后想做一些与运营相关的事情,这对你来说很重要。这一次可能会错过,许多人迫不及待。一些学生可能只是拍拍脑袋,不再等待这些数据。事实上,这个过程意味着效率非常低,并不是说我们不能得到这些数据,而是说当效率低的时候我们错过了很多机会。
对于一些公司来说,以前可能连一个数字都没有,但现在有了一个仪表盘,可以显示公司上个季度和昨天的整体数据,这很好。
这对老板来说肯定是快乐的,但对市场营销和运营专业的学生来说可能还不够。
例如,我们发现用户数量在某一天下降了20%,所以我们不能在这个时候不管它。我们需要找出问题所在。在这个时候,仅仅看宏观数字是远远不够的。我们通常需要对这些数据进行分段,按地区、渠道和不同的方式对其进行追踪,看看缺失了什么,是整体缺失还是某个特殊渠道的独特之处。此时依靠仪表板是不够的。
理想的数据驱动器应该是什么样的?这是一种自助式数据分析,让每个业务人员都可以自己分析和掌握数据。
之前,我谈到了一个模型。我们的来源是一堆杂乱的数据。中间有一个工程师运行这些数据,然后在右边,来自不同行业的学生提出他们的要求,然后排队等待处理。这种方法效率很低。理想情况下,我们有一个集成和完善的大数据源。中间提供了强大的分析工具,这样每个销售员都可以直接操作,每个人都可以同时做一些业务数据需求。这种效率会高得多。
第三,数据处理的过程
从非技术角度来看,大数据分析可以从下至上分为三个部分。第一部分是数据收集,第二部分是数据建模,第三部分是数据分析。让我们分开来看。
[数据采集]
首先,让我们谈谈数据收集。我在百度工作了七年,这和数据有关。我最大的经验——如果你想更好地处理数据,最重要的是数据源。数据源完成后,未来的一切都很容易。
使用好的查询引擎和慢的查询引擎可能不会消耗太多时间。然而,如果数据源很差,无论算法有多复杂,它都可能无法解决这个问题,并且可能很难得到正确的结论。
我认为一个好的数据处理过程有两个基本原则,一个是完整的,另一个是好的。
●全部:也就是说,我们必须采用各种数据源,但我们不能说我们只采用一个客户端数据源、服务器数据源和数据库数据源。如果你在做分析时没有这些数据,你可能会感到困惑。此外,大数据是关于总量,而不是抽样。我们不能说我们只拿了一些省份的数据,然后就开始谈论整个国家是什么样子。有些省份可能很特别,比如新疆和西藏,那里的客户可能与大陆的客户很不一样。
●精细:事实上,它强调多维度,并在收集数据时尝试收集每个维度、属性和字段。例如,当诸如地点、人员和方式之类的东西被替代时,可以选择的维度不能在后面的分析中跳出,而不是在开始时关注需求。根据该需求,确定将生成一些数据。当新的需求到来时,将收集新的数据。此时,整个迭代周期将会慢得多,效率会差得多。试着从源头收集数据。
[数据建模]
有了数据之后,就需要对数据进行处理,原始数据不能直接上报给上面的业务分析师。它可能很混乱,逻辑处理也不好。
这里涉及数据帧。首先,一个概念就是数据模型。许多人可能对数据模型这个词感到恐惧,认为这个模型是深刻而复杂的,但事实上它非常简单。
春节期间我在家做了些事情。我自己家里的家谱在文化大革命期间被烧毁并被教授。后来,家里的长辈说他们必须把家谱存档。因为我懂电脑,所以我用电脑帮助整理了这些家庭的数据和关系以及整个家谱信息。
我们的现实是,家谱中的人可以通过树形结构和它们之间的数据关系,用几个简单的数字来表达真实的实体。这是一个数据模型。
数据模型是现实世界中数据的抽象表示。这在我们的初创企业中经常发生。在我们当前的业务中,前端通常会发出请求,然后处理该请求并将其更新到数据库中。数据库中建立了一系列的数据表,数据表之间有许多依赖关系。
例如,如我的图片所示,当一个业务项目开发超过一年时,这些表可能涉及几十个甚至几百个数据表,然后这些表被直接提供给业务分析师使用,这很难理解。
此数据模型用于满足您的正常业务运营,并为产品的正常运营建立数据模型。然而,它不是分析师的模型。如果我们必须用它来进行数据分析,它会带来很多问题。理解起来很麻烦。
此外,数据分析在很大程度上依赖于表之间的网格。例如,有一天,我们拆分一个表来提高性能,或者添加一个字段或删除一个单词。这种调整将影响您的分析逻辑。
在这里,最好根据分析的需要对数据进行重新解码。它的内容可能是一致的,但我们的组织有所改变。以用户行为数据为例,我们可以将它抽象出来,再次作为判断表使用。
用户在产品上执行的一系列操作,例如浏览一个产品,然后是谁浏览它,何时浏览,他使用什么操作系统,他使用什么浏览器版本,他在这个操作中看到什么产品,以及这个产品的一些属性是什么,所有这些都给了它一个很好的抽象。这种采样的巨大优势很容易理解。你一眼就能知道这张表是什么,分析起来更方便。
在数据分析方面,特别是对于用户行为分析,目前一个有效的模型是多维数据模型,即在线分析处理模型,它包含了这个关键概念,一个是维度,另一个是索引。
比如城市,然后是北京和上海,一些属性在维度的西边,然后是操作系统,ios和安卓只是一些维度,然后是维度中的属性。
通过交叉维度,我们可以查看一些指标,如用户数量和销售额,这些都是指标。例如,通过这个模型,我们可以看到北京ios用户的整体销售情况。
这里只有两个维度,可能还有更多。总之,你可以通过维度的组合看到一些指标的数量。您可以回想一下,您通常使用的这些业务的许多数据分析需求是否可以通过这种简单的模式进行采样。
四、数据分析方法
接下来,让我们看看互联网产品采用的数据分析方法。
互联网产品通常使用四种用户消费分析:
(1)首先是多维事件分析,分析维度之间的组合和关系。
(2)第二个是漏斗分析,它对于与电子商务和订单相关的产品非常重要,并且依赖于不同的渠道来转化这些东西。
(3)第三种保留分析,在用户来了之后,我们希望他继续来购买,这就是保留。
(4)第四种回访是一种特殊的留校形式,这可以从他在一段时间内的回访频率或回访的时间段来看
[方法1:多维事件分析]
首先,看一下多维事件的分析,这是对运营和产品改进效果的常见分析。事实上,在大多数情况下,可以使用多维事件分析,然后对其进行统计。
1.[三个关键概念]
事实上,有三个关键概念,一个是事件,另一个是维度,另一个是指数。
L event是指任何互联网产品都可以抽象为一系列事件,例如,对于电子商务产品,可以抽象为提交、订购、注册和收货等一系列事件。
每个事件都包含一系列属性。例如,他是否使用操作系统版本连接wifi;例如,与订单相关的运费、订单总价或用户的一些功能属性是一系列维度。
我看了一些基于这些维度的指标。例如,对于提交订单,可能他提交订单的次数是一个指标,提交订单的人数是一个指标,人均人数也是一个指标;订单和总价也是指标,运费也是指标。在数完一个数后,它可以被抽样成一个指标。
2.[多维分析的价值]
让我们看一个例子,看看多维分析的价值。
例如,对于订单付款事件,根据总营业额的曲线,将会发现它一直在下降。但是当它落下时,你不能眼睁睁地看着它,但你必须分析原因。
如何分析这个原因?一种常见的方法是分解尺寸,它可以根据特定的尺寸进行拆分。例如,我们根据地区、渠道或其他方式对它们进行分解,并根据年龄和性别对它们进行分解,以查看这些数据是作为一个整体在下降,还是某些类型的数据在下降。
这是一个假设的例子——按照支付方式分解后,有三种支付方式,包括支付宝、阿里支付、微信支付或银行支付。
通过数据,我们可以看出支付宝和银行支付基本处于稳定状态。然而,如果我们看看微信支付,我们会发现它从一开始就是最多的,而且一路下降到很少。通过这个分析,我们知道微信支付肯定有问题。
例如,这个界面是否已经升级,或者微信本身有什么问题,导致其音量下降?
[方法2:漏斗分析]
漏斗分析将着眼于,因为数据,用户可能是从第一个操作到下一个操作的复杂过程。
例如,一群用户首先浏览了您的主页,在浏览完主页后,有些人可能会直接逃跑,而另一些人可能会点击某个商品,许多人可能会在点击该商品后逃跑,然后有些人可能会实际购买它,这实际上是一个漏斗。
通过这个漏斗,我们可以一步一步地分析转变,然后每一步都被遗漏了。我们可以分析不同渠道的转换。例如,在做广告的时候,人们发现百度的用户漏斗转换效果很好,所以有可能在广告上对百度进行更多的投资。
[方法3:保留分析]
例如,在一个推送活动之后,一组注册用户来了,然后查看其关键行为的操作特征,例如当天的操作,第二天有多少人将执行关键操作,以及第n天将执行多少操作。这是为了观察它保持的状态。
[方法4:回访分析]
回访是考察某一行为的一些适度特征,比如有多少人一周至少买一天黄金,有多少人至少买两天黄金,有多少人至少买七天黄金,或者他们买多少次黄金,这就是回购分析。
以上四种分析结合在一起使用,产品的数据支持和数据驱动的深度要比仅仅关注大量的访问或活跃用户要深得多。
V.运营分析实践
让我们与你分享我在操作和分析方面的个人经验。
[案例1:教资会产品]
首先,看一下ugc产品的数据分析示例。它可以分析访问次数、新用户、获得的用户、发布和减少。
如贴吧、百度知道、智虎都属于这一类产品。对于这样的产品,会有很多数据指标,可以从某个角度观察这个产品的情况。然后,问题来了——有这么多指标,我们应该注意什么?不同阶段应注意哪些指标?这里,它涉及到对自己的指标和关键指标问题的处理。
[案例2:召回丢失的用户]
这种形式对于其他产品可能非常有效,但是对于我们的产品来说,因为我们有一个相对明确的目标和一个很小的差异,交付效果可能不那么明显。
今年元旦,以前很多人申请试用我们的产品,但是只有10,000人。我们给他发了一个账号,他没有回来。在新年期间,我们向每个人道别,然后报告进展,看看我们是否能得到一些。
这是元旦我们产品的整体用户情况。9月25日,它花了近两三个月才发布。当时,将近1490人申请试用我们的产品。然而,有724次真正的试验,其中几乎一半都跑掉了。
我们只是想把这些人带出去,给他们一个召回活动。如果我们失去用户,我们可以导出列表。这是我们自己的产品,具有这样的功能。有些人可能想知道我们如何从用户那里获得这些信息。
这些将不被添加,因为当我们申请试用时,让他填写他的姓名、联系信息和他的公司。对于那些填写邮箱的人,我们会发邮件,对于那些发手机号码的人,我们会给他发短信。我们分析这两个渠道的影响。
首先,我们派出了716人,比以前少了一点。我手工删除了一些不可靠的信息。接下来,让我们看看实际上有35个人已经体验过这个产品,然后35个人中有4个人已经申请访问数据。
因为我们在产品上做了一点改进,在测试环境中,他在测试环境本身中使用一些数据,并且在使用之后,他将尝试他自己的真实数据。这时,我们想出了一个链接来引导他们申请访问自己的数据,经过这一步,他们更有可能成为我们的正式客户。
事实上,我们也非常关注这两种方法的转化效果。召回的效果如何?让我们看看下面的红色方框,已经发送了394封电子邮件。最终,有32个人来尝试,有322个电话号码,这和邮件相似,但是只有3个人来,这意味着这两个效果差了8倍。
事实上,这也提醒了每个人,许多人可能用这种方式阅读短信较少。当然,另一方面,这与我们自己产品的特点有关。我们的产品在电脑上使用更方便。很多人可能在手机上看到这个链接,点击它不方便。点击后输入账号也有点麻烦。因此,这种效果相对较差。
原文作者:zhangq365,如有转载,请注明出处:http://36kr/p/5044431
“读完这篇文章还不够吗?如果你也开始创业,希望你的项目被报道,请点击这里告诉我们!”
标题:大数据已经火了四五年 但你真的知道怎么用它来驱动产品和运营吗?
地址:http://www.j4f2.com/ydbxw/9039.html