小红书大数据负责人吕侣:“长得太快”也是一种挑战

2019-08-03 Wilder 联商网
浏览

联商网消息:8月2日,观远数据2019智能决策峰会在上海举行,本次峰会由国内零售智能分析领域的领先企业观远数据主办。

峰会上,400+来自连锁零售、快消品牌、鞋服箱包、购物中心、新经济消费等国内外知名零售企业高层领导共聚一堂,深入探讨零售各细分业态的转型痛点与创新实践,共谋零售数据智能的未来发展。

小红书大数据负责人吕侣以《小红书,大数据》为题,分享了小红书在大数据方面的一些进展。他表示,小红书把数据仓库层全部下移移到EMR上,数据市场层分为两边,”我们得到的直接效果是过去每天可以看到大约50个实验,现在每天运行的数量是500个,每天往前走的速度得到反馈的速度乘了10倍,这样尝试的速度让我们能够快速跟上市场的步伐,捕捉到前进的信号。“

以下为吕侣演讲摘要:

在场的各位嘉宾,观远的朋友们,大家好,我是来自于小红书的吕侣。非常高兴在这里跟大家分享小红书在大数据方面的一些进展。我看到有一半左右的同学们已经是小红书的用户,我就给剩下的一半同学介绍一下小红书是什么。首先小红书在两三年前是一个跨境的电商,这个电商指标叫做把全世界的好东西带给你。希望把全世界最好的东西通过跨境电商的形式带到你的身边,让你享受到全世界更好的一些服务。

在最近的一年半里面,小红书已经从跨境电商成功蜕变为最新的生活方式的聚集地,它其实转向了社区。大家更加熟悉的比喻小红书是一座红色的城市,小红书数以亿计的用户是这个城市中的居民,小红书的KOL们是这个城市中的出版社以及作者们,这些作者会将他精心的发现,将他们新的一些好的生活方式带给大家,让每个小城市的居民们得到更新鲜的发展方式以及更好的生活方式,点亮他们自己的生活,也让他们自己生活中闪亮的瞬间点亮其他人。

现在小红书有多少用户呢?这是今年6月6日的数据,6月6日的时候宣布小红书已经获得第2.5亿个用户。在昨天我们PR同事告诉我说你这个要改了,因为我们又成长了,我们已经有3亿用户了。在短短两个月不到的时间里面,我们的用户数量又增长了20%,这也是我在过去一年半里面所遇到最大的挑战,叫做“长得太快”。

这是我们用户数量的增长曲线,可以看到从第一天开始我们用户增长曲线几乎就是完美的指数级的生长曲线,在6月6日的时候达到了2.5亿,在这样一个曲线下面我们作为大数据的运营方,作为大数据能力的提供方要面临什么样的体验呢?这是我们数据的增长量,2018年2月份我们刚刚开始将我们原有的数据系统从相对比较老的体系切换到和观远大数据为主体系的时候,这时候我们数据是2P,2P是2000T。在这个时候短短过去了一年半的时间,我们的数据量增长了30倍,在我们的用户量增长了两倍多一点点的时候,我们的数据量增长了30倍,说明我们在这段时间里面做了大量实验,发展了不同的业务,发展了15倍以上的业务,做了15倍以上的尝试才获得了两倍的用户增长。作为数据平台我们就要做好60倍的支撑,才能够支撑这样一种尝试,才能够让这样的尝试变得可能,而不至于让我们的用户想法,让我们工程师的想法,让我们产品的想法被数据的能力所束缚住,才能够获得更佳的反馈,得到更多的变化,捕捉到更多信息,从信息中得到增长的信号。把增长信号变成实实在在用户的增长。

这是我们最早的第一代,去年年初时候数仓的结构,当时最重要的数据平行点在于数据仓库层,由于数据仓库层承接的业务包含所有的报表业务。在这样的架构里面,当我们的业务需要做更多分析的时候会一下报表,当我们的报表数据量大的时候就会影响业务分析。当时我接手这个业务的时候我们跟数据分析师们开玩笑说你每天只要上半天的班,因为另外一半的时间我们在等报表。你上完半天的班之后又有一半的时间在等你的查询在排队。在这样的情况下我们的业务部可能获得及时的信号调整他们的发展方向。我们的当务之急是必须要将我们业务报表以及Adhoc查询这一层从压力最大的数据仓库层分离出去变成独立的一层。

我们当时做了一个最直接的变化,我们把数据仓库层全部下移移到EMR上,数据市场层分为两边,一边承接老的报表业务,通过Redshift打到TAbleau上,大部分报表在观远平台上我们还是保留了Tableau。在可以扩展的结果下,我们的业务数据,我们的分析师终于一天可以上全天的班了,终于可以在每天早上获得前一天的数据报表了。于是我们得到直接效果我们在去年年初的时候每我可以看到大约50个实验,在现在每天运行的数量是500个,我们每天的尝试乘了10倍,我们每天往前走的速度得到反馈的速度乘了10倍,只有这样尝试的速度才让我们能够快速跟上市场的步伐,捕捉到前进的信号,捕捉到不适合的信号把它杀掉,并且放大前进的步伐。

在这样的数据量里面我们到底做了什么样的事情,为什么这件事情特别重要呢?这是我们实验平台的设计,在实验平台里面可以看到比较简单的举例,我们在以用户的维度作为实验,我们有2.5亿用户,每个用户平均会分在200个实验左右。任何实验对所有社区指标和电商指标的影响做出详细分析,确保对任何一个指标有逆向结果或者大面积正向结果情况下要得到合理的解释,如果没有得到合理解释就不能够作为正确的改动影响到所有用户。在这样的情况下,我们每日参与计算的数据行数是25万亿行,并且在这种情况下我们可以看到在左下角所有每一个指标在不同的实验对比下分布是什么样的,在这样分布情况下数据分析师和业务负责人,能够根据这个结果得到明确的指示这个实验应该继续还是应该被杀掉。左边是每一天数据的结果,右边是根据具体的分布情况,正态分布情况的实验结果。两个不同实验结果的区别,由于我们实际的数据的分布不是正态分布的,比如说每个用户下单的数据,下单的金额就不是正态分布的,大部分的用户是不下单的。我们有2000万日活,这些日活的用户大部分是不下单,只有其中1%的用户会下单。在这样的分布里面如果只使用正态分布的检测会导致这样的检测失效,我们进行非常大的更新得到左边的检测,就会看到所有有购买行为用户的分布是什么样的,在这样的分布下到底是显著还是不显著。这个东西比之前的检测贵50倍,我们不断升级计算能力,不断加强计算资源的水平才能给业务方一个明确的结果,告诉你这个实验到底好不好,而不要浪费时间积累数据并且获得一些没有用的信号上。

接下来讲一个GrowthHacking的故事,刚加入小红书的时候我开了一个玩笑说我们的分析师每天回答三个问题,第一个问题是为什么用户数涨了,第二个问题是为什么用户数跌了,第三个问题是我们的用户既没有涨又没有跌。如何使数据保持客观是我当时重要工作原因。在这样的过程中,GrowthHacking对每一个指标判断它的贡献度。在这样的情况下,对于任何一个指标变化的时候我就能够明确指出到底是什么样的用户发生了什么样的变化,对于这个指标的贡献度是怎么样。于是我们的分析师终于不用回答这三个问题了,因为只要把我们的报表简单递交给问他这个问题的同学就可以了,可以明确每一天在早上就告诉你为什么涨了为什么跌了以及为什么没有动。

这就是我今天的分享,谢谢大家。

(来源:联商网 上海报道)