网易数据抓取,网易数据服务

  

  作为“平台品牌”双重模式的电商品牌,网易YEATION(以下简称YEATION)天然拥有很长的数据链,给数据决策和数据运营带来了不同的挑战。YEATION如何建立一个数据支持系统来支持业务发展?6月19日,在“网易数字帆船技术沙龙”上,网易数字帆船大数据产品专家顾平分享了网易YEATION数据产品建设的实践经验,以及支撑数据产品建设的一些难点问题的解决方案。2017年以来,顾平作为数据产品负责人,参与了YEATION从0到1的整个数据产品体系和数据中心的建设。经过三年的打磨,YEATION的数据产品和数据中心已经非常成熟。   

  

  创意的典范,从设计、研发到销售。d和生产商品在供给端到最终消费端,全链路都有数据,并且YEATION经过商品数据运营平台、营销数据运营平台、移动数据工作台和供应链数据运作平台等4种数据产品驱动全链路的业务.需要注意的是,数据产品必须有一个数据中间平台支撑,否则我们无法实现数据产品和数据质量的高效研发。这是双引擎模型,数据产品和数据中台,是数据双引擎.   

  

  数据产品:聚焦商品、营销与供应   

  

  网易定义的数据产品是一类既反映分析思路又能与业务系统联动的决策型产品.数据产品最基础的是实现可视化。在此基础上,需要做出决策建议,如监测、诊断等,最终可能驱动决策。比如这个数据产品中的一条数据,可以直接同步到业务系统中生成采购订单。对于数据中心来说,主要是提供高效优质的数据服务,支撑上述数据产品和业务系统。   

  

  YEATION的组织架构主要包括商品中心、营销中心和供应链中心,数据产品围绕这三个中心开发,面向不同的用户。对于营销中心的数据产品,叫做福喜——营销数据运营平台,负责消费者的数字化运营。对于供应链中心,我们有一个数据运营平台叫河洛-供应链,负责数字化供应。对于商品中心,有一个大麦-商品数据运营平台,面向我们商品中心的所有商品BU。中间部分是负责数字管理的移动数据工作台。它的核心目标用户是管理层,但也对所有业务部门开放。它是一个移动产品,使用起来非常方便。   

  

     

  

  YEATION做的第一个数据产品是移动数据工作台。因为数据平台或者数据产品要从上到下做,让领导认识到数据的重要性,看到可以优化决策,这样才能帮助推广数据产品,支持数据团队做更多的事情。事实上,严选移动数据工作台最重度的用户就是严选CEO,他的访问量是第二名的两倍多.   

  

  YEATION移动数据工作台基于H5,在YEATION APP的外壳上增加了一些入口,包括商品、销售、用户、流量等核心数据。还有KPI的执行,整个业务的监控都会在里面。   

  

  结合YEATION APP的好处是非常直观的。里面还有一张交通图。打开后,APP界面中的每个模块上会有一个半透明的浮动层,显示每个模块素材的点击量、转化率和对销售的贡献。很直观,商家也很喜欢用这样的东西。   

  

  供应链数据运作平台的理念是需求驱动供应.因为YEATION连接消费者和制造商,供应链数据运营平台的核心是将YEATION的销售计划和需求计划共享给供应商。YEATION专门给供应商做了一个平台(业务系统),我们把数据输出到那个系统,让所有供应商在那里共享我们的数据。知道了我们的计划,我们可以提前安排生产。   

  

  如果供应链的数据运营平台要设定一个核心KPI,那就是仓调。我们要在一个合理的范围内进行转仓,所以要解决的核心问题是什么时间要采购多少货,它需要有需求计划等东西,还有一些规则,比如安全库存是多少,如果允许厂家开发,这个商品的开发周期是多少。我们需要知道所有这些数据,然后才能确定在什么时间应该购买多少货物。   

  

  关于监测诊断,这是我们面向商品中心的大麦产品的监测诊断。我们可以直接显示哪些商品卖的慢,哪些库存高,销量在下降。这些问题涉及多少商品?这些异常情况都可以直接表现出来。如果业务端还想知道这是什么原因造成的,我们可以有这种类似于拓扑图的分析,让它直接定位原因,那么它不仅仅是一个工具,更是一个知识的沉淀。   

  

     

  

  这里面更多的是业务知识和规则   

  

  数据中心的定义是一系列高效、高质量的数据系统和数据服务的组合,为数据前端提供支持。下面是我们数据中心的全景图,最上面的黄色层是数据应用层(也就是数据前台),包括前面提到的数据产品和业务系统,因为业务系统也会用到我们的数据。   

  

     

  

  还有几个BI,有几个BI的分析师做的一些报告也在数据应用的范围之内。然而,有几个BI平台本身就是敏捷的。   

工具,所以我们把它放到了数据中台体系里面。绿色的部分是数据服务,它的核心服务对象是数据产品和业务系统。下面是围绕数仓的管理体系。蓝色区域整块都是基于网易有数去实现的数据中台体系。

  

高效高质量的实践,首先看高效分析,严选是基于有数BI实现的。大家在做数据产品的时候会发现一个问题,做了一个数据产品给业务用,结果数据需求接踵而来,研发都来不及,这个时候我们需要有一个高效交付的方案,让分析师或者业务方能够自助地去完成这些事情,我们把数仓建设好,分析师或业务自己来使用数据。严选的模式是分析师做报告,业务方提需求,所以在BI这块,底下是我们的数仓,分析师用数仓里面的数据,在有数上面去做报表出来,提供给业务人员。现在整个严选有数(网易有数BI在严选的私有部署)的用户有900多人,每天的UV要达到400多,有8万个图表。

  

具体而言,当我们的分析师收到需求的时候,他会通过有数大数据开发及管理平台提供的指标地图去找这个指标,已经实现了,就拿来直接用,如果还没有,他就提需求给我们的数据开发,然后来定义这个指标(指标定义的流程后文再讲)。数据开发去会利用我们有数的大数据开发及管理平台去进行一个主题域建设。建设过程其实做需求的过程,这是一个螺旋式上升的过程。

  

通过这个平台数据开发很容易就把需求给做出来,然后分析师用有数BI去进行可视化建模,他不需要写代码,本质上它设计的是面向业务的,可以快速完成一个模型,然后通过类似于制作PPT的方式去探索和实现数据的可视化。BI主要是用来高效分析的,核心的价值就在于能够非常高效地迭代,通常上午来的需求下午就能出报表。

  

  

数据产品的高效交付,第一种方式,我们借用BI里面集成的功能实现,就是说把需求转嫁到BI上面,通过BI当天就可以把报告做出来,然后通过集成的API直接把它集成到我们的数据产品或者是业务系统上面去。现在我们移动数据工作台里面已经有20多个报表被集成进去了,基本上都是CXO的紧急需求,所以交付要比较高效,很多时候小半天就能交付了,用户对这种高效交付是非常满意的。

  

另外一种方式是说我们真的要高效研发,我们构建了一个统一查询服务,这个服务其实就只有一个API,数据需求来了之后,通过它我们只要去设计模型就可以了,这就是“模型即服务”,对于数据产品或业务系统来讲,他完全不用关心这个模型到底用了什么库什么表,只需要关心接口输入。

  

通过这一层,我们不仅仅把数据带出去,还把指标定义也带出去,这样的一个好处是,不管在数据产品里面还是在业务系统里面,但凡是用到了同一个指标,它的定义也是动态获取的,是统一的。严选现在有70多个系统在用我们的统一查询服务。

  

关于数据质量,我们主要来看下指标一致性的保障,指标一致性我们是怎么去解决的?可能大家都听说过指标管理系统,但是如果真的只有这么一个系统,其实它跟wiki或者其他文档系统没有什么本质上的差别。指标管理系统的本质上的差别在于,我通过这个系统跟我整个数据设计、开发、使用的流程全部打通,这才是它最核心的能力。

  

定义指标的时候,要统一定义,因为指标代表了一种数据需求更是一种业务知识,不能说随便就定义一个指标出来。在严选我们是数据产品经理和分析师一起来定义,我们拿到需求的时候,会一起商量这个指标应该怎么去具体定义。定义完成了之后,我们在有数大数据开发及管理平台里面的模型设计系统去设计它,设计完了之后才会去进行具体的开发。也就是说,我们数仓一定要先定义设计再去开发

  

  

最后一层就是统一的使用,通过指标地图,我们的用户可以很清楚地知道他需要的指标在数仓的哪个地方,分析师和业务也能知道这个指标具体的定义是什么。统一查询服务在提供数据服务的同时也把这个指标带进去了,因为在模型设计的时候,会去定义字段绑定到哪个指标,通过这种关系,指标贯穿打通了从数仓到应用层

  

所以同一个指标在应用层,不管是数据产品,还是业务系统,甚至是我们有数BI(因为BI里面也可以动态引用这个定义),在任何一个场景下面,我们看到一个指标,它就是一个定义。我们的理念是说,不让分析师或者业务自己去开发口径,我们口径的计算逻辑基本上都落在DW层,是由数据开发根据指标定义统一开发的,应用层更多只是筛选汇总,这就最大限度地杜绝了相同的指标在不同地方的数据结果不一样的问题。

  

数据治理:平台、规范与考核都很重要

  

这里只讲数据治理的大概思路,严选数据治理是围绕数仓建设开展的,利用了整个大数据平台以及一系列的流程规范和考核优化机制。数据治理贯穿了整个数据的生命周期,从需求的评审就开始治理。

  

  

严选数据需求评审的时候,数据架构师、分析师、数据产品经理以及业务方通常都会参加。模型设计评审,数据架构师也会严格把关。到了任务开发,是一线的数据开发人员的责任,还有数据测试以及质量稽核、链路感知这些以及任务运维问题处理,这些流程在整个有数大数据平台里面,都是有相应的功能去落地的。

  

同时,还要定一个考核体系。严选核心考核的有三点,一个是跨层依赖率,这体现了数仓的建设水平。第二个是基线完成率,严选定义了很多基线,比如移动数据工作台,领导们都是8点左右就开始看数据了,所以移动数据工作台所有依赖的任务7:30时候一定要完成。第三个是有效响应平均时间,是指一旦出了问题,我们能不能在业务方发现之前把它解决掉。

  

任务需要常态优化,为什么是任务?因为很多问题,业务最终感知到的,就是我们的数据不对,产出晚,核心就这两点,比如说我们数据产品里面的这个指标不对,或者说今天这个时候没产出,这些问题追踪下来,最终都归结到任务上面,所以我们会有一些常态化的优化的机制来优化任务。

  

严选最近近30天的数据,跨层依赖率只有0.97%,基线完成率99.92%,有效平均响应时间是0,因为最近30天没有什么报警,数据还是非常亮眼的。

  

有了上面的方法论和平台工具,真正在落地的时候,我们还是要去以项目的机制去做这件事情,就是专人负责,量化考核。对我们来说,数据治理核心的负责团队就是数仓团队,因为它是围绕数仓展开的。

  

  

架构师、数据开发本身有一个固定的职责,是要去建设主题域,这是最核心的一部分。我们还会有很多的虚拟项目小组,针对我们所定义的数据治理的一些KPI专门负责。因为如果不这么做,我们会发现任务永远都优化不了,会经常出问题。

  

总结

  

网易有数核心有两个产品,一个是BI,一个是大数据开发及管理平台。基于大数据开发及管理平台,可以快速构建数据中台,包括数仓建设和一整套数据管理体系,并向外提供数据服务。数据服务可以为数据产品和业务系统提供数据。

  

  

有数BI可以提供自助式的高效分析,主要用里面的报告模块,做好的报告也可以集成到数据产品或者业务系统中。

  

此外,有数BI还有一个模块叫数据门户,企业如果没有严选那样的研发能力去开发单独的数据产品,就可以通过这个数据门户高效交付基于报告的数据产品。

  

作者:顾平,网易数帆大数据产品专家,7年大数据从业经验,2017年至2020年就职于网易严选,担任数据产品负责人,从0到1构建了网易严选的数据产品体系和数据中台体系。目前就职于网易数帆,担任网易有数BI产品负责人。

相关文章