当前位置:首页 > 探索 > 正文

数据探索平台设计——“CheckStyle”

未知 2018-12-11 11:24

  数据工具产品很重要,但是这方面的人才却很稀缺。本篇文章作者结合自己的数据产品经验,介绍了数据探索平台设计——“CheckStyle”。

  在产品的庞大家族中,有一类很重要的产品,他就是工具产品,工具产品具备强服务性,并且使用场景时效性极强,高效便捷的工具极大的方便了我们的生活。

  随着大数据时代的带来,在工具产品中又衍生出了数据工具产品,随着数据的增长,数据的价值也亟待我们去挖掘,各大公司正在积极挖掘数据价值,并组建自己的数据团队,包括数据分析师、数据科学家、数据产品经理、数据工程师等等。

  在这样的契机下,数据探索平台应运而生,作为一款数据工具产品,数据探索平台核心功能便是数据开放和探索,支持数据分析师、数据科学家和数据工程师等数据团队成员和咨询、BD等业务团队成员,用他们习惯和擅长的工具,协同进行数据科学项目。

  数据工具产品经理不仅仅要求传统产品经理的基本能力,还对技术背景和大数据架构有一定要求,这里我们不妨看一下业界领先数据产品阿里云对数据产品经理的要求:

  负责ApsaraDB数据库产品设计,ApsaraDB数据库服务是阿里云核心的数据类的产品,是阿里云最为重要的PASS平台之一。

  类似于《Hadoop架构原理》以便于了解我们数据探索平台底层数据存储架构,从而更好的做数据开放和探索。

  类似于《为什么Jupyter是数据科学家们实战工具的首选?》以便于了解我们数据探索平台用户的日常工作,以更好的迭代产品,让科学家们用起来更顺畅。

  基于此,结合自己的数据产品经验,简单谈一下数据探索平台设计中的一个Feature,“CheckStyle”,和大家探讨,希望起到抛砖引玉的效果。

  因为用户编写的代码可能存在质量差、性能低、不规范、语法错误等问题。CheckStyle将使用我们TD的规则库,通过平台和流程来保障代码质量,希望能尽早、尽快、无感解决故障隐患,以节约时间,提高效率,降低出错率。

  短期内会通过代码样例,API半自动化实现,结合实践不断完善规则库形成闭环,最终实现自动优化。

  主要是昨天和一位数据分析师同学闲聊,听到她随口吐槽一件工作中的小事,见微知著,聊一下数据探索中的“CheckStyle”需求,和大家一起探讨哈。

  果断先diss她几句,招人时咋不想清楚,有经验的好一点,没经验的就要做好培养的准备,而且必然是一段时间细致的培养,答复,虽然她也做了准备,但确实需要时间。

  权:“那个人力量有限啊,你时间有限,而且我们也只能说熟练使用SQL,不能说精通,大多数场景能搞定,遇到一些问题也需要查,这种事最好交给机器做,产品化。”

  我们再来看几个鲜活的例子,看一线. 前段时间一位数据科学家同学因为输出数据集目录命名不规范,新宝5注册导致和DSS的时间分区功能冲突。

  Python 是机器学习领域内的首选编程语言,它易于使用,也有很多出色的库来帮助你更快处理数据。但当我们面临大量数据时,一些问题就会显现,因为在这样的量级上,工作进程中加入任何额外的计算都需要时刻注意保持效率。

  会对用户有更高的技能要求,督促用户自我提高,在这方面TDU有也相关技能课帮助提高,但毕竟术业有专攻,是不是应该降低用户的技术门槛,让其更专注于在具体业务和场景中探索数据价值。

  因此,代码性能提升我可能更倾向于平台侧智能管理,平台自动优化提升性能,并info给用户相关建议,感兴趣的用户可以参考info自我提升,进一步学习并反馈规则给TD规则库,形成闭环不断优化。

  不感兴趣的用户可以直接忽略优化info专注业务,平台自动优化运行,做到无感体验,不知不觉中提升整个集群任务的运行效率。

  现在我们Data ATM数据提取平台的运行机制类似,前端展示极简的界面,用户拖过简单拖拽完成任务的输入输出,后端是将用户选择的模块转化为SQL在提交到GP网关(Greenplum数据库)。

  大大降低用户的操作门槛,这也是我们数据提取平台的初衷,让业务人员(销售、咨询等)在不懂SQL等语言时也能通过简单拖拽完成数据提取,让其更专注于在具体业务和场景中探索数据价值。

  模块的封装,对应底层数据集,如活跃设备模块对应device_app_active系列数据集;

  发生上述这些问题,有些可能是初出茅庐不谙世事的实习生,无经验,技能上的短板、未养成好的规范,也可能是现在玩转业务,熟练SQL的高级数据分析师,毕竟学海无涯,技能上的盲点永远存在。

  CheckStyle将使用我们TD的规则库,通过平台和流程来保障代码质量,希望能尽早、尽快、无感解决故障隐患,以节约时间,提高效率,降低出错率。

  如上图,静态编译发现第一个 insert 语句中的UDF wm_concat函数参数错误。

  如上图,鼠标停止在错误或者警告上,会直接提示具体错误或者警告信息。新宝5注册如果不修改错误,直接提交,会被 MaxCompute Studio 阻拦。

  基于SQL,使用MaxCompute SQL,新宝5注册规范代码,预防预期外的错误,并对代码运算效率进行优化:

  对用户进行规则库和代码样例的相关培训,并结合TDU的优质教育资源,进行专项技能提升(备注:相关培训可以视用户的兴趣和时间酌情参与,但最好有几位资深分析师全程深入学习,以备在关键时刻提供相关指导);

  同时根据规则在平台侧封装相关API供用户使用,结合实践不断完善规则库形成闭环,最终实现自动优化。

  “未来创业很重要的一个方向就是把传统上大家认为必须由人来做的服务,把它中间越来越多的环节拆解,变成可以在线化、机器化、智能化完成的任务。”

标签 探索平台