首发于公众号【KAMI说】(kami-said),原文:(实时计算的业务劣势、思维误区和推进策略
技术优势如何变成业务劣势?
“实时”一词过于笼统,我们不妨通过“时效性”来进行量化:- 时效性为“天”级别以上的,从业务习惯来讲我们称之为“离线计算”;
- 时效性为“小时”级别的,我们称之为“准实时计算”;
- 时效性为“分”、“秒”级别的,我们称之为“实时计算”;
- 时效性为“天”的“离线计算”,同样可以提供时间精度为“秒”的计算,只不过上一天数据的计算结果今天才会输出;
- 时效性为“秒”的“实时计算”,同样可以提供时间精度为“天”的计算,当天的计算结果当天就输出并按秒更新,只是在一天结束前,计算结果都不完整;
实时计算的高时效性特性,令其在数据业务创新和推广的生命周期中,处于下游、末端的地位。其实这就是当前的实时计算业务现状。我们从逻辑上也不难推演:
- 只有在需要关注和利用当前“分钟”和“秒”级的高时效性信息,你才需要进行实时计算。注意这里不要混淆“时效性”和“时间精度”:如果你需要 “分钟”精度的历史数据,你并不需要进行实时计算。
- 需要使用高时效性数据的数据业务,只有投产阶段才需要实时计算。如果把数据业务的创新和推广流程分为探索、调研、实验、投产这四个阶段,那么在前三个阶段,可能需要高时间精度的数据,但基本不需要高时效性的数据:数据业务的探索、调研、实验等环节耗时都以天为单位计量,“分钟”和“秒”级时效的数据自然没有太大意义和帮助。
我们常抱有什么样的思维误区?
普遍的思维误区主要有两点:- 我们潜意识中认为,数据时效性越高,价值自然越高,从而忽视了业务规律,进而导致我们没有聚焦到与实时计算更契合更有价值的业务上。
- 我们潜意识中认为,实时计算的推进的关键和瓶颈在于技术上。只要技术进步,业务自然会出现,使得我们习惯被动等待需求,加上实时计算的特性,让我们更容易与业务脱钩。
- 需要高时效数据的业务的个性化明显,数据科学家在探索、调研和实验阶段可能难以利用现有平台,而是手动实现数据流程,导致路径依赖,对实时计算方案感知度低;
- 数据工程师主要把数据科学家作为业务推进的目标受众,因为数据科学家对实时计算的感知度低,不能给数据工程师提供有效的反馈,导致实时计算业务的推广和落地受阻;
业务推进策略该如何调整?
实时计算面临的困境,是由数据业务的分工模式和实时计算的高时效性特性共振而来。所以,若要摆脱这个困境,我们首先可以尝试突破这种分工模式,直接面向产品,主动寻找可进入的业务:- 接触业务,主动发现问题和推动问题解决。同时注意“需要更快的马”的典型伪需求;
- 在数据业务创新和业务的流程中,以合理分工的方式,参与更上游的环节;
- 以面向产品的角度,进行业务的落地和推广工作;
- 高时效性的数据可以产生更大价值,或者必须使用高时效性数据;
- 业务产出尽量可以客观量化,需要人主观评价的成分少;