大数据 – Data 360

Hive 数据倾斜判断、定位和解决

KAMI 2022-09-13 没有评论

什么是数据倾斜当数据分布不均匀，集中在少数几个 Key上，进行处理时，数据和运算会集中在少数上，造成数据热点，称之为数据倾斜。当数据倾斜出现时，会出现任务进度长时间维持在99%（或100%）上，一直卡在少量 Reduce 任务上，甚至因为超时被杀掉。如何判断数据倾斜 1. 通过任务时间判断如果个别Reduce的时间比其它Reduce时间长的多，例如大部分Reduce任务都在5分钟之内完成，

大数据开发需要掌握什么技能

KAMI 2022-03-12 没有评论

首发于公众号【KAMI说】(kami-said)，原文：《大数据开发需要掌握什么技能》一般来说，从事数据开发，我们需要熟悉： Java，Python，SQL，Shell等语言 Pandas、Numpy、Scipy等数据处理常用的库和包 Hadoops 生态圈、Spark、Storm、Flink、TensorFlow、Keras等你的业务依赖的框架对于上面提及的语言和库，我们需要熟悉如何用它们实

实时计算的业务劣势、思维误区和推进策略

KAMI 2022-03-12 没有评论

首发于公众号【KAMI说】(kami-said)，原文：(实时计算的业务劣势、思维误区和推进策略技术优势如何变成业务劣势？ “实时”一词过于笼统，我们不妨通过“时效性”来进行量化：时效性为“天”级别以上的，从业务习惯来讲我们称之为“离线计算”；时效性为“小时”级别的，我们称之为“准实时计算”；时效性为“分”、“秒”级别的，我们称之为“实时计算”； “时效性”常常和“时间精度”混淆。其实两者

Flink 并不适合实时指标计算

KAMI 2022-03-08 没有评论

首发于公众号【KAMI说】(kami-said)，原文：《Flink 并不适合实时指标计算》 Flink 通过提供 ANSI 标准 SQL 和 Retract 特性，保证聚合计算的精确一致性。使用 Flink SQL 计算分析指标，例如 PV/UV 等，在语义和功能上是没有问题的。然而，从代价和效果来讲，Flink 并不适合进行实时指标计算。 IO 和计算的代价太大进行指标计算，几乎都会涉及