Hive 数据倾斜判断、定位和解决 KAMI 2022-09-13 没有评论 什么是数据倾斜 当数据分布不均匀,集中在少数几个 Key上,进行处理时,数据和运算会集中在少数上,造成数据热点,称之为数据倾斜。 当数据倾斜出现时,会出现任务进度长时间维持在99%(或100%)上,一直卡在少量 Reduce 任务上,甚至因为超时被杀掉。 如何判断数据倾斜 1. 通过任务时间判断 如果个别Reduce的时间比其它Reduce时间长的多,例如大部分Reduce任务都在5分钟之内完成,
Hive 数据类型、特点和转换 KAMI 2022-08-11 没有评论 Hive 的数据类型分为简单类型和复杂类型。Hive 不支持日期类型,STRING 类型不能声明长度,理论上最大支持 2GB。Hive 会隐式转换类型,也能通过 CAST 进行显示转换。