當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

HIVE 调优1

發布時間：2025/7/14 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 HIVE 调优1 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

業務背景

用戶軌跡工程的性能瓶頸一直是etract_track_info，其中耗時大戶主要在于trackinfo與pm_info進行左關聯的環節，trackinfo與pm_info兩張表均為GB級別，左關聯代碼塊如下：

[SQL]?純文本查看?復制代碼

from trackinfo a

left outer join pm_info b

on (a.ext_field7 = b.id)

使用以上代碼塊需要耗時1.5小時。

優化流程
第一次優化

考慮到pm_info表的id是bigint類型，trackinfo表的ext_field7是string類型，其關聯時數據類型不一致，默認的hash操作會按bigint型的id進行分配，這樣會導致所有string類型的ext_field7集中到一個reduce里面，因此，改為如下：

[SQL]?純文本查看?復制代碼

from trackinfo a

left outer join pm_info b

on (cast(a.ext_field7 as bigint) = b.id)

改動為上面代碼后，效果仍然不理想，耗時為1.5小時。

第二次優化

考慮到trackinfo表的ext_field7字段缺失率很高（為空、字段長度為零、字段填充了非整數）情況，做進行左關聯時空字段的關聯操作實際上沒有意義，因此，如果左表關聯字段ext_field7為無效字段，則不需要關聯，因此，改為如下：

[Bash shell]?純文本查看?復制代碼

from trackinfo a

left outer join pm_info b

on (a.ext_field7 is not null

and length(a.ext_field7) > 0

and a.ext_field7 rlike '^[0-9]+$'

and a.ext_field7 = b.id)

上面代碼塊的作用是，如果左表關聯字段ext_field7為無效字段時（為空、字段長度為零、字段填充了非整數），不去關聯右表，由于空字段左關聯以后取到的右表字段仍然為null，所以不會影響結果。
改動為上面代碼后，效果仍然不理想，耗時為50分鐘。

第三次優化

想了很久，第二次優化效果效果不理想的原因，其實是在左關聯中，雖然設置了左表關聯字段為空不去關聯右表，但是這樣做，左表中未關聯的記錄（ext_field7為空）將會全部聚集在一個reduce中進行處理，體現為reduce進度長時間處在99%。
換一種思路，解決辦法的突破點就在于如何把左表的未關聯記錄的key盡可能打散，因此可以這么做：若左表關聯字段無效（為空、字段長度為零、字段填充了非整數），則在關聯前將左表關聯字段設置為一個隨機數，再去關聯右表，這么做的目的是即使是左表的未關聯記錄，它的key也分布得十分均勻
?

[SQL]?純文本查看?復制代碼

from trackinfo a

left outer join pm_info b

on (

????case when (a.ext_field7 is not null

????????and length(a.ext_field7) > 0

????????and a.ext_field7 rlike '^[0-9]+$')

????then

????????cast(a.ext_field7 as bigint)

????else

????????cast(ceiling(rand() * -65535) as bigint)

????end = b.id

)

第三次改動后，耗時從50分鐘降為了1分鐘32秒，效果顯著！
?

總結

以上是生活随笔為你收集整理的HIVE 调优1的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

调优
Hive

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

编程问答

HIVE 调优1

總結

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操