Google雲端推出BigQuery推薦器,透過分析工作負載和表格,協助用戶對表格進行分區(Partitioning)或是分群(Clustering),以最佳化成本支出。
所謂的資料表分區,是將大表格分為多個區段,每個區段可包含特定時窗的資料,因此像是針對特定時間範圍的資料查詢,BigQuery就僅需要查詢該時間範圍的分區,而不需要掃描整個表格。而分群則是根據用戶定義的欄位,對表格進行排序,因此當用戶在查詢特定值的資料時,BigQuery就可以快速定位包含該數值的資料區塊。
這兩種方法都可以提高特定類型的查詢效能,像是使用過濾條件的查詢,和對資料進行聚合的查詢。
不過,決定資料分區或是分群的最佳策略並不容易,尤其在大型資料庫中,最佳化查詢工作變得非常複雜,每個表格可能包含數百萬和數十億筆資料,要人工決定分區還是分類,不只需要專業知識,還會耗費大量時間。而且資料庫使用者具有不同的查詢需求,查詢觸及表格的不同部分和欄位,要預測查詢模式進行最佳化,是一件困難的事。
BigQuery推薦器會分析過去30天每個專案的工作負載執行情況,並尋找表格資料缺乏效率的掃描,透過減少不必要的資料掃描,減少成本並增加查詢速度。推薦器會運用機器學習技術,提供可以最佳化資料存取的建議。
推薦器主要會對大於100 Gb的表格分區,10 Gb以上的表格則是提供分類建議,官方提到,過小的表格的最佳化效益不彰,且成效難以預測。用戶要使用推薦器有幾種方式,除了直接在UI上操作,也可以在推薦器整合中心Recommendation Hub中以控制臺操作,或是使用推薦器API。
熱門新聞
2024-12-16
2024-12-16
2024-12-16
2024-12-17