Google在其Kubernetes服務GKE提供用戶更多的遙測資料,加入Kubernetes控制平面指標,這些指標將有助於Kubernetes服務在發生故障時,更快速地排除故障,官方提到,這些控制平面與監控服務Cloud Monitoring整合,用戶不需要額外收集指標或是抓取配置。

Kubernetes控制平面指標可以用來監控API伺服器,追蹤API伺服器的負載、回傳錯誤的請求比例,以及請求的回應延遲等狀況,官方也提到,apiserver_storage_objects指標也對於監控API伺服器的負載程度很有用,特別是用戶使用自定義控制器,可以按資源標籤細分指標,找出存在問題的Kubernetes自定義資源或是控制器。

另外,Kubernetes控制平面指標也可以協助用戶了解叢集運作狀況。Pod在創建之後,會處於Pending的狀態,在健康的叢集中,處於Pending的Pod能夠相對快速的被調度到節點上,進而提供執行工作負載需要的資源,Google提到,當Pending的Pod數量持續增加時,可能代表Pod調度發生問題,原因有可能是資源不足,或是配置不當造成。

Kubernetes控制平面中的數個指標,可以供用戶注意潛在的調度問題,因此用戶便能即時採取行動,確保Pod有足夠的資源可以使用。這些額外的Kubernetes控制平面指標,也會顯示在雲端控制臺Kubernetes Engine的部分,方便用戶在同一脈絡中識別以及調查存在的問題,更簡單地管理GKE叢集。

在GKE叢集啟用Kubernetes控制平面指標功能後,所有指標皆以Google Cloud Managed Service for Prometheus收集,因此指標會發送到和Kubernetes叢集同一個GCP專案的Cloud Monitoring,用戶可以藉由Cloud Monitoring API和Metrics Explorer,以PromQL進行查詢。

當用戶使用第三方可觀察性工具監控GKE叢集,則這些可觀察性工具也能夠藉由Cloud Monitoring API,擷取這些Kubernetes控制平面指標。

熱門新聞

Advertisement