隨著機器學習的發展,訓練模型所使用的資料集,在負責任和知情開發變得越來越重要重要,Google在早些時候發表的Data Cards,便是一個能夠提供資料集生命周期透明度的資料集文件框架,使下游能夠掌握資料集的起源、發展、意圖和演變,而企業現在可以使用Google新發布的Data Cards Playbook,來簡單實踐Data Cards框架。

Data Cards是一組透明度構件,提供機器學習資料集的結構化摘要,解釋塑造資料的過程和基本原理,以及描述使用該資料來訓練和評估模型的方法,Data Cards至少需要5項內容,包括上游來源、資料收集和註解方法、訓練和評估方法、預期用途,以及影響模型效能的決策。

Google提到,在實踐中,有兩個重要因素決定透明度構建的構件與否,第一是辨識決策者使用資訊的能力,以及獲取該訊息所需要的流程和指南。研究人員探索這些想法開發了工具,使各種資料集和組織環境都能適用Data Cards。這些工具可用於創建邊界基礎架構,這些流程和參與模型在實踐社群間交流訊息,提供了必要的技術和功能性基礎設施補充。

Google現在推出的工具稱作Data Cards Playbook,這是一個自我導引式的工具包,供各團隊使用其機器學習資料集來應對透明度挑戰,簡單來說,Playbook能夠引導使用者簡單地應用Data Cards框架,從規畫透明度策略、定義受眾,到撰寫複雜資料集的摘要,確保資料集的可用性。

Google透過多種研究方法創建Data Cards Playbook,包括了解團隊所需要的資料集和模型資訊,以及在日常工作中使用這些資訊的方式。在過去2年間,Google內部有15個團隊使用該透明度構件模板,在討論與合作下,研究團隊創建了20多種Data Cards,用於描述圖像、語言、表格、影片、音訊和關係資料集,在生產環境的設定方法。

Data Cards Playbook以衝刺(Sprints)和協同設計實踐作為藍圖,因此跨職能團隊及利益相關者,可以共同定義透明度,解決建立資料集文件和治理解決方案所遇到的問題。由於Google替透明度模式建立指引,用以協助用戶克服在生成透明文件時所遭遇的挑戰,藉由提供最佳實踐,並確保Data Cards對不同背景的讀者皆有用。

熱門新聞

Advertisement