Google釋出用來評估機器學習系統長期影響的工具

機器學習技術越來越成熟，也被應用在更多重要的情境中，機器學習模型不能再被當作一個黑盒子使用，開發者需要了解其中運作的細節，因此機器學習的可解釋性與評估工具逐漸受到重視。Google現在釋出一個稱為ML-fairness-gym的工具，讓用戶建構簡單的模擬，以探索機器學習決策系統，在社會環境中的潛在長期影響。

Google提到，當機器學習被用來輔助刑事判決、兒童福利評估和醫療救助等高影響力的決策時，了解系統是否公平成為非常重要的工作。而目前許多現有的機器學習工具，包括AIF360、Fairlearn、公平性指標和公平性比較等，這些都只能用在簡單環境的系統，在部分情況下，演算法執行的環境以及時間等背景因素，才是了解演算法影響的重點。

ML-fairness-gym是一個長期分析模擬工具，使用Open AI的Gym框架模擬序列決策，在這個框架中，代理（Agent）與模擬的環境互動，在互動循環中的每個步驟，代理會選擇一個能影響環境狀態的操作，接著環境會揭露代理影響後續行動的觀察資訊。

Google提到，評估機器學習系統公平性的標準做法，是拿系統一部分的資料作為測試資料集，用來計算相關的指標，透過查看指標在不同群體間的差異以評估公平性。

但在具有回饋能力的系統中使用這樣的測試集，存在兩個主要的問題，當測試資料集是從現有系統產生的，則可能不完整，或是存在這些系統固有的偏差，第二個問題則是，機器學習系統的輸出，可能會對未來的輸入產生影響。這些問題顯示出，靜態資料集來評估演算法公平性的缺點，也刺激了部署動態系統評估演算法公平性的需求。

Google使用ML-fairness-gym來分析銀行借貸，這是機器學習公平性的經典案例。以ML-fairness-gym分析利潤最大化政策與機會均等兩個銀行貸款政策，Google發現，機會均等政策有時候會為弱勢族群，提供高於利潤最大化政策的閾值，也就是說，弱勢族群能夠得到更多的貸款幫助，但是長期來說，機會均等政策會使得弱勢團體的信用分數，比對照組下降更多，而造成兩組信用分數差距比使用最大獎勵政策還要大。

雖然要比較那個政策對於弱勢族群較好，需要看對於福利指標的定義，究竟是較高的信用評分，還是較多的總貸款，但以ML-fairness-gym進行長期分析，可以知道機會均等政策對弱勢族群的影響大於利潤最大化政策。

另一個發現則是，機會均等政策的敏感度指標，會不斷地變動，這是有別以往的認知，而這證明當基礎人群不斷發展的時候，機會均等政策的指標會變得難以解釋，銀行應該進行更仔細的分析，才能確保機器學習系統能獲得理想的結果。

熱門新聞