Google新非監督式技術MixIT可助鳥類學家分離野外鳥鳴，以方便進行鳥類辨識分類

Google開發出新的非監督式鳥鳴分離技術MixIT（Mixture Invariant Training），這個新方法能以更精確的方式分離鳥鳴，並且改善鳥類分類，而現在Google已經在GitHub上，開源這個最新的鳥鳴分離模型。

生態學家透過掌握鳥類種類，了解森林中食物系統以及健康程度，像是當森林中有比較多的啄木鳥，就代表森林可能存在更多的枯木，而由於鳥類透過鳴叫來交流和標記領地，因此透過鳥鳴聲來辨識鳥類，是最有效率的方法，Google提到，鳥類專家可以靠聽覺辨識出的鳥類，是視覺的10倍。

由於近年自動錄音單元（ARU）的發展，鳥類學家已經能簡單地在森林中，錄製數千小時的音訊，透過解析這些音訊，就能更好地了解生態系統，不過，由人工查看音訊資料非常耗時，而且鳥類專家又不足，因此借助機器學習方法，將可以大幅地減少專家審查這些音訊的負擔。

不過目前基於機器學習的鳥類音訊分類方法，存在一些挑戰，主要的問題在於，許多鳥類活躍的時間都是在黃昏，因此幾乎沒有清晰的個體鳥類紀錄可供學習，大多數可用的資料集，都是在戶外嘈雜的環境下紀錄，常伴隨風、昆蟲和其他環境來源的聲音。所以目前鳥鳴分類模型，難以辨識安靜、遙遠和重疊的聲音。

此外，一些常見的鳥種，當聲音出現在不常見鳥種的訓練資料中，這些常見的鳥種很少被標記，因此反而模型對常見鳥種的辨識度大打折扣，而更好的鳥鳴辨識能力，對於想要使用自動化系統，辨識瀕危或是入侵物種的生態學家來說非常重要。

Google最新的非監督式方法MixIT，能夠良好地解決這些問題，MixIT可學會將單聲道錄音，分離成多個獨立音軌，並且完全使用真實世界嘈雜的錄音進行訓練。研究人員將兩個真實世界錄音混合在一起成MoM（Mixture of Mixtures），以訓練分離模型，分離模型要學會最小化損失函數，來將兩個作為基準真相的原始錄音分開。

但由於分離模型無法知道MoM中，不同聲音在原始錄音中被組合的方式，因此別無選擇地，只能將各個聲音分開，進而學會將每隻發出鳴叫的鳥，放在不同的輸出聲道中，而這也同時把風和其他背景噪音分開。

研究人員對ARU所捕捉到的音訊進行鳥類分類，他們先將音訊以每5秒鐘切成一個片段，然後創建每個片段的梅爾頻譜（Mel-spectrogram），接著訓練EfficientNet分類器，從梅爾頻譜圖像中，辨識鳥類。

在進行分類之前，先使用MixIT模型分離音訊，可以提高分類器處理真實資料集的效能，MixIT分離技術對於辨識較為安靜的鳥類特別有用，而且在許多情況下，也能有助於辨識重疊的鳥鳴，但分離模型確實有一些潛在的限制，音訊可能會被過度分離導致錯誤分類。

Google正與加州科學院合作，以了解在策略燒除（Prescribed Burn）和野火之後，鳥類棲地和物種混合的變化，研究人員也提到，這個模型有許多潛在應用，不只是鳥類，也能夠被用來追蹤昆蟲或是各種動物。

熱門新聞