現在人工智慧也會作曲了,OpenAI開發了深度神經網路MuseNet,可以用10種不同的樂器,結合鄉村、莫札特或是Lady Gaga等風格,製作長度四分鐘的音樂作品,OpenAI並沒有教MuseNet樂理或是編曲理論,而是讓人工智慧從數十萬個MIDI檔案中學習,探索合聲、節奏和風格等樂曲元素。

MuseNet使用通用用途的非監督式技術GPT-2,這是一種大規模的Transformer模型,經訓練之後可用來預測音訊或是文字的序列。OpenAI收集了多種音訊來源,作為MuseNet訓練資料,除了ClassicalArchives以及BitMidi兩個服務,貢獻的大量MIDI檔案之外,他們也在網路上收集了流行、非洲、印度、阿拉伯等風格的音樂,另外,還使用了MAESTRO資料集。

Transformer模型被要求給定一組音符之後,有能力預測接下來的音符,OpenAI經各種試驗,找到了最有表現力和簡潔的編碼方式,將音調、音量和樂器訊息組合成單一的令牌。在訓練的時候,OpenAI透過升高或是降低音調以置換音符,也藉由調高或是調低各種樣本的整體音量,以強化音量效果,在強化樂曲時間上的變化,則是透過加速與減慢音訊片段達成。

同時OpenAI還創建了一個批評者,在模型訓練期間,不停地詢問模型,檢視給定的樣本是來自真正的資料集,抑或是模型過去產生的結果,批評者會對樣本給出分數,當MuseNet在生成輸出的時候,會根據這個分數選擇樣本。OpenAI添加了數種嵌入(Embedding),讓模型能夠為樂曲加入更多樣的特徵,包括和弦或是音樂作品長短等變化。

OpenAI創造了作曲家以及樂器令牌,讓使用者方便地控制MuseNet樣本種類,在訓練的時候,這些作曲家以及樂器令牌會被加到每個樣本中,因此模型可以依據這些資訊預測音符,而在生成階段,模型會依據使用者指定的作曲家以及樂器,進行音符預測。由於MuseNet掌握許多不同的音樂風格,因此還可以用新穎的混合方法,融合不同的風格。

OpenAI將這個早期成果公開,使用者在簡單模式中,可以透過指定作曲家或是風格,以及一個著名的音樂作品作為開頭,程式便會接續創造出新的音樂作品,使用者能簡單地嘗試各種不同的音樂風格組合。

而在高級模式中,有更多的參數可以設定,也需要較長的生成時間,但是可以讓使用者靈活地產生更有創意的作品。OpenAI提醒,將差異過大的風格與樂器合在一起,像集合蕭邦風格與貝斯和鼓,會讓MuseNet產生意料之外的結果,選擇適合作曲家的樂器可以讓結果更自然些。

熱門新聞

Advertisement