來源:量子位
雖然AI 在藝術(shù)領(lǐng)域一直有不少爭議,但它一直也沒停下各種嘗試的步伐:
寫歌、畫畫、寫詩……這不,剛又學(xué)會了填詞。
我們給這個 AI 放了一首鋼琴曲,曲調(diào)非常悠揚(yáng)平和。
然后,它生成的部分詞是這樣的:
各位感覺如何?
其中,生成過程的動態(tài)效果看著還不錯:
當(dāng)然,它可以很好地分辨不同風(fēng)格的音樂:給安靜的鋼琴樂生成的詞與給嘈雜的搖滾樂生成的會完全不一樣。
不過,鑒于目前的填詞效果(比如有時無厘頭的上下銜接),研究人員也表示:
這個工具也不是為了取代音樂家,而是成為一個激發(fā)音樂家創(chuàng)作靈感的工具,輔助他們創(chuàng)造出滿意的作品。
ps. 此處在線 cue 周杰倫,御用詞人試試 AI?
如何分辨出不同風(fēng)格的曲子?
這項研究來自滑鐵盧大學(xué),研究成果即將發(fā)表在 ICCC 2021。
項目的動機(jī)源于其中一位研究員的個人興趣。
這名研究員非常喜歡音樂,所以她很好奇機(jī)器是否可以生成聽起來像她最喜歡的音樂藝術(shù)家風(fēng)格的歌詞。
最終做出來的系統(tǒng)叫做LyricJam,已有在線網(wǎng)頁版供任何感興趣的音樂人訪問使用。
該系統(tǒng)通過將原始音頻文件轉(zhuǎn)換為頻譜圖,然后使用深度學(xué)習(xí)模型實時生成與音樂相匹配的歌詞。
模型的架構(gòu)由兩個變分自動編碼器(VAE)組成,一個用于學(xué)習(xí)音樂音頻的表示,另一個用于學(xué)習(xí)生成歌詞。
訓(xùn)練數(shù)據(jù)集由 18000 個原始歌曲的 WAV 音頻片段和 7 種音樂藝術(shù)家的相應(yīng)歌詞組成。
首先使用 CNN 來根據(jù)頻譜圖將帶歌詞的音頻,按風(fēng)格分類成不同 " 藝術(shù)家 "。
然后訓(xùn)練一個條件 VAE ( conditional VAE,CVAE ) " 重建 " 原始歌詞,根據(jù)不同類型音樂的歌詞用詞和表達(dá)方式的不同,生成一系列連貫的新歌詞。
其中生成條件是前面預(yù)先訓(xùn)練的 " 藝術(shù)家 " 種類。
推理階段,流程差不多:系統(tǒng)將實時錄制的音頻片段轉(zhuǎn)換成頻譜圖,然后進(jìn)行風(fēng)格識別,為了生成最匹配的歌詞,需要根據(jù) " 藝術(shù)家 " 的類別從潛在空間中采樣并對其進(jìn)行解碼,然后生成對應(yīng)的歌詞表達(dá)。
最后,使用基于 GAN 的對齊模型來對齊兩種編碼器生成的歌詞和音頻表示。
最終效果如何呢?
" 非批判性的即興演奏伙伴 "
為了評估他們開發(fā)的系統(tǒng),研究人員進(jìn)行了一項簡單的用戶研究,請來一批搞音樂創(chuàng)作的人來測試。
測試要求音樂人現(xiàn)場演奏音樂并分享他們對系統(tǒng)所作歌詞的反饋。
首先確定該系統(tǒng)是否能更準(zhǔn)確地生成與音樂所產(chǎn)生的情緒相匹配的歌詞。
研究人員選用了 5 種不同樂器演奏的不同歌曲的片段,每段約 10 秒,用該模型的兩種變體(下圖中每組的第二三行)各生成一行歌詞,再用一個基線模型(下圖中每組第一行)生成歌詞。
生成示例如下:
測試者需對以上 3 種詞,進(jìn)行打分,選出最匹配當(dāng)前音樂的一種。
總共有 15 個人參與了這項研究,從下表可以看出,無論播放的歌曲類型如何,用戶都更喜歡后兩個模型的歌詞,而非基線模型的。
這說明,該系統(tǒng)可以生成匹配音樂風(fēng)格的歌詞。
最后,通過一系列問卷調(diào)查顯示,大多數(shù)參與實驗的音樂人都覺得,LyricJam 是一個非批判性的即興演奏 " 伙伴 ",可以鼓勵他們即興創(chuàng)作并嘗試不同尋常的歌詞表達(dá)方式。
另外,即使中間改變音樂風(fēng)格或嘗試加入新的和弦,歌詞也能實時做出抒情主題的變化。
最后研究人員表示,如果在更大的數(shù)據(jù)集上訓(xùn)練,填的詞就更具有多樣性了。
感興趣的朋友可戳在線鏈接試玩,系統(tǒng)操作非常簡單,錄入一個音頻就可以:https://lyricjam.ai/