音訊分離新紀元:日本NTT開發ConceptBeam,利用說話者的講話意圖和內容為線索,提取目標音訊
日本NTT開發了一項世界首創的音訊分離技術,能夠從複雜的音訊信號中分離出特定「意義」的音訊,即符合特定內容、圖像或聲音。
傳統的音訊分離方法通常集中於聲音在時間和頻率上的物理特徵,如聲音方向、聲音的頻率等。NTT則是將注意力放在說話者本身的聲音特徵上,開發了「SpeakerBeam」,可以從混合音中有針對性地抽取出特定說話者的聲音。此外,NTT還進行了「概念獲得」研究,讓電腦能夠「理解意義」,首先將概念以向量形式表示,再放置在「特徵空間」中,讓電腦進行處理,該技術名為「ConceptBeam」。
ConceptBeam能根據「指定的意義內容(Concept)」提取相符的音訊,以「概念過濾器」選取音訊。例如,原始音訊包含「花椰菜」和「摩托車」等訊息,使用者指定「蔬菜」的圖像,ConceptBeam將會選擇性地提取與「花椰菜」相關的聲音,並去除摩托車的聲音。
NTT結合SpeakerBeam和ConceptBeam,實現了比起以往精確度更高的音訊分離技術。未來NTT還將引入意義處理技術,實現對多種資訊進行高速且準確的識別和篩檢,並拓展在社會中的應用。
資料來源:RobotStart新聞(2023-05-30)
【原文/出處】
發表評論
Want to join the discussion?Feel free to contribute!