音訊分離新紀元：日本NTT開發ConceptBeam，利用說話者的講話意圖和內容為線索，提取目標音訊

日本NTT開發了一項世界首創的音訊分離技術，能夠從複雜的音訊信號中分離出特定「意義」的音訊，即符合特定內容、圖像或聲音。

傳統的音訊分離方法通常集中於聲音在時間和頻率上的物理特徵，如聲音方向、聲音的頻率等。NTT則是將注意力放在說話者本身的聲音特徵上，開發了「SpeakerBeam」，可以從混合音中有針對性地抽取出特定說話者的聲音。此外，NTT還進行了「概念獲得」研究，讓電腦能夠「理解意義」，首先將概念以向量形式表示，再放置在「特徵空間」中，讓電腦進行處理，該技術名為「ConceptBeam」。

ConceptBeam能根據「指定的意義內容（Concept）」提取相符的音訊，以「概念過濾器」選取音訊。例如，原始音訊包含「花椰菜」和「摩托車」等訊息，使用者指定「蔬菜」的圖像，ConceptBeam將會選擇性地提取與「花椰菜」相關的聲音，並去除摩托車的聲音。

NTT結合SpeakerBeam和ConceptBeam，實現了比起以往精確度更高的音訊分離技術。未來NTT還將引入意義處理技術，實現對多種資訊進行高速且準確的識別和篩檢，並拓展在社會中的應用。

資料來源：RobotStart新聞（2023-05-30）
【原文/出處】

Post Views: 156

音訊分離新紀元：日本NTT開發ConceptBeam，利用說話者的講話意圖和內容為線索，提取目標音訊

發表評論

發佈留言

中華經濟研究院日本中心

訪客人數