NTT【世界最初】發表對AI模型有效的再學習「學習轉移」,更新「tsuzumi」等大規模基礎模型時,重複利用過去的學習過程

近年來,生成AI作為多樣且大規模的基礎模型被廣泛應用,然而在實際應用中,為了滿足各企業或組織內部的特定需求,通常需要透過對每個個別的資料集進行額外學習、調整基礎模型,以達到更好的效果。然而,這類調整後的個性化模型,在基礎模型更新或轉換為不同的基礎模型時,便需要重新進行學習。而若基礎模型本身量體龐大,可預見其重新學習的作業也將衍生巨大的計算成本與挑戰,是生成AI普及的一大潛在障礙。

著眼於此,日本電信電話株式會社(NTT)開發並實現了全新的「學習轉移」技術,這是一種在深度學習中重新利用模型之間過去學習過程的機制。NTT此次主要是利用神經網絡參數空間中的高對稱性,通過「適當轉換過去學習過程的參數序列」,在短時間內以低成本獲得新模型的學習結果。如此,即使將生成AI等大型基礎模型用於特定用途並進行額外的學習、調整,也可以在基礎模型定期更新時,大幅減少伴隨其進行「再調整」的成本,進而使生成AI的營運、利用更為方便、容易且節能。

NTT注意到神經網絡參數空間具有很高的對稱性,不同模型之間在學習過程是近似的。因此NTT首次提出利用這即使置換神經元使參數改變,其整體輸出仍保持不變的特性,將之應用在轉移學習上並進行實證測試。在轉移學習時,給定兩個初始參數值,將追求針對來源方初始值(source)之學習過程轉換至目標方初始值(target)間的神經元置換變換距離最小化,來最優化轉移學習過程並定型化。這是世界首創的轉移框架提案。另外,這個基於近似的轉移方法也使得原本計算機難以處理的非線性優化課題,透過交互進行部分轉移和線性優化,讓計算機得以高速地計算、推導。而NTT在研究不同規模的兩層神經網絡數學模型最優置換過程中更發現,隨著神經網絡規模的提升,透過置換方法的轉移學習其概率就越高、精度就越收斂,理論上證明神經網絡模型的規模越大,轉移學習就越可能的論點。

以上研究相當有助於NNT自身大型基礎語言模型「tsuzumi」的研發和後續的商業營運,也讓透過多個AI交互互動的「AI星座(AI Constellation)」構想離實踐更進一步。

 

資料來源:RobotStart新聞(2024-05-07)

原文/出處

0 回復

發表評論

Want to join the discussion?
Feel free to contribute!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *