由 PPT 之父杜奕瑾創辦的台灣人工智慧實驗室(AI Lab)所研發的 App「雅婷逐字稿」,能即時將語音轉為文字,標榜臺灣國語、中英夾雜,甚至連鄉民用語也能辨識。這款「最懂臺灣與在地化語音輸入」的軟體適用於訪談、課程、會議,聽障人士透過即時輸入也能理解廣播、電試節目的內容。
使用方式很簡單,點擊「新增逐字稿紀錄」,透過手機麥克風就能即時將語音轉化為文字,你還能使用內建鍵盤修正逐字稿內容。
據了解,雅婷逐字稿親民的名稱由來也很有意思,杜奕瑾在商業週刊採訪時表示,當初行政院政務委員唐鳳提倡政府資訊透明化,會議會需要一位資深的速錄師幫忙會議製作逐字稿,當時雇用的速錄師就叫做薛雅婷,因此臺灣人工智慧工作室將開發的語音辨識系統取名為「雅婷一號」。
臺灣人能選擇的逐字稿軟體並不多,較知名的軟體大部分都源自中國,雅婷逐字稿標榜能辨識臺灣國語引起我的興趣,於是我打開雅婷逐字稿錄製了伍佰在一條的專訪,這部 6 分鐘的專訪中間穿插著伍佰的歌,雅婷選擇自動跳過。一共近 1,000 字的內容,雅婷逐字稿的成功辨識了 564 個字,成功率接近六成。其中碰到「Instagram」、「Trip」皆辨識失敗,反到是「就好像我的」辨識成「JOHN WALL OF THE」,雅婷逐字稿在中英夾雜這塊,英文的清晰度要求比較高。
雖然沒有測試鄉民語言的部分,不過雅婷逐字稿在自然語言處理(NLP)的資料,很有可能使用了 PTT 的 Data,能辨識出鄉民語言也是很合理的。開發人員 Shar Yuan 臉書也提供小訣竅,語音辨識需要安靜的環境,使用外接麥克風的效果會比較好。
雅婷逐字稿在會議上有近六成的成功率已經達到可使用的等級,不過比起會議使用,我會比較建議創意工作者在安靜的空間當作記錄靈感工具使用。語言辨識是一種會隨著數據成長的技術,雅婷逐字稿在未來的體驗也會越來越好,以後也許能擔任影片創作者最痛苦的字幕聽打任務。