(相關資料圖)
當微軟和谷歌為誰的人工智能聊天機器人更好而大動干戈時,這并不是機器學習和語言模型的唯一用途。除了傳聞中計劃在今年的年度I/O活動中展示20多種由人工智能驅動的產品外,谷歌正在朝著建立一個支持1000種不同語言的人工智能語言模型的目標邁進。在周一發(fā)布的更新中,谷歌分享了有關通用語音模型(USM)的更多信息,谷歌將這一系統(tǒng)描述為實現其目標的 "關鍵第一步"。
去年11月,該公司宣布其計劃創(chuàng)建一個支持全球1000種最常用語言的語言模型,同時還披露了其USM模型。谷歌將USM描述為 "一個最先進的語音模型系列",它有20億個參數,在1200萬小時的語音和超過300種語言的280億個句子中進行訓練。YouTube已經使用USM來生成封閉式字幕,它還支持自動語音識別(ASR)。這可以自動檢測和翻譯語言,包括英語、普通話、阿姆哈拉語、宿務語、阿薩姆語等等。
現在,谷歌說USM支持超過100種語言,并將作為 "基礎 "來建立一個更加廣泛的系統(tǒng)。Meta公司正在開發(fā)一個類似的人工智能翻譯工具,目前仍處于早期階段。你可以在谷歌發(fā)布的研究論文中閱讀更多關于USM和它如何工作的信息。
該技術的一個目標可能是在增強現實的眼鏡內,就像谷歌去年在I/O活動中展示的概念一樣,能夠檢測并提供實時翻譯,就在你眼前出現。不過,這項技術似乎還有點遙遠,谷歌在I/O大會期間對阿拉伯語的錯誤表述證明了它是多么容易出錯。