當前,我國經(jīng)濟發(fā)展方式已轉(zhuǎn)向高質(zhì)量發(fā)展的新階段,依靠資源和要素投入的驅(qū)動力持續(xù)減弱,創(chuàng)新逐漸成為第一動力,源源不斷地發(fā)展出新技術(shù)、新業(yè)態(tài)、新模式,持續(xù)提高勞動生產(chǎn)率,加快構(gòu)建了以國內(nèi)大循環(huán)為主體、國內(nèi)國際雙循環(huán)互相促進的新發(fā)展格局。
在過往的一年中,思必馳研發(fā)技術(shù)不斷創(chuàng)新,推出發(fā)音人音色定制平臺、DUI標注訓練一體化平臺、智云譯芯平臺、千語千訓系統(tǒng),并上線24K高保真音色,情感合成等技術(shù),助力百業(yè)實現(xiàn)效率提升。同時,思必馳技術(shù)在多項比賽中獲得大獎,充分印證了自己的技術(shù)創(chuàng)新實力。
(相關(guān)資料圖)
01蟬聯(lián)中文醫(yī)療權(quán)威榜單CBLUE
在醫(yī)療行業(yè),人工智能、大數(shù)據(jù)技術(shù)等應(yīng)用場景逐漸豐富,在幫助人類恢復(fù)健康中發(fā)揮了重要作用。人工智能技術(shù)也逐漸成為影響醫(yī)療行業(yè)發(fā)展和提升醫(yī)療服務(wù)水平的重要因素。過去的一年中,思必馳語言與知識團隊在醫(yī)療領(lǐng)域再次取得關(guān)鍵突破,在CBLUE2.0月度榜單中蟬聯(lián)冠軍,分別奪得2月、3月榜單冠軍。
基于千萬量級的醫(yī)療領(lǐng)域語料,思必馳自主構(gòu)建了醫(yī)療領(lǐng)域預(yù)訓練語言模型和醫(yī)療知識圖譜,針對下游任務(wù)微調(diào)并進行模型融合,在醫(yī)療行業(yè)應(yīng)用中體現(xiàn)了重要價值。榜單任務(wù)形式多樣,涉及知識抽取、意圖分類、語義匹配,對話生成等多個基礎(chǔ)NLP技術(shù)。
在此之前,思必馳已成功將醫(yī)療領(lǐng)域NLP技術(shù)在多個項目中落地,并在CBLUE1.0榜單中取得佳績,此次登頂有效驗證了思必馳語言與知識團隊在醫(yī)療NLP技術(shù)的專業(yè)性與全面性。
02刷新Text-to-SQL語義解析任務(wù)多個榜單紀錄
在日常生活和生產(chǎn)中,常會產(chǎn)生的海量的數(shù)據(jù),這些數(shù)據(jù)被大量存儲在結(jié)構(gòu)化數(shù)據(jù)庫中。此前,人們通過直接編寫SQL語句和數(shù)據(jù)庫進行交互,但此類方法效率較低。后來,人們開始使用基于自然語言發(fā)展起來的數(shù)據(jù)庫查詢接口(NLIDB)與數(shù)據(jù)庫進行交互,該方法高效簡潔,而NLIDB背后的核心技術(shù)就是Text-to-SQL語義解析。
思必馳-上海交大人機交互聯(lián)合實驗室團隊在取得Text-to-SQL任務(wù)英文基準榜單Spider第一名后,過去的一年中,又取得Text-to-SQL任務(wù)中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務(wù)三個最經(jīng)典的中文數(shù)據(jù)集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團隊在之前提出的線圖增強的Text-to-SQL模型LGESQL的基礎(chǔ)上,進一步提出了結(jié)構(gòu)化的動態(tài)解碼方案GTL,使得模型既能很好地編碼結(jié)構(gòu)化的異構(gòu)輸入,同時也能夠?qū)崿F(xiàn)高效準確的結(jié)構(gòu)化解碼。
03榮獲IWSLT 2022英中同聲傳譯冠軍
IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一,設(shè)置了同聲傳譯、離線語音翻譯等7個任務(wù)。思必馳-上海交大聯(lián)合團隊(AISP-SJTU)參加英-中同聲傳譯任務(wù),以優(yōu)異的成績獲得Speech-to-Text賽道第一名。
思必馳-上海交大團隊在充分總結(jié)前人經(jīng)驗的基礎(chǔ)上,積極開拓創(chuàng)新,采用了引入預(yù)訓練語言模型,大幅提升ASR性能、無限左看,隨機右看等關(guān)鍵技術(shù)。
本次比賽,結(jié)合各種技術(shù)手段打造了英-中同聲傳譯最優(yōu)基線,也對端到端模型做了初步探索。端到端模型在速度和誤差傳導上比級聯(lián)模型更占優(yōu)勢,未來思必馳-上海交大聯(lián)合團隊希望進一步研究有效的數(shù)據(jù)擴增手段,來提升端到端模型的翻譯效果。
04登頂中文知識圖譜問答權(quán)威榜單KgCLUE
在過去的一年中,思必馳語言與知識團隊研發(fā)的AI-KBQA算法一舉拿下了大規(guī)模權(quán)威中文知識圖譜問答KgCLUE測評榜單第一名,這充分印證了團隊對中文自然語言及知識圖譜精確的語義解析、知識檢索和知識推理能力。
在參與比賽的過程中,思必馳語言與知識團隊針對KBQA任務(wù)的特點,從以下三個方面設(shè)計并優(yōu)化命名實體識別、實體鏈接、屬性匹配模塊:
高細粒度知識圖譜:團隊預(yù)研了千萬量級的高細粒度的中文知識圖譜。在命名實體識別模塊,高細粒度的知識圖譜可以有效幫助模型識別同名實體,提升實體識別的準確性,同時可以有效減少因同名實體帶來的實體鏈接錯誤。
多階段實體鏈接:將實體的檢索分為多個階段,檢索對象擴大至與實體相關(guān)的文本片段以提高模型的實體檢索能力。
屬性匹配增強:鑒于實體中往往具有不同值的相似屬性,模型在對實體的屬性進行預(yù)測時,不僅對單個屬性進行預(yù)測,同時也會對全部的屬性列表進行篩選,從而在相似屬性上更具有區(qū)分度。
團隊在參與比賽過程中,不斷改進和優(yōu)化模型,使用模型集成的方式來增強模型的泛化能力。AI-KBQA算法的得分由最初的94.81提升至98.78,在大規(guī)模中文知識圖譜問答榜KgCLUE1.0 中排名第一,并且在多項子任務(wù)得分上同樣取得了第一名的佳績。
思必馳已經(jīng)形成產(chǎn)學研一體化的成熟發(fā)展模式,始終堅持基礎(chǔ)源頭技術(shù)創(chuàng)新,不斷鞏固技術(shù)研發(fā)創(chuàng)新實力,未來思必馳將繼續(xù)深耕技術(shù)研發(fā),助力各行各業(yè)實現(xiàn)智慧化發(fā)展。