隨著全球化的深入推進(jìn),跨語言信息傳遞的即時性需求正以前所未有的速度增長。從跨國企業(yè)的云端會議到學(xué)術(shù)領(lǐng)域的全球協(xié)作,不同場景下的實(shí)時語言轉(zhuǎn)換需求,正推動實(shí)時翻譯技術(shù)成為人工智能領(lǐng)域的重要突破口。
根據(jù)中國翻譯協(xié)會《人工智能與翻譯報告》,AI翻譯技術(shù)已從實(shí)驗(yàn)室走向大規(guī)模商用,廣泛應(yīng)用于跨境商貿(mào)、文化交流、教育醫(yī)療等領(lǐng)域。截至2024年底,中國“機(jī)器翻譯”或“人工智能翻譯”企業(yè)增至1545家。AI翻譯技術(shù)加速融入多模態(tài)場景,智能翻譯設(shè)備如翻譯耳機(jī)加速涌現(xiàn)。
翻譯耳機(jī)的最大瓶頸在于實(shí)時翻譯的速度與準(zhǔn)確性。用戶對AI翻譯設(shè)備的期望更高,理想狀態(tài)是“即說即譯”,延遲控制在1秒以內(nèi)。這要求在極低延遲下仍能確保翻譯的語義連貫性和準(zhǔn)確性。時空壺技術(shù)有限公司CTO石偉接受時代周報記者采訪時表示,如何在3秒內(nèi)兼顧低延遲與高質(zhì)量翻譯,是當(dāng)前最大的技術(shù)挑戰(zhàn)。
深圳時空壺技術(shù)有限公司(下文簡稱“時空壺”)成立于2016年,致力于融合人工智能與硬件技術(shù),開發(fā)突破語言障礙的AI翻譯產(chǎn)品。據(jù)悉,其產(chǎn)品已銷往全球171個國家和地區(qū),覆蓋全球73.39%的區(qū)域,擁有超20萬用戶和4300多家行業(yè)客戶。
自研模型約占一半
時代周報:目前時空壺的翻譯耳機(jī)支持多少種語言的互譯?
石偉:我們目前在線支持41種語言的互譯,并有一個專門的團(tuán)隊(duì)在持續(xù)擴(kuò)展語言支持。作為產(chǎn)品和服務(wù)提供商,我們并不局限于自研模型,而是會全球范圍內(nèi)尋找和適配最優(yōu)的語言模型。
比如,某些本地化語言,如泰語或日語,可能連谷歌、微軟這樣的大公司都做得不夠好,我們會針對這些語言自研或優(yōu)化模型。對于達(dá)不到我們標(biāo)準(zhǔn)的語言,哪怕競品宣稱支持100多種語言,我們也不會上線,因?yàn)橛脩趔w驗(yàn)是第一位的。
目前,我們支持93種口音,尤其像英語這種口音眾多的語言。離線方面,新產(chǎn)品“新T1”支持11種語言、31個語言對,全部基于自研模型,不依賴第三方。
時代周報:在自研模型和第三方模型的使用比例上,大概是怎樣的情況?
石偉:具體比例因涉及語音識別(ASR)、機(jī)器翻譯和語音合成(TTS)等多個環(huán)節(jié)而難以一概而論,大約各占一半。目前,語音識別的自研語言較少,約5種,如泰語、阿拉伯語等。翻譯部分,我們正逐步從通用大模型轉(zhuǎn)向自研微調(diào)模型,TTS也基本實(shí)現(xiàn)自研??傮w而言,我們越來越注重核心技術(shù)的自主研發(fā),以優(yōu)化性能和提升用戶體驗(yàn)。
時代周報:時空壺發(fā)布了Bable OS系統(tǒng),為什么一個翻譯設(shè)備需要專門開發(fā)一個系統(tǒng)?它在其中起到什么作用?
石偉:Bable OS的發(fā)布有三重意義。首先,名字靈感來自《圣經(jīng)》中的巴別塔和科幻小說《銀河系漫游指南》中的巴別魚,象征無障礙溝通的理念,傳遞我們追求極致技術(shù)的愿景。其次,我們提出了“通往巴別之路”的概念,像自動駕駛分級一樣,將翻譯技術(shù)的發(fā)展分為幾個階段,向外界展示我們的技術(shù)路徑。第三,我們公開了部分技術(shù)架構(gòu),比如雙向全雙工通信、降噪算法、離線與在線混合模型等,分享如何構(gòu)建這樣的系統(tǒng)。
此外,時空壺還計劃開源部分純文本翻譯模型,支持幾十種語言,保持高準(zhǔn)確率。這不僅是為了促進(jìn)行業(yè)發(fā)展,也因?yàn)槲覀儚拈_源社區(qū)受益匪淺,希望回饋產(chǎn)業(yè),共同進(jìn)步。
時代周報:大模型需要大量數(shù)據(jù)訓(xùn)練,時空壺的數(shù)據(jù)從何而來?如何保護(hù)用戶隱私?
石偉:用戶隱私是我們非常重視的。我們從一開始就承諾,服務(wù)器不保留任何用戶數(shù)據(jù)。未來可能會推出用戶改善計劃,允許用戶自愿提供脫敏數(shù)據(jù),但目前還未實(shí)施,客戶端數(shù)據(jù)也由用戶自行管理。訓(xùn)練數(shù)據(jù)主要來自三方面:一是公開渠道,比如網(wǎng)絡(luò)爬蟲獲取的數(shù)據(jù),經(jīng)過多年清洗和標(biāo)注提升質(zhì)量;二是通過大模型蒸餾,利用大模型的翻譯能力生成高質(zhì)量數(shù)據(jù);三是與全球數(shù)據(jù)公司或眾包機(jī)構(gòu)合作,由人工標(biāo)注生成接近人類水平的高質(zhì)量數(shù)據(jù)。這些數(shù)據(jù)分階段積累,確保模型性能不斷提升。
核心為雙向?qū)崟r同傳
時代周報:與科大訊飛等競品相比,時空壺的核心競爭力是什么?
石偉:與科大訊飛的競爭更多是錯位競爭。早期他們主推手持翻譯機(jī),市場主要在國內(nèi),而我們專注翻譯耳機(jī),主攻海外市場。手持翻譯機(jī)的交互體驗(yàn)較為繁瑣,需要點(diǎn)按、傳遞設(shè)備,而時空壺的耳機(jī)實(shí)現(xiàn)了無縫的雙向?qū)崟r同傳,接近真人交流的體驗(yàn)。
這需要突破兩大技術(shù)難點(diǎn):一是全雙工通信,確保雙方可以隨時打斷對方講話,像自然對話一樣;二是解決串音問題,避免對方聲音干擾識別。這兩點(diǎn)是我們從2016-2017年原型機(jī)開發(fā)到2019年產(chǎn)品成熟的關(guān)鍵突破。
目前,市場上包括訊飛在內(nèi)的其他AI耳機(jī),雖然也加入了翻譯功能,但大多無法實(shí)現(xiàn)雙向?qū)崟r同傳。這也是時空壺的核心競爭力。
時代周報:時空壺的核心用戶群體是哪些?是會議場景,還是旅游、移民、教育等場景?
石偉:我們的用戶群體主要是需要長時間、多輪次跨語言溝通的場景,比如商務(wù)、醫(yī)療、教育等行業(yè)場景,以及移民群體。北美是我們最大的市場,因?yàn)槠湟泼駠姨匦詭砹硕鄻踊恼Z言需求。旅游場景也有需求,但使用頻次較低,通常是短句問路或詢價,適合手持翻譯機(jī)。而我們的耳機(jī)更適合深入、雙向的長時間對話。
時代周報:在To C和To B市場上,時空壺如何權(quán)衡優(yōu)先級?
石偉:目前我們所有產(chǎn)品都以To C為主,營銷和產(chǎn)品形態(tài)都面向消費(fèi)者。雖然我們看到To B市場的潛力,特別是在商務(wù)和行業(yè)場景,但目前市場尚未成熟到需要針對特定行業(yè)定制硬件的程度。我們更傾向于開發(fā)適用于多場景的通用產(chǎn)品,通過不同模式滿足多樣化需求。
時代周報:時空壺是否計劃自研AI眼鏡,或?qū)㈦p向?qū)崟r同傳技術(shù)融入其他品牌的AI眼鏡?
石偉:我們對AI眼鏡一直保持開放態(tài)度。早在2022年,我們就開始關(guān)注AR眼鏡產(chǎn)業(yè),與雷鳥、Xreal等廠商有過深入技術(shù)交流。
我們的核心技術(shù)是實(shí)時雙向同傳,不局限于耳機(jī)這一硬件形態(tài),而是希望適配不同場景和設(shè)備,比如眼鏡或頸掛式設(shè)備。但AI眼鏡的使用場景與耳機(jī)不同,眼鏡更適合單向信息接收,比如聽講或看實(shí)時字幕翻譯,而雙向交流需要雙方都佩戴設(shè)備,這在實(shí)際場景中概率較低。因此,我們會繼續(xù)探索合作或自研。
賽道遠(yuǎn)未成熟
時代周報:翻譯不僅是語言的轉(zhuǎn)換,還是文化的重構(gòu)。你如何看待翻譯耳機(jī)在處理“語境”、“語氣”、“幽默”甚至“禁忌詞”時的能力與局限?
石偉:實(shí)話實(shí)說,目前這方面還做不到完美。實(shí)時翻譯中,語境和語氣的捕捉非常困難,尤其是個性化詞匯或行業(yè)術(shù)語。如果用戶能提前提供演講稿、PPT或?qū)僭~匯表,我們可以通過定制化翻譯功能優(yōu)化效果。但像幽默或文化禁忌的處理,依賴于模型技術(shù)的進(jìn)一步突破。目前整個行業(yè)都還沒到這個階段。我反而期待有一天能操心這些問題,因?yàn)槟且馕吨g的實(shí)時性和準(zhǔn)確性已經(jīng)解決得差不多了。
時代周報:你如何看待翻譯設(shè)備這一賽道的成熟度和潛力邊界?
石偉:這個賽道遠(yuǎn)未成熟。全球翻譯APP的下載量高達(dá)十幾億,顯示了巨大的需求。而我們的硬件瞄準(zhǔn)的是線下、真人場景的翻譯需求,市場空間非常大。技術(shù)上,我們自評用戶期望是90分,我們目前可能達(dá)到80分。因此,無論是技術(shù)發(fā)展還是市場空間,這個賽道都有很大潛力,預(yù)計未來幾年仍會保持翻倍增長。
時代周報:如果翻譯技術(shù)足夠成熟,我們是否還需要學(xué)習(xí)外語?你怎么看“技術(shù)替代語言學(xué)習(xí)”這一趨勢?
石偉:學(xué)習(xí)外語有兩個層次的需求。第一是交流需求,如果AI翻譯技術(shù)非常成熟,這部分需求可能會大幅降低。但第二是更深層次的文化和思維需求。學(xué)習(xí)語言不僅是溝通工具,還能幫助理解文化、思維邏輯和表達(dá)習(xí)慣。比如讀英文原版論文或詩歌,能更直接地感受其內(nèi)涵,這是翻譯難以完全替代的。所以,未來外語學(xué)習(xí)的需求可能會減少,但不會消失,更多會變成一種像藝術(shù)或文學(xué)一樣的興趣追求。
本文鏈接:http://www.enbeike.cn/news-2-2351-0.html語言無國界還有多遠(yuǎn)?時空壺CTO石偉:關(guān)鍵在于雙向?qū)崟r同傳
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點(diǎn)擊“
”按鈕