21世紀(jì)經(jīng)濟(jì)報(bào)道記者王峰北京報(bào)道 語(yǔ)言文字是大模型的資源池,語(yǔ)料庫(kù)的質(zhì)量決定著大模型的發(fā)展。而在大模型時(shí)代,語(yǔ)言文字已成為賦能產(chǎn)業(yè)發(fā)展的數(shù)據(jù)要素。
近日,教育部、國(guó)家語(yǔ)委、中央網(wǎng)信辦印發(fā)《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語(yǔ)言文字信息化發(fā)展的意見(jiàn)》(以下簡(jiǎn)稱《意見(jiàn)》),全面謀劃數(shù)字中文建設(shè)。
在3月31日教育部新聞發(fā)布會(huì)上,教育部語(yǔ)言文字信息管理司司長(zhǎng)劉培俊指出,《意見(jiàn)》創(chuàng)新應(yīng)用自然語(yǔ)言處理、大語(yǔ)言模型、多模態(tài)信息處理、知識(shí)圖譜、語(yǔ)料加工等五項(xiàng)前沿技術(shù),重點(diǎn)服務(wù)大語(yǔ)言模型等人工智能技術(shù)創(chuàng)新應(yīng)用“制高點(diǎn)”,夯實(shí)國(guó)家關(guān)鍵語(yǔ)料基礎(chǔ)設(shè)施“新基建”。
20世紀(jì)80年代,王選院士的團(tuán)隊(duì)發(fā)明激光照排技術(shù),并結(jié)合漢字的編碼標(biāo)準(zhǔn),突破了中文數(shù)字化的空間限制,讓承載中華文化的中文在全球互聯(lián)網(wǎng)空間獲得新生。
當(dāng)前,大語(yǔ)言模型技術(shù)對(duì)大規(guī)模高質(zhì)量語(yǔ)料提出前所未有的需求,賦予了數(shù)據(jù)中文化新的歷史內(nèi)涵和使命任務(wù)。
3月31日教育部新聞發(fā)布會(huì) 圖片來(lái)源:教育部官網(wǎng)
北京大學(xué)王選計(jì)算機(jī)研究所所長(zhǎng)湯幟認(rèn)為,新形勢(shì)下,語(yǔ)言文字將實(shí)現(xiàn)與信息技術(shù)的深度融合,要形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán),打造數(shù)字化引領(lǐng)品牌,有力服務(wù)教育發(fā)展、助力科技創(chuàng)新、賦能文化傳承、推動(dòng)產(chǎn)業(yè)升級(jí)、促進(jìn)社會(huì)進(jìn)步。
《意見(jiàn)》特別提出,要實(shí)施數(shù)字中文推動(dòng)產(chǎn)業(yè)升級(jí)行動(dòng)。支持語(yǔ)言文字信息技術(shù)新產(chǎn)品、新職業(yè)和新業(yè)態(tài)發(fā)展,鼓勵(lì)傳統(tǒng)語(yǔ)言產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型升級(jí),培育基于數(shù)字中文的新型語(yǔ)言產(chǎn)業(yè)。推動(dòng)語(yǔ)言資源、語(yǔ)言翻譯、智能機(jī)器人、中文內(nèi)容服務(wù)等軟硬件產(chǎn)品研發(fā)應(yīng)用,支持圍繞語(yǔ)音、語(yǔ)料、語(yǔ)言應(yīng)用生態(tài)形成產(chǎn)業(yè)聚集,鼓勵(lì)創(chuàng)建語(yǔ)言產(chǎn)業(yè)應(yīng)用示范品牌。
湯幟介紹,新形勢(shì)下,語(yǔ)言文字將實(shí)現(xiàn)從“靜態(tài)符號(hào)”向“動(dòng)態(tài)數(shù)字資產(chǎn)”,從“信息載體”向“生產(chǎn)要素”的轉(zhuǎn)型,要重點(diǎn)推動(dòng)語(yǔ)料庫(kù)、數(shù)據(jù)標(biāo)注與評(píng)價(jià)等標(biāo)準(zhǔn)的研制,支持文本生成與理解、語(yǔ)言翻譯、情感分析等各種任務(wù)。
比如,廣東省教育廳在廣州大學(xué)設(shè)立粵語(yǔ)語(yǔ)料庫(kù)建設(shè)與大模型評(píng)測(cè)重點(diǎn)實(shí)驗(yàn)室,為語(yǔ)料基礎(chǔ)設(shè)施建設(shè)、語(yǔ)言智能應(yīng)用等提供堅(jiān)實(shí)數(shù)據(jù)支撐,指導(dǎo)深圳大學(xué)建立語(yǔ)言障礙多模態(tài)數(shù)據(jù)庫(kù),涵蓋漢語(yǔ)失語(yǔ)癥語(yǔ)料庫(kù)、兒童語(yǔ)言障礙語(yǔ)料庫(kù),有力服務(wù)語(yǔ)言康復(fù)研究。
北京師范大學(xué)針對(duì)古漢語(yǔ)信息處理任務(wù)“低資源”“富知識(shí)”的特點(diǎn),以解決領(lǐng)域知識(shí)學(xué)習(xí)需求為核心任務(wù),使用1.8B(18億)參數(shù)量,訓(xùn)練出“AI太炎”古漢語(yǔ)大語(yǔ)言模型。
北京師范大學(xué)副校長(zhǎng)康震介紹,該模型在確保語(yǔ)料來(lái)源安全、語(yǔ)料內(nèi)容安全、語(yǔ)料標(biāo)注安全、模型安全等基礎(chǔ)上,能夠高質(zhì)量完成古典文獻(xiàn)釋讀,支持字詞釋義、文白翻譯、句讀標(biāo)點(diǎn)、用典分析等多種具有挑戰(zhàn)性的文言文理解任務(wù)。截至目前,該模型已廣泛應(yīng)用于海內(nèi)外的學(xué)術(shù)科研、基礎(chǔ)教育、編輯出版等多個(gè)領(lǐng)域,輔助古籍整理、語(yǔ)言研究、語(yǔ)文教育、辭書(shū)編纂等應(yīng)用場(chǎng)景任務(wù)。
《教育強(qiáng)國(guó)建設(shè)規(guī)劃綱要(2024—2035年)》提出,要建設(shè)新型國(guó)家語(yǔ)料庫(kù)?!兑庖?jiàn)》也提出,到2027年初步建成國(guó)家關(guān)鍵語(yǔ)料庫(kù)。語(yǔ)料庫(kù)在語(yǔ)言文字信息化工作中發(fā)揮什么樣的作用,下一步將如何推進(jìn)?
劉培俊指出,將聚焦“需求”這一關(guān)鍵。在關(guān)鍵學(xué)科、重點(diǎn)行業(yè)、戰(zhàn)略區(qū)域、民生期待和社會(huì)急需領(lǐng)域,分批建設(shè)規(guī)范、安全、優(yōu)質(zhì)的國(guó)家關(guān)鍵語(yǔ)料庫(kù)。目前,教育部、國(guó)家語(yǔ)委已經(jīng)支持建設(shè)了30余項(xiàng)關(guān)鍵領(lǐng)域的語(yǔ)料庫(kù)。
北京師范大學(xué)已建設(shè)了通用漢字全息數(shù)據(jù)庫(kù),《說(shuō)文》學(xué)數(shù)字資源庫(kù)、歷代碑刻與手寫文字屬性資源庫(kù)、甲骨文拓片資源庫(kù)等專業(yè)數(shù)字資源庫(kù)。
劉培俊指出,目前,教育部、國(guó)家語(yǔ)委已經(jīng)支持布局了五個(gè)領(lǐng)域的自主安全可控大語(yǔ)言模型建設(shè)項(xiàng)目,下一步將根據(jù)需求穩(wěn)步擴(kuò)大建設(shè)范圍,提升建設(shè)成效。
下一步,將逐步建立健全語(yǔ)料共建共享新機(jī)制,研制語(yǔ)言資源、語(yǔ)言數(shù)據(jù)、基礎(chǔ)語(yǔ)料以及大語(yǔ)言模型的技術(shù)和管理標(biāo)準(zhǔn),依托高校研究機(jī)構(gòu)推進(jìn)多學(xué)科交叉融合,為語(yǔ)言科技、語(yǔ)料建設(shè)以及人工智能創(chuàng)新應(yīng)用培養(yǎng)高素質(zhì)人才。
教育部語(yǔ)言文字應(yīng)用管理司副司長(zhǎng)王暉指出,當(dāng)前以DeepSeek等為代表的人工智能技術(shù)創(chuàng)新不斷取得突破性的進(jìn)展,在這個(gè)大背景下,國(guó)家提出這樣一個(gè)戰(zhàn)略部署,建設(shè)新型國(guó)家語(yǔ)料庫(kù),凸顯了其重要性、必要性和緊要性,我們應(yīng)當(dāng)積極統(tǒng)籌、廣泛協(xié)同、大力推進(jìn)。
“但是很多語(yǔ)料庫(kù)還處于單一文本模式和領(lǐng)域應(yīng)用階段,在建設(shè)的理念、技術(shù)和方法、規(guī)模,以及數(shù)據(jù)多樣性、時(shí)效性尤其是與人工智能相結(jié)合的大規(guī)模應(yīng)用方面還存在不足,難以滿足多元化、動(dòng)態(tài)化尤其是智能化的語(yǔ)言數(shù)據(jù)需求。”王暉說(shuō)。
對(duì)此,下一步將立足人工智能時(shí)代大背景,突破傳統(tǒng)語(yǔ)料庫(kù)單一文本模式和領(lǐng)域應(yīng)用壁壘,以大模型訓(xùn)練及性能評(píng)測(cè)、智能計(jì)算為核心,以新質(zhì)態(tài)、多模態(tài)、多語(yǔ)言、大規(guī)模、全域性為突出特性,為通用領(lǐng)域和細(xì)分領(lǐng)域多場(chǎng)景應(yīng)用及創(chuàng)新發(fā)展提供規(guī)范、可信、高質(zhì)量的語(yǔ)言文化語(yǔ)料資源。
據(jù)介紹,目前已經(jīng)啟動(dòng)開(kāi)發(fā)建設(shè)“中華文脈新型語(yǔ)料庫(kù)”“中華大閱讀體系語(yǔ)料庫(kù)”,以這兩個(gè)示范庫(kù)建設(shè)整體打造出標(biāo)桿。
“中華文脈新型語(yǔ)料庫(kù)可以簡(jiǎn)單理解為瞄準(zhǔn)的是智慧教師,中華大閱讀體系語(yǔ)料庫(kù)瞄準(zhǔn)的是智慧學(xué)伴。在此基礎(chǔ)上,探索建設(shè)系列教育、語(yǔ)言文化國(guó)家新型語(yǔ)料庫(kù)群,服務(wù)教育強(qiáng)國(guó)、文化強(qiáng)國(guó)建設(shè)。”王暉說(shuō)。
本文鏈接:http://www.enbeike.cn/news-1-43895-0.html語(yǔ)言文字領(lǐng)域重大部署:國(guó)家隊(duì)開(kāi)工新基建,高品質(zhì)“投喂”大模型
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),不代表本站觀點(diǎn),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇:國(guó)內(nèi)獨(dú)角獸企業(yè)估值超1.5萬(wàn)億美元!北京獨(dú)角獸企業(yè)數(shù)量和估值全國(guó)第一
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕