他花了兩周時間,取得了令人目瞪口呆的古文閱讀水平。 近年來, 人工智能技術(shù)與人文歷史研究碰撞出不少火花,上個月MIT與谷歌大腦團隊的研究者們發(fā)布了一項最新研究,利用AI技術(shù)破解了失傳的古文字,這也使我們不禁好奇,AI對于古代漢語的理解能力怎么樣?近日,北京師范大學的研究團隊嘗試讓機器從頭學習文言知識,并開始像古人一樣練習句讀。 每當問起語文老師,如何提升文言文閱讀能力? 一定會被告知:閱讀能力的提升,不是一朝一夕…… 如果我們讓最擅長記憶和積累的計算機來閱讀古文,它是不是可以做得很棒? 日前,北師大中文信息處理與古典文獻學專業(yè)的研究者們嘗試訓練一個“飽讀詩書”的語言模型,并讓TA來參與古籍整理的工作。模型學習的對象包括《四庫全書》與殆知閣語料庫(規(guī)模約33億字),而學習的方法則來自語言智能領(lǐng)域最新的深層語言模型。 2018年,谷歌公司推出了深層語言模型BERT,在閱讀理解等11項語言理解任務(wù)中刷新記錄,隨后,CMU、百度、OpenAI、Facebook等機構(gòu)也在其基礎(chǔ)上推出了改進版本。和之前的方法相比,深層語言模型究竟有什么優(yōu)勢呢?一是可以吞吐超大量的數(shù)據(jù),二是有很強的記憶和理解能力。 現(xiàn)有的深層語言模型覆蓋了英文和中文,但卻不具備理解古漢語的能力。于是,研究者們希望通過上述海量的古漢語數(shù)據(jù)來讓機器“感受”一下博大精深的詩書禮樂文化。在多塊計算卡上并行訓練了約一周時間后,古漢語BERT初出江湖,TA可以像人一樣聯(lián)系上下文理解字詞含義,并將其以數(shù)學向量表示。為了檢測其理解效果,研究者們引入了句讀任務(wù)。 在古典文史學習過程中,句讀通常是必備的基本功。古文句讀不僅需要考慮當前文本的語義和語境信息,還需要綜合歷史文化常識,對古漢語知識有較高要求。宋代大儒朱熹讀韓愈文章,便有“然不知此句當如何讀”之惑,近代經(jīng)學大師黃侃在致陸宗達的信中也表示“侃所點書,句讀頗有誤處,望隨時改正?!?/p> 在句讀的過程中,有三項重要的技能點: · 利用古漢語特有的節(jié)奏和韻律感; · 聯(lián)系上下文語境信息推敲求解; · 調(diào)用文本之外的歷史文化知識。 試看對應(yīng)的三例: 1.梅花發(fā)寒梢掛著瑤臺月瑤臺月和羹心事履霜時節(jié)野橋流水聲嗚咽行人立馬空愁絕空愁絕為誰凝佇為誰攀折 (朱熹《憶秦娥》) 2.李十一郎行修初娶江西廉史王仲舒女貞懿賢淑行修敬之如賓王女有幼妹嘗挈以自隨行修亦深所鞠愛 (馮夢龍《情史類略》) 3.此即昔人所謂東坡詩如大家婦女大踏步走出山谷便不免花面丫頭屏角窺人扭捏作態(tài)之意 (柳亞子《磨劍室雜拉話》) 第1例為宋詞,其開頭很容易誤斷成“梅花發(fā)寒梢,掛著瑤臺月”,而事實上“發(fā)”和“月”古音押韻,“瑤臺月”與“空愁絕”則利用重復表示詠嘆效果,故應(yīng)斷為: 梅花發(fā) 〇 寒梢掛著瑤臺月 〇 瑤臺月 〇 和羹心事 〇 履霜時節(jié) 〇 野橋流水聲嗚咽 〇 行人立馬空愁絕 〇 空愁絕 〇 為誰凝佇 〇 為誰攀折 對于第2例來說,“王仲舒女貞懿賢淑行修”處很容易斷錯,原因是未理解“行修”是人名,或把“貞懿”誤當人名。其句讀重點為聯(lián)系前文理解“行修”為夫君,其所娶妻子“貞懿賢淑”,“行修”對其十分尊敬,故應(yīng)斷為: 李十一郎行修 〇 初娶江西廉史王仲舒女 〇 貞懿賢淑 〇 行修敬之如賓 〇 王女有幼妹 〇 嘗挈以自隨 〇 行修亦深所鞠愛 第3例出自清華大學解志熙老師文章《斷句背后的知與識——以三則詩文評為例》,該例曾用于清華大學研究生入學考試,《柳亞子文集·磨劍室文錄》與參加考試的大部分學子均將其誤斷成: 此即昔人所謂東坡詩如大家婦女,大踏步走出山谷,便不免花面丫頭,屏角窺人,扭捏作態(tài)之意。 此處句讀關(guān)鍵在于“山谷”指黃庭堅(文本之外的知識),柳亞子意在比較蘇東坡和黃庭堅兩人的詩風,故應(yīng)斷作: 此即昔人所謂東坡詩如大家婦女,大踏步走出,山谷便不免花面丫頭,屏角窺人,扭捏作態(tài)之意。 雖然現(xiàn)在很多古代經(jīng)典都有了標點本,但其中常常包含錯誤,上述《柳亞子文集》即是一例。并且,在現(xiàn)有的古籍數(shù)據(jù)中,大部分文獻仍未實現(xiàn)句讀。據(jù)統(tǒng)計,殆知閣古代文獻藏書2.0版語料庫規(guī)模約33億字,其中僅25%左右數(shù)據(jù)包含標點。 如果依靠人工繼續(xù)整理這些古籍,則不知何年何月才能整理到頭。如果依靠計算機,現(xiàn)有的技術(shù)方法卻普遍只能達到60-70%的準確率,還很難為人所用。 深層語言模型在各種語言理解任務(wù)中都取得了大放異彩的效果,能不能GET上述三項技能,幫助我們解決句讀難題呢? 為了讓計算機在理解文義的基礎(chǔ)上具備句讀功能,研究者們準備了大量帶標點的數(shù)據(jù),包括超過30萬首古詩,2萬余首詞,800多萬段古文,模型還引入了處理標簽序列的機制來專門學習句讀方法。 由于詩詞具有較為明顯的格律特征,如大部分古詩為四五七言,而詞牌名可以提示斷句規(guī)則,為了幫助模型更好地學習語義和韻律信息,在預(yù)處理數(shù)據(jù)時保留了古詩題目,并去除詞牌名。 在多塊計算卡上并行學習了數(shù)天句讀后,模型終于可以“出山”。在測試環(huán)節(jié),研究者們引入了兩輪難度不同的實驗: 普通版測試對象為一批模型從來沒見過的詩詞古文數(shù)據(jù)(古詩5000首,詞2000首,古文5000段),試驗中,模型在詩、詞、古文的句讀準確率上分別達到了99%、95%和92%以上,較之已有的自動斷句方法取得了巨大提升。 升級版測試對象為已出版古籍中的句讀疑難案例。根據(jù)司馬朝軍、顏春峰、汪少華等學者研究,從中華書局出版的《欽定四庫全書總目》、《周禮正義》中抽取出了60則句讀誤例(排除了模型訓練時見過的數(shù)據(jù))。這兩本古籍均由該領(lǐng)域?qū)<彝瓿烧砗途渥x標點,并經(jīng)多次校對,其中的誤例可謂句讀任務(wù)的難點所在。 《欽定四庫全書總目》(1997年版)由李學勤作序,是今人重要的古籍整理成果。從司馬朝軍的研究中找出了《總目》中11則與句讀相關(guān)的錯誤,發(fā)現(xiàn)模型可以完全做對8則,試舉正誤例各一如下: ① 原文:柏何人,斯敢奮筆而進退孔子哉?(《詩疑》第216頁) 模型:柏何人斯 〇 敢奮筆而進退孔子哉 (模型正確) 作者按:“斯”字上屬?!昂稳怂埂睘樯瞎帕曊Z。 ② 原文:其中如“大衍”類蓍卦發(fā)微,欲以新術(shù)改《周易》揲蓍之法,殊乖古義。古歷會稽題數(shù)既誤,且為設(shè)問,以明大衍之理。(《數(shù)學九章》第1406頁) 模型:其中如大衍類蓍卦發(fā)微 〇 欲以新術(shù)改 〇 周易 〇 揲蓍之法 〇 殊乖古義 〇 古歷會稽題數(shù)既誤 〇 且為設(shè)問 〇 以明大衍之理 模型句讀與原文在一處犯了同樣的錯誤,當作: ……《周易》揲蓍之法,殊乖古義、古歷。會稽題數(shù)既誤,且為設(shè)問,以明大衍之理。 考慮到上古語言與中古語言的差異,為了驗證模型在處理上古語言時的效果,又選擇了王文錦、陳玉霞點校的《周禮正義》一書,將顏春峰、汪少華整理的49則斷句誤例送入模型測試。其中,模型能完全正確斷句27則,斷句存在問題的有22則。 原文:《公羊說》曰:“師出曰祠,兵入曰振旅?!保?485頁) 模型:公羊說 〇 曰 〇 師出曰祠兵 〇 入曰振旅 (模型正確) 《周禮正義》的模型斷句誤例中,較為集中的是對字義的考證,尤其是引《說文》時的錯誤,比如 “服,牝服,車之材”誤斷作“服牝,服車之材”?!胺弊鳛椤墩f文》中的字頭,其用法與其他古文表達有較大區(qū)別。此外,因盟誓、考課、葬禮等禮儀制度不明而致誤亦有數(shù)例。 從經(jīng)典古籍中的斷句疑難案例可以看出,基于深層語言模型的句讀方法在處理古籍一般句式表達時有明顯優(yōu)勢。而在處理《說文》、古代制度等專業(yè)性較強的數(shù)據(jù)時尚存在問題,這與該類型學習數(shù)據(jù)相對較少有關(guān)。總的來說,模型在已出版古籍的斷句疑難誤例上取得了很好的效果,測試共計60例(均為專家標點錯誤,并經(jīng)多次校對未查出),而模型竟能完全正確斷句35例,可以說達到了較為實用的水平。 看來,讓AI一口氣讀完四庫全書,取得的效果還不錯—— “我是中文系畢業(yè)的,實話說,模型的閱讀和句讀能力肯定比我強,看測試case的時候,常常感嘆,它做得真的挺不錯的?!薄邪l(fā)團隊成員李紳 “有時候甚至強過博士后,模型斷句效果超出了我的預(yù)期,在我們文獻整理的項目中已經(jīng)開始用它來做預(yù)處理。”——研發(fā)團隊成員諸雨辰(古典文獻學博士、歷史學博士后) 從應(yīng)用角度看,這里的句讀方法既可以用于大規(guī)模古籍整理中預(yù)斷句工作,大大減輕專家負擔,也可用于校對環(huán)節(jié),幫助檢測人工斷句或標點的錯誤。 為了更好地服務(wù)于古籍整理和研究工作,基于古漢語BERT的句讀和標點工具已經(jīng)對外開放: https://seg./ 在后續(xù)工作中,除了提升已有的句讀模型,還希望將基于深層語言模型的古漢語知識表示方法應(yīng)用到古文翻譯、古詩文創(chuàng)作等其他古漢語信息處理任務(wù)中。 參考文獻: [1] 朱熹. 韓文考異. 影印文淵閣四庫全書(第1073冊). 臺灣商務(wù)印書館, 1986. [2] 黃侃. 黃侃手批白文十三經(jīng). 上海古籍出版社, 1983. [3] 解志熙. 斷句背后的知與識——以三則詩文評為例, 文史知識, 2017(5). [4] 王博立,史曉東,蘇勁松.一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的古文斷句方法.北京大學學報(自然科學版),2017,53(02). [5] 張開旭,夏云慶,宇航.基于條件隨機場的古文自動斷句與標點方法.清華大學學報(自然科學版)網(wǎng)絡(luò).預(yù)覽,2009,49(10). [6] Devlin Jacob et al. Bert: Pre-training of deep bidirectional transformers for language under-standing. NAACL 2019. [7] 司馬朝軍.中華書局《欽定四庫全書總目》整理本校記.人文論叢, 2013(00). [8] 顏春峰,汪少華.從《周禮正義》點校本談避免破句的方法.古漢語研究, 2014(02). 作者簡介
|
|