百度斬獲MRQA 2019閱讀理解國際評測冠軍 包攬12個(gè)測試集中10項(xiàng)第一

發(fā)布于: 2019-08-19
?來源:鳳凰網(wǎng)科技? 2019-08-19

在國際自然語言處理領(lǐng)域頗具影響力的百度,再傳捷報(bào),再度奪冠。2019年8月12日,MRQA 2019閱讀理解國際評測落下帷幕。得益于自研開源深度學(xué)習(xí)平臺飛槳(PaddlePaddle)的強(qiáng)勢助攻,百度以平均 F1 值72.55%,超出第二名近兩個(gè)百分點(diǎn)的絕對優(yōu)勢獲得冠軍。同時(shí),在全部12個(gè)測試數(shù)據(jù)集中的10個(gè)上均排名第一。

本屆評測吸引了來自蘋果公司、艾倫人工智能研究院(AI2)、哈工大訊飛聯(lián)合實(shí)驗(yàn)室、香港科技大學(xué)、富士施樂等全球知名企業(yè)和高校研究院所隊(duì)伍的參與,高手如云。

MRQA 2019閱讀理解國際評測最終榜單百度排名第一

MRQA全稱是Machine Reading for Question Answering,即問答閱讀理解。問答閱讀理解是自然語言處理領(lǐng)域當(dāng)前最熱門的研究方向之一,已成為評估機(jī)器語言理解能力的重要方式,也是搜索引擎和對話系統(tǒng)等行業(yè)應(yīng)用中的關(guān)鍵技術(shù)。第二屆MRQA workshop(MRQA 2019) 將于今年11月在自然語言處理領(lǐng)域頂級學(xué)術(shù)會議EMNLP 2019上舉辦。本屆研討會在Research Track的基礎(chǔ)上,設(shè)立了一個(gè)新的問答閱讀理解評測。與以往僅聚焦于單個(gè)數(shù)據(jù)集的閱讀理解評測不同,本次評測主要有兩大挑戰(zhàn):

首先,本次評測包括訓(xùn)練集和測試集共18個(gè)閱讀理解數(shù)據(jù)集,覆蓋面廣,綜合難度高。針對語言理解所應(yīng)解決的不同挑戰(zhàn),評測從多個(gè)角度考察了閱讀理解模型理解語言的能力。從數(shù)據(jù)源角度看,其文檔來源是多樣化的,包括百科、新聞、搜索結(jié)果、電影、生物醫(yī)藥甚至演講腳本。從應(yīng)用任務(wù)角度來看,評測不僅包含了面向問答設(shè)計(jì)的數(shù)據(jù)集,還包含了面向信息抽取、語義解析等任務(wù)設(shè)計(jì)的數(shù)據(jù)集。此外,從語言理解的能力來看,評測除了包含傳統(tǒng)的抽取式問答數(shù)據(jù)集,還包含了多個(gè)需要推理和計(jì)算的數(shù)據(jù)集。本次評測可謂機(jī)器閱讀理解的“十項(xiàng)全能賽”。

本次評測的18個(gè)數(shù)據(jù)集

更重要的是,本次評測要求參賽隊(duì)伍僅可使用6個(gè)數(shù)據(jù)集訓(xùn)練一個(gè)統(tǒng)一的閱讀理解模型,之后在其它12個(gè)分布各異的數(shù)據(jù)集上測試模型效果。更困難的是,測試階段中有6個(gè)在訓(xùn)練階段完全沒見過的未知來源數(shù)據(jù)集。數(shù)據(jù)集分布的巨大差異和測試數(shù)據(jù)來源的完全未知為參評系統(tǒng)帶來了極大的挑戰(zhàn)。這樣的評測設(shè)置重點(diǎn)考察了閱讀理解模型的泛化能力。模型的泛化能力通俗來講就是模型對未知數(shù)據(jù)的預(yù)測能力,它是機(jī)器學(xué)習(xí)模型最重要的性質(zhì)之一,決定了模型是否真正具備實(shí)用性。能夠解決好該問題,意味著模型具有了一定的通用能力,在實(shí)際應(yīng)用中面對不確定的數(shù)據(jù),也能夠達(dá)到可用的效果。

百度D-NET通用“預(yù)訓(xùn)練-微調(diào)”模型訓(xùn)練框架

針對上述問題,百度在本次評測中提出了一個(gè)通用的“預(yù)訓(xùn)練-微調(diào)”模型訓(xùn)練框架D(ecathlon)-NET。目前,“預(yù)訓(xùn)練-微調(diào)”在自然語言處理領(lǐng)域已成為一種新的、被廣泛采用的學(xué)習(xí)范式,即首先在大規(guī)模無標(biāo)簽語料上以語言模型為目標(biāo)進(jìn)行預(yù)訓(xùn)練,然后再針對特定任務(wù),如閱讀理解進(jìn)行針對性的微調(diào)。百度提出的D-NET框架主要包括以下優(yōu)勢:

1. 在預(yù)訓(xùn)練階段,采用了基于飛槳深度學(xué)習(xí)框架中的多種預(yù)訓(xùn)練模型,融合了多種預(yù)訓(xùn)練模型的優(yōu)勢,獲得了比官方基線更好的效果。

2. 在微調(diào)之前,D-NET引入了針對更多領(lǐng)域數(shù)據(jù)的進(jìn)一步預(yù)訓(xùn)練,以提升模型在特定領(lǐng)域上的適應(yīng)性,彌補(bǔ)預(yù)訓(xùn)練模型語料分布的局限性。

3. 在微調(diào)過程中,D-NET采用了基于飛槳多任務(wù)學(xué)習(xí)框架進(jìn)行多任務(wù)學(xué)習(xí)。在多任務(wù)學(xué)習(xí)的過程中利用了其它有標(biāo)注的自然語言處理數(shù)據(jù)集(如自然語言推斷、段落排序等)學(xué)習(xí)更好的語言表示,從而提升模型的泛化能力?!邦A(yù)訓(xùn)練-微調(diào)”學(xué)習(xí)范式在微調(diào)階段的一個(gè)問題是容易發(fā)生災(zāi)難性遺忘。因此,D-NET在微調(diào)過程中引入了防止災(zāi)難性遺忘的機(jī)制。

4. 在微調(diào)結(jié)束后,D-NET使用飛槳知識蒸餾框架提升單模型效果,以滿足本次評測對模型效率的要求。

D-NET能在本次評測中獲得第一,得益于飛槳(PaddlePaddle) “多,快,好,省”的四大優(yōu)勢:

“多”:飛槳提供了多種預(yù)置的預(yù)訓(xùn)練模型,方便開發(fā)者僅使用幾行代碼,即可調(diào)用各種預(yù)訓(xùn)練模型。正是得益于飛槳中的多種預(yù)訓(xùn)練模型庫,D-NET融合了各種預(yù)訓(xùn)練模型的優(yōu)勢,獲得了更好的效果。

項(xiàng)目地址:http://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

http://github.com/PaddlePaddle/ERNIE

“快”: MRQA2019技術(shù)評測的一大挑戰(zhàn)是要處理大規(guī)模的閱讀理解數(shù)據(jù)。飛槳的高性能分布式訓(xùn)練框架,幫助開發(fā)者可以通過僅僅的幾行代碼,即可讓模型進(jìn)行分布式訓(xùn)練。值得一提的是,為了克服多節(jié)點(diǎn)之間通信帶來的性能瓶頸,飛槳從梯度壓縮,動(dòng)態(tài)混合精度訓(xùn)練,梯度同步算法等方面進(jìn)行了多項(xiàng)性能優(yōu)化,使得訓(xùn)練大規(guī)模復(fù)雜模型的多機(jī)加速比提高至77%,極大地縮短了MRQA2019評測策略調(diào)研的周期,提高了實(shí)驗(yàn)的效率。

項(xiàng)目地址:http://github.com/PaddlePaddle/Fleet

“好”: D-NET的一個(gè)核心思想是讓模型同時(shí)從不同類型的語料、不同的自然語言理解任務(wù)中進(jìn)行學(xué)習(xí),并將學(xué)習(xí)到的知識融會貫通,達(dá)到舉一反三,增強(qiáng)泛化能力的作用。開發(fā)多任務(wù)學(xué)習(xí)最大的痛點(diǎn)就是要靈活地調(diào)度參數(shù)和任務(wù)。為此,飛槳開發(fā)了一套針對多任務(wù)學(xué)習(xí)場景的高級庫PALM(PAddLe Multi-task,預(yù)計(jì)在Paddle Fluid 1.6版本中開源,敬請期待),讓用戶只需要開發(fā)幾十行代碼,就可以輕松完成不同模型間參數(shù)和任務(wù)的調(diào)度。

?

“省”: D-NET奪冠的另外一個(gè)秘密武器就是飛槳提供的高性能預(yù)測引擎和模型壓縮庫PaddleSlim。PaddleSlim提供了豐富高效的模型壓縮算法,可以在不損失預(yù)測精度的前提下,通過剪枝,量化,蒸餾等算法,將多個(gè)復(fù)雜神經(jīng)網(wǎng)絡(luò)壓縮至一個(gè)簡單網(wǎng)絡(luò),從而提高預(yù)測速度并降低顯存消耗。除此之外,飛槳還針對不同硬件資源的特點(diǎn)在底層進(jìn)行了一系列的優(yōu)化,進(jìn)一步提升了模型在預(yù)測部署時(shí)的性能和效率,使得D-NET在最終結(jié)果提交階段,在有限的時(shí)間和空間內(nèi),可以集成更多復(fù)雜模型算法,提升模型在真實(shí)預(yù)測部署場景的精度和效果。

項(xiàng)目地址:http://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

機(jī)器閱讀理解任務(wù),是衡量機(jī)器理解人類語言綜合水平的重要方式。MRQA閱讀量理解評測取得的進(jìn)展,將有力推動(dòng)機(jī)器閱讀理解技術(shù)的發(fā)展。同時(shí)在產(chǎn)業(yè)中,機(jī)器閱讀理解是構(gòu)建問答和對話系統(tǒng)的關(guān)鍵技術(shù)之一。百度機(jī)器閱讀理解技術(shù)已廣泛應(yīng)用于百度內(nèi)外,包括搜索、小度音箱等一系列產(chǎn)品中,為數(shù)億用戶提供精準(zhǔn)問答。

?

分享