GLUE榜單史上首破90大關!百度預訓練模型ERNIE榮登榜首

發(fā)布于: 2019-12-11
?來源:?飛象網?2019-12-11

北京時間12月10日,預訓練模型界的“MVP”百度ERNIE再展鋒芒,在自然語言處理領域權威數據集GLUE中榮登榜首,并以9個任務平均得分首次突破90大關刷新該榜單歷史,其超越微軟MT-DNN-SMART, 谷歌T5、ALBERT等一眾國際頂級預訓練模型的表現(xiàn),實力得到極大彰顯。?

本次GLUE榜單第一的含金量可謂十足。眾所周知,通用語言理解評估基準GLUE是自然語言處理領域最權威的排行榜之一,由紐約大學、華盛頓大學、谷歌DeepMind等機構聯(lián)合推出,以其涵蓋大量不同類型的NLP任務,包括自然語言推斷、語義相似度、問答匹配、情感分析等9大任務,成為衡量自然語言處理研究進展的行業(yè)標準。因此,吸引了谷歌、Facebook、微軟等國際頂尖公司以及斯坦福大學、卡耐基·梅隆大學等頂尖大學參加。GLUE排行榜的效果,在一定程度上成為了衡量各機構自然語言處理預訓練技術水平最重要的指標之一。此次能夠超越國際頂尖公司及高校榮登榜首,背后是百度NLP技術的長足積累。

2018年底以來,以BERT為代表的預訓練模型大幅提升了自然語言處理任務的基準效果,取得了顯著技術突破,基于大規(guī)模數據的預訓練技術在自然語言處理領域變得至關重要。眾AI公司紛紛發(fā)力預訓練領域,相繼發(fā)布了XLNet、RoBERTa、ALBERT、T5等預訓練模型。百度也先后發(fā)布了ERNIE 1.0、ERNIE 2.0,在16個中英數據集上取得了當時的SOTA。

從GLUE排行榜上來看,BERT使用預訓練加微調的方式,相對過往的基線成績大幅提升各任務的效果,首次突破了80大關。XLNet、RoBERTa、T5、MT-DNN-SMART等模型則分布在88-89分范圍,人類水平則是87.1。

百度ERNIE此次登頂,成為首個突破90大關的模型,并在CoLA、SST-2、QQP、WNLI等數據集上達到SOTA。相對BERT的80.5的成績,提升近10個點,取得了顯著的效果突破。?

百度ERNIE 2.0原理示意圖

ERNIE 2.0 持續(xù)學習的語義理解框架, 支持增量引入不同角度的自定義預訓練任務,通過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的信息。

此次登頂的模型主要基于ERNIE 2.0持續(xù)學習語義理解框架下的系列優(yōu)化。引入更多新預訓練任務, 例如引入基于互信息的動態(tài)邊界掩碼算法。對預訓練數據和模型結構也做了精細化調整。

同時,百度ERNIE 2.0的論文(https://arxiv.org/abs/1907.12412)已被國際人工智能頂級學術會議AAAI-2020收錄,AAAI-2020將于2020年2月7日-12日在美國紐約舉行, 屆時百度的技術團隊將會進一步展示近期的技術成果。

相較于谷歌BERT,后來居上的百度ERNIE為AI領域展現(xiàn)了驚人的中國“AI速度”。如今,百度在自然語言處理領域的深厚積累已輻射至不同領域。ERNIE預訓練技術已廣泛地應用于公司內外多個產品和技術場景,在百度搜索、小度音箱、信息流推薦等一系列產品應用中發(fā)揮了重要作用,大幅提升了產品的技術效果和用戶體驗,逐步賦能各行各業(yè)。

?

?

?
?
分享