科大訊飛在機(jī)器閱讀理解SQuAD比賽中奪得第一

發(fā)布于: 2017-08-01
來(lái)自:雷鋒網(wǎng)? 作者:李秀琴
2017-08-01

雷鋒網(wǎng)7月31日消息? 近日,在最近一場(chǎng)由斯坦福大學(xué)發(fā)起的SQuAD(Stanford Question Answering)挑戰(zhàn)賽中,科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室(HFL)提交的系統(tǒng)模型奪得第一,打敗了包括微軟亞洲研究院、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及卡內(nèi)基·梅隆大學(xué)、斯坦福大學(xué)在內(nèi)的全球?qū)W術(shù)界和產(chǎn)業(yè)界的研究團(tuán)隊(duì),這是中國(guó)本土研究機(jī)構(gòu)首次取得該賽事的第一名。

科大訊飛在機(jī)器閱讀理解SQuAD比賽中奪得第一

科大訊飛在最新一次SQuAD(Stanford Question Answering)挑戰(zhàn)賽中奪得第一(圖/雷鋒網(wǎng))

據(jù)雷鋒網(wǎng)了解,SQuAD挑戰(zhàn)賽被譽(yù)為“機(jī)器閱讀理解界的ImageNet”,來(lái)自全球產(chǎn)業(yè)界和學(xué)術(shù)界的頂尖團(tuán)隊(duì)都有參與其中,如艾倫研究院、IBM、Salesforce、Facebook、Google、微軟研究院,以及CMU和斯坦福大學(xué)等。

SQuAD機(jī)器閱讀理解挑戰(zhàn)賽的具體運(yùn)行過(guò)程是這樣的。該比賽通過(guò)眾包的方式構(gòu)建了一個(gè)大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集(包含10萬(wàn)個(gè)問(wèn)題),可將一篇幾百詞左右的短文給人工標(biāo)注者閱讀,讓標(biāo)注人員提出最多5個(gè)基于文章內(nèi)容的問(wèn)題并提供正確答案;短文原文則來(lái)源于500多篇維基百科文章。參賽者提交的系統(tǒng)模型在閱讀完數(shù)據(jù)集中的一篇短文之后,再來(lái)回答若干個(gè)基于文章內(nèi)容的問(wèn)題,然后與人工標(biāo)注的答案進(jìn)行比對(duì),得出精確匹配(Exact Match)和模糊匹配(F1-score)的結(jié)果。

科大訊飛向雷鋒網(wǎng)透露,這個(gè)比賽是一個(gè)持續(xù)性的挑戰(zhàn)賽,參賽者可以進(jìn)行調(diào)優(yōu)提交。然后主辦方再定期更新成績(jī)。在該輪測(cè)試中,科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室提交的系統(tǒng)模型——Interactive AoA Reader(基于交互式層疊注意力模型),精確匹配達(dá)77.845%,模糊匹配達(dá)85.297%,兩項(xiàng)成績(jī)均排名首位。

一般來(lái)說(shuō),機(jī)器閱讀理解在研究領(lǐng)域經(jīng)常遇到以下兩方面的難題:

1、數(shù)據(jù)問(wèn)題:目前基于深度學(xué)習(xí)模型等統(tǒng)計(jì)方法的機(jī)器閱讀理解,在研究上離不開(kāi)大量的被人工標(biāo)注的數(shù)據(jù),但是固有的數(shù)據(jù)集則往往存在規(guī)模較小、質(zhì)量不佳等問(wèn)題。這種情況下,很難基于這些數(shù)據(jù)量做出優(yōu)秀、有效的模型。

2、算法問(wèn)題:傳統(tǒng)的NLP在做閱讀理解或自動(dòng)問(wèn)答時(shí),會(huì)采用分拆任務(wù)的方式將其分成問(wèn)題分析、篇章分析、關(guān)鍵句抽取等一些步驟,但這種方法容易造成級(jí)聯(lián)誤差的積累,很難得到很好的效果。如,分目標(biāo)的結(jié)果整合最后和終極目標(biāo)不能完全吻合;局部?jī)?yōu)化不當(dāng)可能造成研究進(jìn)展緩慢等。

所以,目前在機(jī)器閱讀理解領(lǐng)域中,則多采用完全端到端的神經(jīng)網(wǎng)絡(luò)建模,消除了分步驟產(chǎn)生的級(jí)聯(lián)誤差。除此之外,采用神經(jīng)網(wǎng)絡(luò)的方法能夠通過(guò)大量的訓(xùn)練數(shù)據(jù)學(xué)習(xí)到泛化的知識(shí)表示,對(duì)篇章和問(wèn)題從語(yǔ)義層面上高度抽象化。

據(jù)科大訊飛向雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))介紹,其在這一問(wèn)題上也同樣采用了端到端的神經(jīng)網(wǎng)絡(luò)模型,但把精力更多的放在如何能夠模擬人類在做閱讀理解問(wèn)題時(shí)的一些方法。此次在測(cè)試中奪得第一的“Interactive AoA Reader”,其主要是根據(jù)給定的問(wèn)題對(duì)篇章進(jìn)行多次的過(guò)濾,同時(shí)根據(jù)已經(jīng)被過(guò)濾的文章進(jìn)一步篩選出問(wèn)題中的關(guān)鍵提問(wèn)點(diǎn)。通過(guò)“交互式”地逐步精確答案的范圍,該模型從而可得到不錯(cuò)的成績(jī)。

科大訊飛在機(jī)器閱讀理解SQuAD比賽中奪得第一

科大訊飛智能閱卷技術(shù)工作流程

目前,科大訊飛和哈工大聯(lián)合實(shí)驗(yàn)室的研發(fā)成果已被逐漸運(yùn)用在教育領(lǐng)域,如通過(guò)機(jī)器給考卷的主觀題評(píng)分,從而達(dá)到輔助人工閱卷,減少人員投入,降低人工閱卷中疲勞、情緒等因素的影響,進(jìn)一步提升人工閱卷評(píng)分的效率、準(zhǔn)確性和公平性。

同時(shí),雷鋒網(wǎng)還了解到,科大訊飛近幾年在智能閱卷技術(shù)上也一直在全國(guó)各中小學(xué)頻設(shè)試點(diǎn),并和一些教育機(jī)構(gòu)牽手合作。如,2015年11月以前,科大訊飛就利用機(jī)器閱卷技術(shù)在安慶、合肥等地設(shè)立試點(diǎn),經(jīng)過(guò)對(duì)人機(jī)評(píng)分結(jié)果的分析,計(jì)算機(jī)在評(píng)分一致率、平均分差、相關(guān)度以及與仲裁分更接近的比例等指標(biāo)方面都已達(dá)到或超過(guò)人工評(píng)分水平。而在今年的湖北省的中考中,襄陽(yáng)市引進(jìn)的智能評(píng)卷系統(tǒng)也來(lái)自科大訊飛的機(jī)器智能閱卷技術(shù)。
(本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán),原文鏈接:https://www.leiphone.com/news/201707/jWVmsN0JICSOzdkp.html

分享