谷歌發(fā)布世界最大任務(wù)型對(duì)話數(shù)據(jù)集SGD,讓虛擬助手更智能
新智元報(bào)道
編輯:亮亮
? ? 【新智元導(dǎo)讀】谷歌發(fā)布了新的SGD數(shù)據(jù)集,研究團(tuán)隊(duì)稱,此數(shù)據(jù)集將會(huì)成為有效的測(cè)試平臺(tái),可用于意圖預(yù)測(cè),槽位填充,狀態(tài)跟蹤和語(yǔ)言生成以及大型虛擬助手的其他任務(wù)。另外,各研究者也可將其用于對(duì)話技術(shù)創(chuàng)新。來(lái)新智元 AI 朋友圈與AI大咖一起討論吧~
? ? ? 近日,谷歌軟件工程師Abhinav Rastogi和工程主管Pranav Khaitan稱在谷歌虛擬助手中,已經(jīng)引入了新的方法,更好地支持新服務(wù)。
? ? ? ? 谷歌團(tuán)隊(duì)稱,目前虛擬助手可幫助用戶完成各種各樣的任務(wù),包括尋找航班,搜索附近的活動(dòng)和電影并進(jìn)行預(yù)訂,從網(wǎng)上獲取信息等等。他們通過(guò)為網(wǎng)絡(luò)上的各種服務(wù)提供統(tǒng)一的自然語(yǔ)言界面來(lái)提供此功能。
? ? ? ?為了適應(yīng)未來(lái)的增長(zhǎng),虛擬助手必須能夠輕松支持新服務(wù),并減少維護(hù)工作量,而無(wú)需收集其他數(shù)據(jù)或重新訓(xùn)練模型。
? ? ? ?而像Google Assistant這樣的大型虛擬助手,需要與眾多領(lǐng)域中不斷增加的大量服務(wù)集成在一起,但每種服務(wù)都可能具有重疊的功能。這一適應(yīng)性問(wèn)題在最新模型中常常被忽略。這在一定程度上是由于缺乏合適的數(shù)據(jù)集,這些數(shù)據(jù)集無(wú)法與虛擬助手所面對(duì)的規(guī)模和復(fù)雜性相匹配。
? ? ? ? 在谷歌最近的論文《邁向可擴(kuò)展的多域?qū)υ挻恚耗J街笇?dǎo)的對(duì)話數(shù)據(jù)集》(Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset)中,研究團(tuán)隊(duì)引入了一個(gè)新的數(shù)據(jù)集SGD(Schema-Guided Dialogue dataset)來(lái)解決這些問(wèn)題。該團(tuán)隊(duì)表示,此數(shù)據(jù)集將會(huì)成為有效的測(cè)試平臺(tái),可用于意圖預(yù)測(cè),槽位填充,狀態(tài)跟蹤和語(yǔ)言生成以及大型虛擬助手的其他任務(wù)。
? ? ? ? 目前,谷歌已發(fā)布SGD數(shù)據(jù)集,谷歌表示,發(fā)布SGD數(shù)據(jù)集的基本目標(biāo)是應(yīng)對(duì)許多現(xiàn)有數(shù)據(jù)集無(wú)法充分解決的現(xiàn)實(shí)挑戰(zhàn)。谷歌研究團(tuán)隊(duì)稱,SGD數(shù)據(jù)集是目前公開(kāi)可用的、最大的任務(wù)型對(duì)話數(shù)據(jù)集。
? ? ? ? 在此之前,9月17日,亞馬遜在GitHub上發(fā)布了超470萬(wàn)單詞21萬(wàn)句子的語(yǔ)料庫(kù) , 并聲稱這個(gè)數(shù)據(jù)集支持“高質(zhì)量”和“可重復(fù)”的對(duì)話系統(tǒng)研究,將成為研究界公開(kāi)可用的最大的基于知識(shí)的社交對(duì)話數(shù)據(jù)集 。
? ? ? ? SGD數(shù)據(jù)集由人類和虛擬助手之間超過(guò)18000條的帶注釋的任務(wù)型對(duì)話組成。這些對(duì)話涉及17個(gè)領(lǐng)域。對(duì)于大多數(shù)領(lǐng)域,數(shù)據(jù)集包含多個(gè)不同的API,其中許多API 具有重疊的功能,但接口不同,這反映了典型的真實(shí)場(chǎng)景。SGD是第一個(gè)涵蓋多個(gè)領(lǐng)域并為每個(gè)域提供多個(gè)API的數(shù)據(jù)集。此外,為了量化模型對(duì)API接口更改或添加新API,評(píng)估集還包含了許多訓(xùn)練集沒(méi)有的新服務(wù)。
? ? ? ?目前,利用SGD數(shù)據(jù)集就可以訓(xùn)練虛擬助手來(lái)支持互聯(lián)網(wǎng)上各種各樣的服務(wù)。而為達(dá)到這種功能,通用方法是需要一個(gè)master schema,來(lái)列出所有受支持的功能及其參數(shù)。但是,開(kāi)發(fā)出適合所有使用案例的master schema很難。即使開(kāi)發(fā)成功,master schema也會(huì)使新的或小型服務(wù)的集成復(fù)雜化,并會(huì)增加維護(hù)虛擬助手的工作量。此外,盡管跨服務(wù)可以有許多相似的概念可以聯(lián)合建模,例如用于查詢或指定電影票、機(jī)票或音樂(lè)會(huì)票數(shù)量在邏輯上有相似性,但除非手動(dòng)定義它們之間的顯式映射,否則master schema方法并不便于對(duì)此類概念進(jìn)行聯(lián)合建模。
? ? ? ? 對(duì)此,谷歌團(tuán)隊(duì)提出了的新的模式指導(dǎo)方法。此方法不需要為助手設(shè)定master schema。相反,每個(gè)服務(wù)或API都會(huì)提供其模式功能及其相關(guān)屬性的自然語(yǔ)言描述。然后,這些描述會(huì)用于學(xué)習(xí)模式的分布式語(yǔ)義表示,語(yǔ)義表示則會(huì)作為對(duì)話系統(tǒng)的附加輸入。對(duì)話系統(tǒng)之后就會(huì)被作為不包含域或服務(wù)特定參數(shù)的單個(gè)統(tǒng)一模型。這種統(tǒng)一模型利于在不同服務(wù)中相似概念之間的常識(shí)表示,而使用模式的分布式表示可以對(duì)訓(xùn)練數(shù)據(jù)中不存在的新服務(wù)進(jìn)行操作。
? ? ? 目前,谷歌已經(jīng)將這一方法用在了開(kāi)源對(duì)話狀態(tài)跟蹤模型中,該模型在常規(guī)設(shè)置中仍具有競(jìng)爭(zhēng)力,且適用于zero-shot 設(shè)置(即沒(méi)有針對(duì)新服務(wù)和API的訓(xùn)練數(shù)據(jù))。
? ? “我們認(rèn)為該數(shù)據(jù)集將會(huì)成為建立大規(guī)模對(duì)話模型的良好基準(zhǔn),” Rastogi和Khaitan稱。“我們期待研究界將其用于對(duì)話技術(shù)的發(fā)展創(chuàng)新?!?/span>