史上首個3D多語言AI記者來了,不僅寫作、翻譯無壓力,還能一線報道國際體育賽事
世界上首個3D多語言AI新聞記者誕生!
近日,字節(jié)跳動AI Lab聯(lián)合上海交大研究團隊發(fā)布了全新升級版AI新聞記者Xiaomingbot。Xiaomingbot最早誕生于2016年,曾在2017年獲得吳文俊人工智能技術(shù)發(fā)明獎。(吳文俊獎被譽為中國智能科學(xué)科技最高獎,代表著中國人工智能領(lǐng)域的最高榮譽)。
據(jù)了解,此次最新版Xiaomingbot除了新聞寫作的基本功能外,被賦予了3D動畫形象,能夠配合文本內(nèi)容完成多種語言的新聞播報任務(wù)。
Xiaomingbot
3D多功能記者Xiaomingbot
研究人員介紹,Xiaomingbot軟件系統(tǒng)內(nèi)含新聞生成器、翻譯器和跨語言閱讀器和頭像動畫,能夠獨立完成新聞報道的整套工作流程。接下來,我們透過一場大型體育賽事的demo視頻,來看下Xiaomingbot同學(xué)的業(yè)務(wù)能力到底如何?
首先是新聞報道基本任務(wù)-寫作??梢钥闯?,Xiaomingbot的文本生成幾乎是與比賽進展同步進行。當比賽中出現(xiàn)進球等特殊賽點時,Xiaoming會自動抓取信息轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。如圖中:
左側(cè)為比賽視頻,右側(cè)為生成的新聞
運動員Chadli成功進球贏得一分,Xiaomingbot會實時生成文本:
第90分鐘時,納賽爾·查德利(Nacer Chadli)抓住了機會,為比利時奪得一分,目前比分為3-2。
妥妥的專業(yè)現(xiàn)場解說員。除此之外,Xiaomingbot還能夠根據(jù)數(shù)據(jù)推理出比賽結(jié)果,并附上對應(yīng)的圖片。
比利時對戰(zhàn)日本以3:2獲勝
在2018年世界杯第16輪比賽中,比利時與日本在7月3日凌晨2點展開對戰(zhàn)。比利時球員Jan vertonghen,Nacer Chadli,Marouane Fellaini Bakkioui各進一球,贏得1分,日本選手Genki Haraguchi和Takashi Inui各進一球,最終比利時以3:2戰(zhàn)勝日本。
研究人員介紹,Xiaomingbot對數(shù)據(jù)很敏感,如比賽得分、股價變化、營收增減等,因此它非常擅長體育賽事和財經(jīng)新聞領(lǐng)域的寫作。
其次是多語言翻譯功能。Xiongmingbot能夠?qū)ν恍侣勆啥喾N語言形式,為全球用戶提供新聞報道。
分別為葡萄牙語、中文和日語
最重要的是,以上不同語言的文本內(nèi)容可通過3D動畫實時語音播報??梢钥闯銎漕^部、唇部能夠配合文本內(nèi)容同步移動,整體效果逼真、自然。
目前,Xiaomingbot在媒體平臺開通了小明看世界、小明財經(jīng)等多個社交賬號,已撰寫超過了60萬篇章,吸引了超過15萬名關(guān)注者??磥砥湫侣剤蟮赖膶I(yè)度還是受到廣泛認可的。
背后的實現(xiàn)原理
這篇名為《Xiaomingbot: A Multilingual Robot News Reporter》論文已經(jīng)對外公開。通過論文中的完整工作流程圖,我們可以看到,Xiaomingbot首先需要基于比賽視頻,輸出完整文本信息,并在此基礎(chǔ)上提取最重要和最相關(guān)的內(nèi)容,形成文本摘要,進而將文本內(nèi)容,輸送至機器翻譯、文本到語音轉(zhuǎn)化和頭像動畫三個模塊,最終呈現(xiàn)出了相應(yīng)的語音和視覺效果。
完整示例
從Xiongmingbot的系統(tǒng)架構(gòu)來看,以上功能主要通過四個模塊來實現(xiàn),接下來,我們來簡要說明以上階段所涉及到的模型,以及它們是如何工作的。
Xiaomingbot系統(tǒng)架構(gòu)
新聞生成:由數(shù)據(jù)到文本的轉(zhuǎn)化和文本總結(jié)兩個環(huán)節(jié)構(gòu)成;
此前我們提到,Xiongmingbot擅長數(shù)據(jù)的監(jiān)測和抓取。為了將數(shù)據(jù)轉(zhuǎn)化為文本,論文中采用了基于table2text技術(shù)的模板轉(zhuǎn)化的方法。
研究人員針對比賽階段、類型等多個維度設(shè)計了不同類型的模板,這些模板通常包含了時間、得分、犯規(guī)、球員,球隊名稱及其他多項指標。Xiaomingbot系統(tǒng)會根據(jù)文本需要從中選擇對應(yīng)的模板類型,并進一步轉(zhuǎn)化成文本。
除去數(shù)據(jù)部分,Xiongmingbot還需要基于句子完成文本提取和抽象總結(jié)兩項任務(wù)。在這里,研究人員訓(xùn)練了兩個匯總模型。一種是基于BERT的常規(guī)文本摘要模型。采用了TTNews數(shù)據(jù)集進行訓(xùn)練,其包括了50,000份帶有人工書面摘要的中文文件。另外一種是針對諸如足球等體育賽事而訓(xùn)練出的特殊模型。該模型能夠考慮足球比賽結(jié)構(gòu),以不同方式處理諸如犯規(guī)等重要事件,更好地總結(jié)比賽報告。
新聞翻譯:采用基于Transformer架構(gòu)的機器模型實時翻譯。
在這里,研究人員預(yù)先訓(xùn)練了多個神經(jīng)機器翻譯模型,并采用了最先進的Transformer Big Model作為NMT(Neural Machine Translation Systerm)組件。
另外,為了加快翻譯速度,還創(chuàng)建了基于CUDA(Compute Unified Device Architecture)的NMT系統(tǒng),CUDA是由NVIDIA推出的通用并行計算架構(gòu),它比Transformer架構(gòu)的推理速度還要快10倍。
該模型的所使用的訓(xùn)練數(shù)據(jù)集同樣非常龐大,中英轉(zhuǎn)化的數(shù)據(jù)集包含了一億個并行的句子對,中日文包含了6000萬個并行句子對。
新聞讀?。翰捎梦谋镜秸Z音(TTS)合成模型,實現(xiàn)跨語言輸出。
研究人員所使用的TTS合成模型,只需要一種語言的少量語音作為訓(xùn)練數(shù)據(jù)。如中文語言處理,僅包含數(shù)百名發(fā)言人的語音。另外,該TTS模型具有跨語言的語音克隆機制,可以簡單理解為,它可以以與我們之前提供的完全相同的聲音以不同的語言實現(xiàn)新聞播報。
頭像動畫:同步唇部與語音輸出動作,并完成3D渲染
Xiaomingbot可以生成與TTS模型輸出音頻的同步嘴唇動作,并渲染頭發(fā),衣服等。對于嘴唇動作,研究人員采用的是序列-序列模型(Seq2Seq)。該模型的輸入序列是從TTS模型中提取的音素和相應(yīng)的持續(xù)時間,而輸出序列則是口型權(quán)重(嘴唇運動所產(chǎn)生的動畫參數(shù))。通過這些不同的口型權(quán)重,Xiaomingbot可以做出許多不同的面部表情。對于眼部、頭發(fā)及皮膚的渲染,采用了3D渲染引擎Unity和不同的算法。
最后,研究人員表示,Xiaomingbot系統(tǒng)目前只是建構(gòu)多功能AI系統(tǒng)的首次嘗試。其在文本生成、講話、表達等方面還有很大的局限性和進步空間。未來我們將會從可擴展的工作領(lǐng)域和對話交互能力兩個方向進行改進和提升。