上海地鐵攜手阿里云,落地語(yǔ)音購(gòu)票,打造首個(gè) AI 地鐵城
2017-12-07
人工智能在傳統(tǒng)行業(yè)遍地開花已經(jīng)不是新鮮事,但是進(jìn)入地鐵這種人流量大且復(fù)雜、噪聲極強(qiáng)的環(huán)境中,似乎還是第一次。雷鋒網(wǎng)消息,昨日(12月5日),上海地鐵攜手阿里云,落地語(yǔ)音購(gòu)票,打造首個(gè) AI 地鐵城的消息刷了屏。
雷鋒網(wǎng)就此采訪了阿里云 iDST 智能語(yǔ)音交互團(tuán)隊(duì)總監(jiān)的鄢志杰,他也是該項(xiàng)目中語(yǔ)音購(gòu)票技術(shù)的總負(fù)責(zé)人,聊了聊技術(shù)落地背后的故事。
“語(yǔ)音+視覺”搞定強(qiáng)噪音環(huán)境
大概半年前,擔(dān)任阿里云 iDST 智能語(yǔ)音交互團(tuán)隊(duì)總監(jiān)的鄢志杰,和同事參加某個(gè)機(jī)器人展會(huì)。在展會(huì)上,他們發(fā)現(xiàn)很多具有語(yǔ)音交互功能的機(jī)器人“聽力不好”,參展的觀眾需要抱著機(jī)器人的頭,幾乎貼在上面才能完成一兩句對(duì)話,主要原因就是環(huán)境噪音太強(qiáng),導(dǎo)致機(jī)器人無(wú)法分辨“要聽什么”。
在語(yǔ)音交互領(lǐng)域,“抗噪”是個(gè)難點(diǎn)。市面上相對(duì)成熟的語(yǔ)音交互產(chǎn)品,幾乎全部集中在家庭、辦公等安靜場(chǎng)景中,通過(guò)麥克風(fēng)陣列,可以讓機(jī)器輕易分辨“誰(shuí)是說(shuō)話人”,而類似機(jī)場(chǎng)、高鐵、咖啡廳、超市、展廳強(qiáng)噪音場(chǎng)景則沒有。
鄢志杰當(dāng)下就想,如何才能突破舊有的使用場(chǎng)景,在強(qiáng)噪音的環(huán)境下讓人和機(jī)器進(jìn)行語(yǔ)音交互。
面對(duì)這個(gè)具體的問(wèn)題,?iDST 的人工智能專家們想到了融合語(yǔ)音、視覺兩種模態(tài)的方法。具體來(lái)說(shuō),如果只通過(guò)擴(kuò)大麥克風(fēng)陣列,提升信噪比的單一方法,還是不夠,如果有了攝像頭之后,就可以通過(guò)視覺識(shí)別是否來(lái)人,來(lái)人是否講話,判斷之后用算法調(diào)整麥克風(fēng)位置,進(jìn)行定向增強(qiáng)。這樣,就可以讓一個(gè)強(qiáng)噪音環(huán)境變得和普通交互場(chǎng)景一樣了。
值得一提的是,采用視覺來(lái)確定目標(biāo)說(shuō)話人后,還帶來(lái)一個(gè)更大的驚喜。此前語(yǔ)音交互產(chǎn)品,都需要通過(guò)“喚醒詞”,讓用戶喚醒,但“誤喚醒率”是個(gè)問(wèn)題。而采用視覺后,機(jī)器可以通過(guò)人臉、嘴巴來(lái)判斷說(shuō)話人是否開口說(shuō)話,從而徹底免去了“喚醒”這一步,從而也就解決了“誤喚醒率”的問(wèn)題。
當(dāng)然,實(shí)際工程化的過(guò)程并不像講起來(lái)這么簡(jiǎn)單。鄢志杰坦陳,這種融合多模態(tài)的方式,學(xué)術(shù)界其實(shí)早有研究,但實(shí)際落地的產(chǎn)品似乎還沒見到。
技術(shù)的問(wèn)題解決之后,?iDST 在商店(嘈雜環(huán)境)里放了一臺(tái)可以使用語(yǔ)音來(lái)買咖啡的機(jī)器,用的就是語(yǔ)音+視覺的解決方案。這或許也是這種方案下,第一個(gè)落地的實(shí)際產(chǎn)品。
兩周之后,這個(gè)方案落地上海地鐵,咖啡機(jī)換成了購(gòu)票機(jī),乘客可以通過(guò)語(yǔ)音進(jìn)行購(gòu)票,掃碼支付,全程只需不到10秒。
口說(shuō)有憑,自由通行
上海作為全球里程數(shù)最長(zhǎng)的地鐵,共有 17 條線路,367個(gè)站點(diǎn),以連接兩大機(jī)場(chǎng)、虹橋火車站、川沙、陸家嘴、龍陽(yáng)路磁浮站、南京路、靜安寺,橫貫東西的2號(hào)線為例,全天都處在擁擠狀態(tài),日客流量接近百萬(wàn)。這條線路因?yàn)檫B接著交通樞紐和重要地標(biāo),充滿了來(lái)自全球各地不同語(yǔ)言的人,購(gòu)票之難、時(shí)間之長(zhǎng)可想而知。
采用阿里云 iDST 的語(yǔ)音購(gòu)票方案后,每個(gè)人只需要走近售票機(jī),對(duì)售票機(jī)說(shuō)出你想要去的地方,售票機(jī)就能夠自動(dòng)向乘客推薦線路和站點(diǎn),乘客掃碼或刷臉即可購(gòu)票,全程不過(guò)10秒。
舉例來(lái)說(shuō),在此之前如果想去東方明珠,需要先拿出手機(jī),打開地圖應(yīng)用,查詢公交線路,走進(jìn)推薦的地鐵站,在售票機(jī)上通過(guò)點(diǎn)擊、投幣來(lái)買票,上地鐵。而現(xiàn)在,乘客可以直接進(jìn)入最近的地鐵站,對(duì)售票機(jī)說(shuō)“我要去東方明珠”,售票機(jī)將自動(dòng)建議乘客坐到“陸家嘴站”,然后彈出二維碼進(jìn)行支付。
鄢志杰向雷鋒網(wǎng)表示,試運(yùn)行階段,目前該機(jī)器可以支持帶口音的普通話,但未來(lái)希望能夠覆蓋更多的語(yǔ)種和方言,滿足不同地方的乘客需求。
同時(shí),該技術(shù)在強(qiáng)噪音環(huán)境下的通用性,也方便將此解決辦法復(fù)制到機(jī)場(chǎng)、高鐵、商店等更多場(chǎng)景中。
多項(xiàng)技術(shù),打造 AI 地鐵城
除了語(yǔ)音購(gòu)票技術(shù)外,亮相上海地鐵的還有阿里云的“刷臉進(jìn)站”、“智能客流監(jiān)測(cè)”兩項(xiàng)技術(shù)。
雷鋒網(wǎng)了解到,正在研發(fā)中的新型進(jìn)站閘機(jī)上,新增了一塊屏幕,用戶經(jīng)過(guò)屏幕時(shí),幾乎無(wú)需停留,屏幕就依托阿里云人臉識(shí)別技術(shù),完成了人臉識(shí)別,開啟閘機(jī),供乘客通過(guò)。
系統(tǒng)所采用的阿里云人臉識(shí)別算法具備業(yè)內(nèi)領(lǐng)先的精度和效率,在國(guó)際公開的人臉比對(duì)評(píng)測(cè)LFW中,精度超過(guò)99.5%;在身份認(rèn)證1:1比對(duì)場(chǎng)景,誤識(shí)率0.1%條件下,實(shí)測(cè)精度大于99%;1:3000身份識(shí)別場(chǎng)景,現(xiàn)場(chǎng)實(shí)測(cè)識(shí)別率>95%。
而智能客流分析技術(shù)則是基于視頻識(shí)別、數(shù)據(jù)分析機(jī)器學(xué)習(xí)和阿里云的數(shù)據(jù)可視化技術(shù),替代肉眼,觀察車站的客流速度、密度、擁擠指數(shù)等,同時(shí)結(jié)合地鐵列車運(yùn)營(yíng)信息、外部天氣信息數(shù)據(jù),對(duì)未來(lái)流量進(jìn)行預(yù)測(cè),幫助地鐵工作人員進(jìn)行客流疏導(dǎo)、應(yīng)急調(diào)度、危險(xiǎn)防范等,保障乘客安全。
目前,這些技術(shù)已經(jīng)完成實(shí)驗(yàn)室測(cè)試,進(jìn)入樣機(jī)研制階段,未來(lái)都將應(yīng)用于上海地鐵。相信在不久之后,我們就可以享受更為智慧、方便的公共交通服務(wù)了。