【iPhone X重磅發(fā)布】攜A11人工智能芯片登場(chǎng),人臉識(shí)別9大特征
【新智元導(dǎo)讀】蘋(píng)果13日凌晨發(fā)布了本年度最重量級(jí)的產(chǎn)品——iPhone X (iPhone 10)。這款用人臉識(shí)別進(jìn)行解鎖的新iPhone 可能是蘋(píng)果AI屬性最強(qiáng)的一個(gè)產(chǎn)品了。在發(fā)布會(huì)現(xiàn)場(chǎng),蘋(píng)果介紹了A11生物神經(jīng)網(wǎng)絡(luò)引擎”這一AI芯片,近期,以智能手機(jī)為主的終端設(shè)備定制芯片已經(jīng)形成一種新的趨勢(shì),我們將在文章中進(jìn)行重點(diǎn)介紹。另外,本文也會(huì)介紹蘋(píng)果在人工智能上的實(shí)力儲(chǔ)備情況:主要從四篇經(jīng)典論文談起。
北京時(shí)間9月13日凌晨,蘋(píng)果在新的總部召開(kāi)發(fā)布會(huì),發(fā)布新的智能手表、電視和手機(jī)等一系列新產(chǎn)品。這是最受科技界關(guān)注的發(fā)布會(huì)之一。
今年的蘋(píng)果新品發(fā)布會(huì)首次在蘋(píng)果新總部的史蒂夫?喬布斯劇院舉行,蘋(píng)果CEO蒂姆?庫(kù)克在發(fā)布會(huì)的介紹中,重申了喬布斯精神。本次發(fā)布會(huì)最受關(guān)注的便是蘋(píng)果的新手機(jī),傳說(shuō)中的iPhone8,令人驚喜的是,蘋(píng)果本次發(fā)布會(huì)帶來(lái)了最最重量級(jí)的智能手機(jī)——iPhone X (蘋(píng)果10)。增加了人臉識(shí)別解鎖Face ID的這款新手機(jī),應(yīng)該是迄今為止這家最受關(guān)注的智能手機(jī)生產(chǎn)商推出的最A(yù)I的一部手機(jī)了。
首先,這是一部全屏幕的、沒(méi)有Home鍵的iPhone,支持無(wú)線充電。
iPhone X 最值得關(guān)注的一點(diǎn)便是通過(guò)人臉識(shí)別進(jìn)行解鎖,這在蘋(píng)果發(fā)布會(huì)之前就已經(jīng)傳得沸沸揚(yáng)揚(yáng)的功能終于得到了確認(rèn)。
蘋(píng)果人臉識(shí)別解鎖9大特征
根據(jù)蘋(píng)果在發(fā)布會(huì)現(xiàn)場(chǎng)的介紹,蘋(píng)果的人臉識(shí)別解鎖Face ID包含了9大特點(diǎn):
-
人臉驗(yàn)證 (Face authentication)
-
TrueDepth 攝像頭
-
驗(yàn)證簡(jiǎn)便
-
專門(mén)的神經(jīng)網(wǎng)絡(luò)
-
自然和安全
-
用戶隱私
-
注意力察覺(jué)
-
自適應(yīng)性
-
Apple Pay和其他應(yīng)用的綁定
根據(jù)官網(wǎng)的介紹,F(xiàn)ace ID 功能通過(guò)原深感攝像頭來(lái)實(shí)現(xiàn),設(shè)置起來(lái)也非常簡(jiǎn)單。它會(huì)投射超過(guò) 30,000 個(gè)肉眼不可見(jiàn)的光點(diǎn),并對(duì)它們進(jìn)行分析,為你的臉部繪制精確細(xì)致的深度圖。
詳細(xì)來(lái)看,在安全上,蘋(píng)果自稱,他們?nèi)四樧R(shí)別的錯(cuò)誤率是百萬(wàn)分之一。另外,數(shù)據(jù)的處理都是在設(shè)備上進(jìn)行的,解鎖是會(huì)通過(guò)識(shí)別用戶的注意力來(lái)進(jìn)行判斷。
具體可以再看一下另一大特點(diǎn):TrueDepth 攝像頭
技術(shù)核心:蘋(píng)果 A11 和?A11?Bionic 芯片
據(jù)介紹,iPhone X 將采用定制的芯片來(lái)處理人工智能工作負(fù)載。這是一個(gè)雙核的“A11生物神經(jīng)網(wǎng)絡(luò)引擎”(A11 bionic neural engine)芯片,每秒運(yùn)算次數(shù)最高可達(dá)6000億次。
該芯片賦能的最重要的事情就是使 Face ID 身份認(rèn)證功能能夠快速識(shí)別人臉,從而解鎖 iPhone X 或進(jìn)行購(gòu)物。
這個(gè)消息并不出乎意外。早在今年5月,彭博就曾經(jīng)報(bào)道,蘋(píng)果公司正在為iPhone開(kāi)發(fā)AI芯片,但不清楚該芯片是否已經(jīng)準(zhǔn)備好可以用在今年最新的iPhone產(chǎn)品上。
而且,芯片走向定制化,以滿足AI軟件的需求,在行業(yè)中已經(jīng)變成一股新的大趨勢(shì)。 Alphabet的谷歌已經(jīng)設(shè)計(jì)了兩代芯片來(lái)處理數(shù)據(jù)中心的AI計(jì)算工作負(fù)載。 微軟也為未來(lái)版本的HoloLens混合現(xiàn)實(shí)頭盔開(kāi)發(fā)了一款A(yù)I芯片。
在iPhone上安裝新的專用芯片意味著主芯片的工作量將會(huì)減少,從而提高電池壽命。 否則,例如,通過(guò)手機(jī)攝像頭進(jìn)行物體識(shí)別同時(shí)進(jìn)行視頻錄制時(shí),可能會(huì)迅速地將電池消耗完。
此外,在不久的將來(lái), iPhone以外的更多移動(dòng)設(shè)備都可能包含針對(duì)AI的處理器。
Burke 在今年的谷歌 I/O 會(huì)議上曾說(shuō):“隨著時(shí)間推移,我們預(yù)計(jì)會(huì)看到專門(mén)為神經(jīng)網(wǎng)絡(luò)的推理和訓(xùn)練設(shè)計(jì)的DSP(digital signal processors,數(shù)字信號(hào)處理器)的出現(xiàn)?!?/span>
雖然今天的消息肯定會(huì)占滿新聞?lì)^條,但蘋(píng)果其實(shí)以前就已將AI用途的芯片置于iPhone中。iPhone 7就包含有一個(gè)FPGA,這是英特爾和微軟為加速AI任務(wù)進(jìn)行探索的。據(jù)福布斯報(bào)道,在iPhone7之前蘋(píng)果沒(méi)有在iPhone中使用過(guò)FPGA。
蘋(píng)果對(duì)于芯片開(kāi)發(fā)并不陌生。蘋(píng)果已經(jīng)在它的 iOS 設(shè)備上對(duì)其A系列處理器給予重視,并且在智能手機(jī)上專門(mén)使用了某些計(jì)算類型的組件。
本次發(fā)布會(huì)上對(duì)此前蘋(píng)果一直重視和宣傳的 Siri 著墨甚少,并且在最新的iPhone上,還特別強(qiáng)調(diào),沒(méi)有了Home鍵以后,可以通過(guò)手機(jī)側(cè)面的按鈕喚醒Siri。此前,Siri的一個(gè)宣傳點(diǎn)難道不是直接語(yǔ)音喚醒,不需觸碰控制嗎?
最后看一眼價(jià)格:999美元,起。
蘋(píng)果第一篇公開(kāi)的人工智能論文:關(guān)于人臉識(shí)別,CVPR 2017最佳論文
蘋(píng)果在7月20日推出名為 Apple Machine Learning Journal 的新研究博客,對(duì)蘋(píng)果來(lái)說(shuō),做一個(gè)專門(mén)介紹他們的人工智能研究論文的博客還是挺新鮮的,因?yàn)樘O(píng)果通常不會(huì)公開(kāi)談?wù)撍麄兊难芯宽?xiàng)目。
該博客發(fā)表的第一篇文章是關(guān)于如何將合成的圖像變得更逼真,以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這也是蘋(píng)果于去年年底在arXiv發(fā)布的第一篇AI論文“Learning from Simulated and Unsupervised Images through Adversarial Training”的介紹,這篇論文在 CVPR 2017 獲得 best paper。
根據(jù)這篇文章,蘋(píng)果要訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)照片上的人臉和其他物體。但蘋(píng)果的方法不是制造擁有數(shù)百萬(wàn)計(jì)圖像樣本的巨大的數(shù)據(jù)集來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),而是創(chuàng)建由計(jì)算機(jī)生成的人物的合成圖像,并應(yīng)用一個(gè)過(guò)濾器使這些合成圖像更逼真。這比一般的方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)的成本更低,而且速度更快。
在機(jī)器學(xué)習(xí)研究中,使用計(jì)算機(jī)生成的圖像(例如電子游戲中的)訓(xùn)練神經(jīng)網(wǎng)絡(luò)比使用現(xiàn)實(shí)世界的圖像更高效。因?yàn)樯傻膱D像數(shù)據(jù)都是有標(biāo)簽和注釋的,而真實(shí)圖片的數(shù)據(jù)需要耗費(fèi)人力標(biāo)注計(jì)算機(jī)所看的東西,告訴它這是一棵樹(shù),一只狗,一輛自行車等等。但是生成圖片的方法也有問(wèn)題,因?yàn)檫@讓算法所學(xué)到的東西并不總是能無(wú)縫轉(zhuǎn)移到真實(shí)場(chǎng)景。生成圖片的數(shù)據(jù)“常常不那么真實(shí),導(dǎo)致神經(jīng)網(wǎng)絡(luò)只學(xué)習(xí)生成圖片的細(xì)節(jié),卻無(wú)法在真實(shí)圖片上很好地遷移?!碧O(píng)果的論文如是說(shuō)。
論文中用于舉例的“未標(biāo)注的真實(shí)圖像”、“合成的圖像”、“精細(xì)化的圖像”等都是人的眼睛圖片,或許,iPhone X 的 Face ID 新功能正是有利用這一方法,以及更多蘋(píng)果沒(méi)有公開(kāi)的研究成果?
圖:模型使用未標(biāo)注的真實(shí)數(shù)據(jù),利用模擬器改善合成的圖像的真實(shí)性,同時(shí)保留注釋信息。
地址:https://arxiv.org/abs/1612.07828
更聰明的Siri
蘋(píng)果機(jī)器學(xué)習(xí)博客接著在8月連著發(fā)表3篇來(lái)自 Siri 團(tuán)隊(duì)的技術(shù)文章,分別是:
-
通過(guò)跨帶寬和跨語(yǔ)言初始化改進(jìn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型(Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization)
-
反文本歸一化作為標(biāo)簽問(wèn)題(Inverse Text Normalization as a Labeling Problem)
-
Siri聲音的深度學(xué)習(xí):為混合單元選擇合成的設(shè)備上深度混合密度模型(Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis)
三篇文章題目看起來(lái)都非常高深,介紹了 Siri 背后的技術(shù)進(jìn)步。其中第一篇文章討論利用聲學(xué)模型數(shù)據(jù)的遷移學(xué)習(xí)技術(shù),以顯著提升新的語(yǔ)言版本Siri的精確度,讓Siri支持更多語(yǔ)言;第二篇介紹Siri如何利用機(jī)器學(xué)習(xí)格式化地顯示日期、時(shí)間、地點(diǎn)等。第三篇?jiǎng)t更綜合地介紹Siri聲音的進(jìn)化,探討如何利用深度學(xué)習(xí)讓Siri更會(huì)說(shuō)話。
具體來(lái)說(shuō),Siri在2014年中推出一個(gè)新的語(yǔ)音識(shí)別引擎,使用深度神經(jīng)網(wǎng)絡(luò)(DNN)。先是用于美國(guó)英語(yǔ),到2015年中擴(kuò)展到13種語(yǔ)言。為了順利擴(kuò)展到其他語(yǔ)言,蘋(píng)果研究人員需要使用有限的轉(zhuǎn)錄數(shù)據(jù)(transcribed data)來(lái)解決構(gòu)建高質(zhì)量的聲學(xué)模型的問(wèn)題。他們提出使用帶限(band-limit)相對(duì)更多、更易于收集的寬帶音頻來(lái)解決較少量的窄帶藍(lán)牙音頻問(wèn)題。他們?cè)谶w移學(xué)習(xí)框架之上使用了神經(jīng)網(wǎng)絡(luò)初始化。
圖:在窄帶藍(lán)牙測(cè)試上的詞錯(cuò)率
圖:跨語(yǔ)言初始化
另一值得一提的是Siri的文本轉(zhuǎn)語(yǔ)音(TTS)系統(tǒng):
從 iOS 9 到 iOS 11,Siri的聲音對(duì)比