歡迎進(jìn)入上海浦東軟件園股份有限公司官方網(wǎng)站！

歡迎進(jìn)入上海浦東軟件園股份有限公司網(wǎng)站！

【iPhone X重磅發(fā)布】攜A11人工智能芯片登場(chǎng),人臉識(shí)別9大特征

發(fā)布于： 2017-09-13

分類：行業(yè)動(dòng)態(tài)

?來(lái)源：搜狐科技 ?2017-09-13

【新智元導(dǎo)讀】蘋(píng)果13日凌晨發(fā)布了本年度最重量級(jí)的產(chǎn)品——iPhone X (iPhone 10）。這款用人臉識(shí)別進(jìn)行解鎖的新iPhone 可能是蘋(píng)果AI屬性最強(qiáng)的一個(gè)產(chǎn)品了。在發(fā)布會(huì)現(xiàn)場(chǎng)，蘋(píng)果介紹了A11生物神經(jīng)網(wǎng)絡(luò)引擎”這一AI芯片，近期，以智能手機(jī)為主的終端設(shè)備定制芯片已經(jīng)形成一種新的趨勢(shì)，我們將在文章中進(jìn)行重點(diǎn)介紹。另外，本文也會(huì)介紹蘋(píng)果在人工智能上的實(shí)力儲(chǔ)備情況：主要從四篇經(jīng)典論文談起。

北京時(shí)間9月13日凌晨，蘋(píng)果在新的總部召開(kāi)發(fā)布會(huì)，發(fā)布新的智能手表、電視和手機(jī)等一系列新產(chǎn)品。這是最受科技界關(guān)注的發(fā)布會(huì)之一。

今年的蘋(píng)果新品發(fā)布會(huì)首次在蘋(píng)果新總部的史蒂夫?喬布斯劇院舉行，蘋(píng)果CEO蒂姆?庫(kù)克在發(fā)布會(huì)的介紹中，重申了喬布斯精神。本次發(fā)布會(huì)最受關(guān)注的便是蘋(píng)果的新手機(jī)，傳說(shuō)中的iPhone8，令人驚喜的是，蘋(píng)果本次發(fā)布會(huì)帶來(lái)了最最重量級(jí)的智能手機(jī)——iPhone X （蘋(píng)果10）。增加了人臉識(shí)別解鎖Face ID的這款新手機(jī)，應(yīng)該是迄今為止這家最受關(guān)注的智能手機(jī)生產(chǎn)商推出的最A(yù)I的一部手機(jī)了。

首先，這是一部全屏幕的、沒(méi)有Home鍵的iPhone，支持無(wú)線充電。

iPhone X 最值得關(guān)注的一點(diǎn)便是通過(guò)人臉識(shí)別進(jìn)行解鎖，這在蘋(píng)果發(fā)布會(huì)之前就已經(jīng)傳得沸沸揚(yáng)揚(yáng)的功能終于得到了確認(rèn)。

蘋(píng)果人臉識(shí)別解鎖9大特征

根據(jù)蘋(píng)果在發(fā)布會(huì)現(xiàn)場(chǎng)的介紹，蘋(píng)果的人臉識(shí)別解鎖Face ID包含了9大特點(diǎn)：

人臉驗(yàn)證（Face authentication）
TrueDepth 攝像頭
驗(yàn)證簡(jiǎn)便
專門(mén)的神經(jīng)網(wǎng)絡(luò)
自然和安全
用戶隱私
注意力察覺(jué)
自適應(yīng)性
Apple Pay和其他應(yīng)用的綁定

根據(jù)官網(wǎng)的介紹，F(xiàn)ace ID 功能通過(guò)原深感攝像頭來(lái)實(shí)現(xiàn)，設(shè)置起來(lái)也非常簡(jiǎn)單。它會(huì)投射超過(guò) 30,000 個(gè)肉眼不可見(jiàn)的光點(diǎn)，并對(duì)它們進(jìn)行分析，為你的臉部繪制精確細(xì)致的深度圖。

詳細(xì)來(lái)看，在安全上，蘋(píng)果自稱，他們?nèi)四樧R(shí)別的錯(cuò)誤率是百萬(wàn)分之一。另外，數(shù)據(jù)的處理都是在設(shè)備上進(jìn)行的，解鎖是會(huì)通過(guò)識(shí)別用戶的注意力來(lái)進(jìn)行判斷。

具體可以再看一下另一大特點(diǎn)：TrueDepth 攝像頭

技術(shù)核心：蘋(píng)果 A11 和?A11?Bionic 芯片

據(jù)介紹，iPhone X 將采用定制的芯片來(lái)處理人工智能工作負(fù)載。這是一個(gè)雙核的“A11生物神經(jīng)網(wǎng)絡(luò)引擎”（A11 bionic neural engine）芯片，每秒運(yùn)算次數(shù)最高可達(dá)6000億次。

該芯片賦能的最重要的事情就是使 Face ID 身份認(rèn)證功能能夠快速識(shí)別人臉，從而解鎖 iPhone X 或進(jìn)行購(gòu)物。

這個(gè)消息并不出乎意外。早在今年5月，彭博就曾經(jīng)報(bào)道，蘋(píng)果公司正在為iPhone開(kāi)發(fā)AI芯片，但不清楚該芯片是否已經(jīng)準(zhǔn)備好可以用在今年最新的iPhone產(chǎn)品上。

而且，芯片走向定制化，以滿足AI軟件的需求，在行業(yè)中已經(jīng)變成一股新的大趨勢(shì)。 Alphabet的谷歌已經(jīng)設(shè)計(jì)了兩代芯片來(lái)處理數(shù)據(jù)中心的AI計(jì)算工作負(fù)載。微軟也為未來(lái)版本的HoloLens混合現(xiàn)實(shí)頭盔開(kāi)發(fā)了一款A(yù)I芯片。

在iPhone上安裝新的專用芯片意味著主芯片的工作量將會(huì)減少，從而提高電池壽命。否則，例如，通過(guò)手機(jī)攝像頭進(jìn)行物體識(shí)別同時(shí)進(jìn)行視頻錄制時(shí)，可能會(huì)迅速地將電池消耗完。

此外，在不久的將來(lái)， iPhone以外的更多移動(dòng)設(shè)備都可能包含針對(duì)AI的處理器。

Burke 在今年的谷歌 I/O 會(huì)議上曾說(shuō)：“隨著時(shí)間推移，我們預(yù)計(jì)會(huì)看到專門(mén)為神經(jīng)網(wǎng)絡(luò)的推理和訓(xùn)練設(shè)計(jì)的DSP（digital signal processors，數(shù)字信號(hào)處理器）的出現(xiàn)?！?/span>

雖然今天的消息肯定會(huì)占滿新聞?lì)^條，但蘋(píng)果其實(shí)以前就已將AI用途的芯片置于iPhone中。iPhone 7就包含有一個(gè)FPGA，這是英特爾和微軟為加速AI任務(wù)進(jìn)行探索的。據(jù)福布斯報(bào)道，在iPhone7之前蘋(píng)果沒(méi)有在iPhone中使用過(guò)FPGA。

蘋(píng)果對(duì)于芯片開(kāi)發(fā)并不陌生。蘋(píng)果已經(jīng)在它的 iOS 設(shè)備上對(duì)其A系列處理器給予重視，并且在智能手機(jī)上專門(mén)使用了某些計(jì)算類型的組件。

本次發(fā)布會(huì)上對(duì)此前蘋(píng)果一直重視和宣傳的 Siri 著墨甚少，并且在最新的iPhone上，還特別強(qiáng)調(diào)，沒(méi)有了Home鍵以后，可以通過(guò)手機(jī)側(cè)面的按鈕喚醒Siri。此前，Siri的一個(gè)宣傳點(diǎn)難道不是直接語(yǔ)音喚醒，不需觸碰控制嗎？

最后看一眼價(jià)格：999美元，起。

蘋(píng)果第一篇公開(kāi)的人工智能論文：關(guān)于人臉識(shí)別，CVPR 2017最佳論文

蘋(píng)果在7月20日推出名為 Apple Machine Learning Journal 的新研究博客，對(duì)蘋(píng)果來(lái)說(shuō)，做一個(gè)專門(mén)介紹他們的人工智能研究論文的博客還是挺新鮮的，因?yàn)樘O(píng)果通常不會(huì)公開(kāi)談?wù)撍麄兊难芯宽?xiàng)目。

該博客發(fā)表的第一篇文章是關(guān)于如何將合成的圖像變得更逼真，以用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這也是蘋(píng)果于去年年底在arXiv發(fā)布的第一篇AI論文“Learning from Simulated and Unsupervised Images through Adversarial Training”的介紹，這篇論文在 CVPR 2017 獲得 best paper。

根據(jù)這篇文章，蘋(píng)果要訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)照片上的人臉和其他物體。但蘋(píng)果的方法不是制造擁有數(shù)百萬(wàn)計(jì)圖像樣本的巨大的數(shù)據(jù)集來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)，而是創(chuàng)建由計(jì)算機(jī)生成的人物的合成圖像，并應(yīng)用一個(gè)過(guò)濾器使這些合成圖像更逼真。這比一般的方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)的成本更低，而且速度更快。

在機(jī)器學(xué)習(xí)研究中，使用計(jì)算機(jī)生成的圖像（例如電子游戲中的）訓(xùn)練神經(jīng)網(wǎng)絡(luò)比使用現(xiàn)實(shí)世界的圖像更高效。因?yàn)樯傻膱D像數(shù)據(jù)都是有標(biāo)簽和注釋的，而真實(shí)圖片的數(shù)據(jù)需要耗費(fèi)人力標(biāo)注計(jì)算機(jī)所看的東西，告訴它這是一棵樹(shù)，一只狗，一輛自行車等等。但是生成圖片的方法也有問(wèn)題，因?yàn)檫@讓算法所學(xué)到的東西并不總是能無(wú)縫轉(zhuǎn)移到真實(shí)場(chǎng)景。生成圖片的數(shù)據(jù)“常常不那么真實(shí)，導(dǎo)致神經(jīng)網(wǎng)絡(luò)只學(xué)習(xí)生成圖片的細(xì)節(jié)，卻無(wú)法在真實(shí)圖片上很好地遷移?！碧O(píng)果的論文如是說(shuō)。

論文中用于舉例的“未標(biāo)注的真實(shí)圖像”、“合成的圖像”、“精細(xì)化的圖像”等都是人的眼睛圖片，或許，iPhone X 的 Face ID 新功能正是有利用這一方法，以及更多蘋(píng)果沒(méi)有公開(kāi)的研究成果？

圖：模型使用未標(biāo)注的真實(shí)數(shù)據(jù)，利用模擬器改善合成的圖像的真實(shí)性，同時(shí)保留注釋信息。

地址：https://arxiv.org/abs/1612.07828

更聰明的Siri

蘋(píng)果機(jī)器學(xué)習(xí)博客接著在8月連著發(fā)表3篇來(lái)自 Siri 團(tuán)隊(duì)的技術(shù)文章，分別是：

通過(guò)跨帶寬和跨語(yǔ)言初始化改進(jìn)神經(jīng)網(wǎng)絡(luò)聲學(xué)模型（Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization）

反文本歸一化作為標(biāo)簽問(wèn)題（Inverse Text Normalization as a Labeling Problem）

Siri聲音的深度學(xué)習(xí)：為混合單元選擇合成的設(shè)備上深度混合密度模型（Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis）

三篇文章題目看起來(lái)都非常高深，介紹了 Siri 背后的技術(shù)進(jìn)步。其中第一篇文章討論利用聲學(xué)模型數(shù)據(jù)的遷移學(xué)習(xí)技術(shù)，以顯著提升新的語(yǔ)言版本Siri的精確度，讓Siri支持更多語(yǔ)言；第二篇介紹Siri如何利用機(jī)器學(xué)習(xí)格式化地顯示日期、時(shí)間、地點(diǎn)等。第三篇?jiǎng)t更綜合地介紹Siri聲音的進(jìn)化，探討如何利用深度學(xué)習(xí)讓Siri更會(huì)說(shuō)話。

具體來(lái)說(shuō)，Siri在2014年中推出一個(gè)新的語(yǔ)音識(shí)別引擎，使用深度神經(jīng)網(wǎng)絡(luò)（DNN）。先是用于美國(guó)英語(yǔ)，到2015年中擴(kuò)展到13種語(yǔ)言。為了順利擴(kuò)展到其他語(yǔ)言，蘋(píng)果研究人員需要使用有限的轉(zhuǎn)錄數(shù)據(jù)（transcribed data）來(lái)解決構(gòu)建高質(zhì)量的聲學(xué)模型的問(wèn)題。他們提出使用帶限（band-limit）相對(duì)更多、更易于收集的寬帶音頻來(lái)解決較少量的窄帶藍(lán)牙音頻問(wèn)題。他們?cè)谶w移學(xué)習(xí)框架之上使用了神經(jīng)網(wǎng)絡(luò)初始化。

圖：在窄帶藍(lán)牙測(cè)試上的詞錯(cuò)率

圖：跨語(yǔ)言初始化

另一值得一提的是Siri的文本轉(zhuǎn)語(yǔ)音（TTS）系統(tǒng)：

從 iOS 9 到 iOS 11，Siri的聲音對(duì)比