2022年，人工智能帶給人類更多驚喜

發(fā)布于： 2022-12-31

分類：行業(yè)動態(tài)

來源：環(huán)球網(wǎng) 2022-12-30

【環(huán)球網(wǎng)】即將過去的2022年，對于人工智能來說是值得銘記的一年。大批人工智能相關(guān)應(yīng)用走出實驗室，向著大范圍落地實踐不斷邁進。AI“黑科技”加持下的北京冬奧會異彩紛呈；無人駕駛開啟多城試點，未來交通更進一步；AI繪畫以假亂真令人著迷，藝術(shù)創(chuàng)作或許不再是人類專屬……

無論是底層技術(shù)不斷突破，還是各類應(yīng)用百花齊放，在過去的一年，人工智能向我們展示了它的無限可能。我們相信這只是人工智能的冰山一角，未來它還有更多潛力等待我們?nèi)ネ诰颉?/p>

隨著技術(shù)的不斷成熟，落地應(yīng)用不斷創(chuàng)新，人工智能或?qū)⒄嬲淖兡阄业纳睢?/p>

AI“黑科技”照亮北京冬奧會，助力天氣預(yù)報、比賽轉(zhuǎn)播和手語播報等

2月4日，全球矚目的2022年北京冬奧會正式拉開帷幕。人工智能等技術(shù)的應(yīng)用為本屆冬奧會增添了別樣的“科技之美”。

在此次冬奧會上，由中國科學(xué)院院士、北京大學(xué)副校長、北京大學(xué)重慶大數(shù)據(jù)研究院首席科學(xué)家張平文領(lǐng)銜研制的人工智能MOML算法賦能天氣預(yù)報模型，使冬奧會天氣預(yù)報更加精準(zhǔn)。人工智能算法在融合、處理信息中的先天優(yōu)勢，使其在一定程度上可以代替預(yù)報員在會商中進行信息整合、分析，通過數(shù)據(jù)挖掘與學(xué)習(xí)，將預(yù)報員的經(jīng)驗內(nèi)化在算法中，在提高天氣預(yù)報效率的同時，也進一步提高了預(yù)報的準(zhǔn)確率。

在本屆冬奧會自由式滑雪女子大跳臺決賽中，中國選手谷愛凌以“逆天”的精彩表現(xiàn)獲得個人首金。在比賽轉(zhuǎn)播過程中，百度智能云通過“3D+AI”技術(shù)打造出的“同場競技”系統(tǒng)，將單人比賽項目變成“多人比賽”，實現(xiàn)冠、亞軍比賽畫面的三維恢復(fù)和虛擬疊加，方便觀眾看到不同選手的實時動作；同時，通過技術(shù)手段對運動員動作進行量化分析，將滑行速度、騰空高度、落地遠度、旋轉(zhuǎn)角度等一系列運動數(shù)據(jù)與原始畫面疊加起來，使觀眾可以更直觀地從流暢性、完成度、難度、多樣性和美觀度等角度看懂選手之間的技術(shù)動作差異。

在北京冬奧會開幕的同一天，央視新聞AI手語主播也正式上崗，她在冬奧會新聞播報、賽事直播和現(xiàn)場采訪中，為聽障人士送上了實時手語翻譯服務(wù)。憑借精確的手語翻譯引擎，該AI手語主播可懂度達85%以上，可將冰雪賽事的文字及音視頻內(nèi)容，快速精準(zhǔn)地轉(zhuǎn)化為手語。

騰訊“混元”AI大模型登頂VCR榜單，展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強大實力

5月31日，騰訊“混元”AI大模型在多模態(tài)理解領(lǐng)域國際權(quán)威榜單VCR（Visual Commonsense Reasoning，視覺常識推理）中登頂，兩個單項成績和總成績均位列第一。這是繼在跨模態(tài)檢索領(lǐng)域大滿貫、CLUE自然語言理解分類榜及CLUE總榜登頂后，“混元”AI大模型的又一重大突破，展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強大實力。

與跨模態(tài)理解任務(wù)不同的是，多模態(tài)理解任務(wù)要求計算機除了能夠做到識別層次的感知（如分類檢測等），還需要達到認(rèn)知層次的感知（如判斷意圖、邏輯推理等）。

此次登頂VCR榜首的“混元”AI大模型由騰訊廣告多媒體AI團隊自主研發(fā)，同時借助騰訊太極機器學(xué)習(xí)平臺的圖形處理器算力和訓(xùn)練加速框架，在預(yù)訓(xùn)練任務(wù)、訓(xùn)練方式上進行了諸多創(chuàng)新改進和設(shè)計，有效提升了模型性能。

截至目前，“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多個領(lǐng)域的AI權(quán)威榜單中取得了第一名的成績，并刷新多項行業(yè)歷史紀(jì)錄。這意味著，“混元”在自然語言理解、多模態(tài)理解、跨模態(tài)理解等領(lǐng)域的技術(shù)實力已得到驗證。

谷歌工程師鬧烏龍，稱AI存在意識，人工智能所謂的“人格”更多只是模仿人類罷了

谷歌AI工程師鬧烏龍，稱LaMDA語言模型有意識，引發(fā)業(yè)界對“AI是否擁有自主意識”的討論。

今年6月，谷歌公司AI工程師萊莫因認(rèn)為對話應(yīng)用語言模型LaMDA具有了“自主意識”，并對此出具了長達21頁的證據(jù)。萊莫因認(rèn)為LaMDA具有意識的原因有三：一是LaMDA以前所未有的方式高效、創(chuàng)造性地使用語言；二是它以與人類相似的方式分享感覺；三是它會表達內(nèi)省和想象——既會擔(dān)憂未來，也會追憶過去。

LaMDA是谷歌在2021年開發(fā)者大會上公布的大型自然語言對話模型，它可以模擬任何帶有知識屬性的實體，通過“擬人”的方式，在與人類親切自然的對話中為用戶答疑解惑，傳遞更多知識。

萊莫因的觀點和證據(jù)引起了業(yè)內(nèi)的廣泛關(guān)注。不久后，谷歌發(fā)表聲明稱，萊莫因違反了“就業(yè)和數(shù)據(jù)安全政策”，將其解雇。谷歌表示，經(jīng)過廣泛地審查，他們發(fā)現(xiàn)萊莫因關(guān)于LaMDA是有生命的說法是完全沒有根據(jù)的。

專家普遍認(rèn)為，當(dāng)下人工智能具有的所謂“人格”，更多只是模仿人類的語言風(fēng)格，有自我意識、有感知能力的AI應(yīng)該具備能動性，并具有獨特的視角看待人和事，但目前AI還只是人們設(shè)計的一個計算機系統(tǒng)，作為工具來做一些特定之事。

全球首個圖、文、音三模態(tài)大模型誕生，“紫東太初”實現(xiàn)“以圖生音”和“以音生圖”

9月1日，在上海舉辦的2022世界人工智能大會上，由武漢人工智能研究院、中國科學(xué)院自動化研究所和華為技術(shù)有限公司聯(lián)合研發(fā)的“紫東太初”多模態(tài)大模型項目獲得了此次大會的最高獎項。“紫東太初”是全球首個圖、文、音三模態(tài)大模型，開創(chuàng)性地實現(xiàn)了圖像、文本、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”，實現(xiàn)了“以圖生音”和“以音生圖”，理解和生成能力更接近人類，為打造多模態(tài)人工智能行業(yè)應(yīng)用提供創(chuàng)新基礎(chǔ)，向通用人工智能邁出了重要一步。

“紫東太初”三模態(tài)間的相互轉(zhuǎn)換和生成，其核心原理是視覺、文本、語音不同模態(tài)通過各自編碼器映射到統(tǒng)一語義空間，然后通過多頭自注意力機制學(xué)習(xí)模態(tài)之間的語義關(guān)聯(lián)以及特征對齊，形成多模態(tài)統(tǒng)一知識表示；之后，再利用編碼后的多模態(tài)特征，通過解碼器分別生成文本、圖像和語音。

“紫東太初”憑借四大突破，有效助力以多模態(tài)認(rèn)知為核心的通用人工智能發(fā)展。一是首次提出多層次、多任務(wù)跨模態(tài)自監(jiān)督學(xué)習(xí)框架，支持從詞條級走向模態(tài)級、樣本級的三級預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)方式；二是首次完成弱關(guān)聯(lián)多模態(tài)數(shù)據(jù)語義統(tǒng)一表示，減少數(shù)據(jù)收集與清洗代價；三是首次實現(xiàn)多模態(tài)理解與生成任務(wù)的統(tǒng)一建模，支持跨模態(tài)檢索、多模態(tài)分類、語音識別、圖像生成等理解與生成任務(wù)；四是首次實現(xiàn)無監(jiān)督超越有監(jiān)督方法，基于5%—10%的數(shù)據(jù)標(biāo)注，實現(xiàn)100%的有監(jiān)督學(xué)習(xí)效果。

AI打破矩陣乘法計算速度紀(jì)錄，解決了50年來數(shù)學(xué)領(lǐng)域一個懸而未決的問題

10月，英國《自然》雜志封面以“矩陣游戲”為題，發(fā)表了人工智能公司“深度思維”團隊的最新發(fā)現(xiàn)：AI可以解決矩陣乘法問題。這款名為“AlphaTensor”的AI系統(tǒng)能自行發(fā)現(xiàn)新算法，從而解決了50年來數(shù)學(xué)領(lǐng)域一個懸而未決的問題——找到兩個矩陣相乘最快的方法。這是第一個可為矩陣乘法等基本任務(wù)發(fā)現(xiàn)新穎、高效且正確算法的AI系統(tǒng)。

數(shù)學(xué)在計算機編程中經(jīng)常出現(xiàn)，通常作為描述和操縱現(xiàn)實世界現(xiàn)象表示的一種手段。例如，它可用于表示計算機屏幕上的像素、天氣狀況或人工網(wǎng)絡(luò)中的節(jié)點。在這種情況下，使用數(shù)學(xué)的主要方式之一，就是對矩陣進行計算。矩陣越大，工作量也越大，計算機科學(xué)家開始花費大量時間和精力開發(fā)更加有效的算法來完成相關(guān)工作。

在此次最新成果中，“深度思維”團隊研究人員探究了是否有可能使用基于強化學(xué)習(xí)的AI系統(tǒng)來創(chuàng)建新算法，從而使計算步驟比現(xiàn)有算法更少。

為了找到答案，他們從游戲系統(tǒng)中尋找靈感。在構(gòu)建了一些初步系統(tǒng)之后，研究團隊將重點轉(zhuǎn)向了樹搜索，這是系統(tǒng)在特定情況下查看各種方案的一種方法。

接下來，研究人員將允許系統(tǒng)創(chuàng)建自己的算法，進一步提高效率。他們發(fā)現(xiàn)，在許多情況下，系統(tǒng)選擇的算法比人類創(chuàng)建的算法更好。“深度思維”團隊希望，未來AI能更多地用來幫助攻克數(shù)學(xué)和科學(xué)領(lǐng)域的一些重要的難題。

2022中國人工智能創(chuàng)新發(fā)展指數(shù)公布，全面反映我國人工智能發(fā)展態(tài)勢

11月18日，第五屆世界聲博會暨2022科大訊飛全球1024開發(fā)者節(jié)開幕式上，中國電子信息產(chǎn)業(yè)發(fā)展研究院（又稱賽迪研究院）發(fā)布了2022中國人工智能創(chuàng)新發(fā)展指數(shù)（合肥指數(shù)）。

這是國內(nèi)首個以地區(qū)冠名的全國性人工智能專題研究成果，旨在全面系統(tǒng)地反映我國人工智能的發(fā)展態(tài)勢。中國電子信息產(chǎn)業(yè)發(fā)展研究院從發(fā)展環(huán)境、創(chuàng)新能力、基礎(chǔ)配套、資本投入和產(chǎn)業(yè)實力5個維度，構(gòu)建了中國人工智能創(chuàng)新發(fā)展指數(shù)，也就是“合肥指數(shù)”的評價體系。

近年來，我國人工智能步入與經(jīng)濟深度融合應(yīng)用新階段，智能化轉(zhuǎn)型全面推進，人工智能產(chǎn)業(yè)在全球的影響力不斷增強。2021年，我國人工智能的研發(fā)強度為19.4%，從業(yè)人數(shù)增加到31萬人，占全球比重的5.3%。2017年至2021年，我國人工智能產(chǎn)業(yè)規(guī)模增長了2.6倍，占全球比重提升到16.8%。專利申請量占全球比重持續(xù)擴大，從2012年的13%增長到2021年的70.9%。創(chuàng)新能力上，我國人工智能研發(fā)投入力度不斷加大，從業(yè)人數(shù)不斷增加。

從總體指數(shù)來看，北京、廣東和上海處于人工智能領(lǐng)域的領(lǐng)跑地位，安徽則緊隨其后，排在全國的第6位。合肥已經(jīng)成為人工智能領(lǐng)域、科技創(chuàng)新與產(chǎn)業(yè)發(fā)展最活躍的城市之一。

ESMFold預(yù)測六億多種蛋白質(zhì)結(jié)構(gòu)，預(yù)測速度比“阿爾法折疊”快60倍

英國“深度思維”公司8月曾宣布，其開發(fā)的人工智能程序“阿爾法折疊”已預(yù)測出約100萬個物種的超過2億種蛋白質(zhì)結(jié)構(gòu)，幾乎涵蓋了科學(xué)界已編錄的每一種蛋白質(zhì)結(jié)構(gòu)。但就在今年11月，元宇宙平臺公司（Meta）研究人員利用人工智能模型ESMFold預(yù)測了來自細菌、病毒和其他尚未被表征微生物的6億多種蛋白質(zhì)結(jié)構(gòu)。

在此次最新研究中，研究團隊利用大型語言模型來預(yù)測這些蛋白質(zhì)結(jié)構(gòu)。據(jù)悉，語言模型通常需要大量文本進行訓(xùn)練，為將這一模型應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測，研究團隊利用已知的蛋白質(zhì)序列來訓(xùn)練它，這些已知的蛋白質(zhì)可由20個不同氨基酸組成的鏈來表達，每個氨基酸由一個字母表示。然后，ESMFold學(xué)會了用模糊的氨基酸比例“自動完成”蛋白質(zhì)結(jié)構(gòu)預(yù)測。

該團隊負責(zé)人亞歷山大·里維斯表示，這些訓(xùn)練讓ESMFold對包含蛋白質(zhì)形狀信息的蛋白質(zhì)序列有了直觀了解。而且，與“阿爾法折疊”一樣，這一模型能將這些了解到的信息與已知蛋白質(zhì)結(jié)構(gòu)和序列之間的關(guān)系信息結(jié)合，生成預(yù)測結(jié)構(gòu)。

團隊指出，ESMFold的預(yù)測雖然不像“阿爾法折疊”那么準(zhǔn)確，但在預(yù)測速度上要快60倍，這意味著它可將結(jié)構(gòu)預(yù)測數(shù)據(jù)庫擴展到更大。

首創(chuàng)蛋白質(zhì)動態(tài)結(jié)構(gòu)AI建模方法，對理解生命過程、研發(fā)新型藥物有著重要意義

12月8日，西湖大學(xué)公布了該校人工智能講席教授李子青團隊聯(lián)合廈門大學(xué)、杭州德睿智藥科技有限公司首創(chuàng)研發(fā)的能夠刻畫蛋白質(zhì)構(gòu)象變化與親和力預(yù)測的AI模型——ProtMD。這是第一個嘗試解析蛋白質(zhì)動態(tài)構(gòu)象的人工智能模型，可輔助藥物化學(xué)專家更加精準(zhǔn)地篩選出高活性小分子，從而加速臨床前藥物研發(fā)。

此前谷歌旗下公司研發(fā)的“阿爾法折疊2”能夠利用人工智能準(zhǔn)確預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)，對結(jié)構(gòu)生物學(xué)、藥物設(shè)計乃至整個科學(xué)界都產(chǎn)生了巨大影響。但“阿爾法折疊2”只能預(yù)測蛋白質(zhì)在一個瞬間的靜態(tài)結(jié)構(gòu)，尚未能解決蛋白質(zhì)結(jié)構(gòu)動態(tài)變化的預(yù)測。李子青團隊此次開發(fā)的AI模型，在給定藥物分子和靶點蛋白的情況下，可預(yù)測藥物分子與生物體內(nèi)靶點蛋白質(zhì)結(jié)合（柔性對接）后蛋白質(zhì)結(jié)構(gòu)的變化過程，推斷藥物與靶標(biāo)蛋白結(jié)合的穩(wěn)定性，預(yù)測藥物功能，從而提升AI藥物設(shè)計的精度和效率。

李子青表示，預(yù)測蛋白質(zhì)結(jié)構(gòu)的動態(tài)變化對理解生命過程、研發(fā)新型藥物都有著十分重要的意義。尤其在AI藥物設(shè)計中，通過對藥物分子與靶點蛋白結(jié)合后的動態(tài)結(jié)構(gòu)變化進行預(yù)測，評估藥物—靶點結(jié)合親和力和藥物效果，是提高AI藥物篩選準(zhǔn)確性和效能的重要思路。

多城市推動自動駕駛行業(yè)發(fā)展，我國自動駕駛行業(yè)正式向L3級邁進

2022年是自動駕駛行業(yè)具有里程碑意義的一年，有關(guān)政策密集出臺，相關(guān)應(yīng)用從研發(fā)測試走向大規(guī)模商業(yè)化試點。當(dāng)前，全國近30個城市已累計為80余家企業(yè)發(fā)放了超過1000張道路測試牌照，允許高等級智能網(wǎng)聯(lián)汽車在特定場景、特殊區(qū)域內(nèi)開展規(guī)模化載人載物測試示范。越來越多的城市正在推進更高等級的自動駕駛商業(yè)化。

今年8月1日，《深圳經(jīng)濟特區(qū)智能網(wǎng)聯(lián)汽車管理條例》開始實行，該條例提出L3級自動駕駛在行政區(qū)全域開放道路測試、示范應(yīng)用，探索開展商業(yè)化運營試點，標(biāo)志著我國自動駕駛行業(yè)正式向L3級邁進。

此后，重慶、武漢等地政府部門也先后發(fā)布了自動駕駛?cè)珶o人商業(yè)化試點政策，并向百度發(fā)放全國首批無人化示范運營資格，允許車內(nèi)無安全員的自動駕駛車輛在社會道路上開展商業(yè)化服務(wù)。

此外，為推動智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)健康有序發(fā)展，工業(yè)和信息化部會同公安部還組織起草了《關(guān)于開展智能網(wǎng)聯(lián)汽車準(zhǔn)入和上路通行試點工作的通知（征求意見稿）》，擬遴選符合條件的道路機動車輛生產(chǎn)企業(yè)和具備量產(chǎn)條件的搭載自動駕駛功能的智能網(wǎng)聯(lián)汽車產(chǎn)品，開展準(zhǔn)入試點；對通過準(zhǔn)入試點的智能網(wǎng)聯(lián)汽車產(chǎn)品，在試點城市的限定公共道路區(qū)域內(nèi)開展上路通行試點。

AI繪畫火了，AIGC元年開啟，未來預(yù)計能夠產(chǎn)生萬億級經(jīng)濟價值

今年8月，在美國科羅拉多州舉辦的新興數(shù)字藝術(shù)家競賽中，參賽者杰森·艾倫提交的AIGC繪畫作品——《太空歌劇院》，獲得了此次比賽“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎。沒有繪畫基礎(chǔ)的杰森·艾倫借用了一款名叫Midjourney的AI繪圖工具，通過一個類似“文字游戲”的過程，輸入題材、光線、場景、角度、氛圍等有關(guān)畫面效果的關(guān)鍵詞后，得到了初始作品，并在反復(fù)調(diào)整和修改后最終完成了這組“太空歌劇院”數(shù)字藝術(shù)作品。

這一年，AI繪畫小程序、網(wǎng)站等開始迅猛增長，而美圖秀秀、抖音等軟件也加入了AI畫圖功能。抖音平臺數(shù)據(jù)顯示，截至12月6日，已有超2428.4萬人使用該特效，迅速飆升至特效潮流榜第一位。AI繪畫的百度指數(shù)也從日均兩三千上升到日均3萬，火爆程度可見一斑。

AI繪畫的火爆也讓AIGC這一概念逐漸進入大眾視野。

所謂AIGC（AI Generated Content），即基于人工智能技術(shù)自動生成內(nèi)容的新型生產(chǎn)范式。其技術(shù)主要涉及兩個方面：自然語言處理（NLP）和AIGC生成算法。其中，自然語言處理是實現(xiàn)人與計算機之間通過自然語言進行交互的手段。

最初，AIGC可生成的內(nèi)容形式以文字為主，經(jīng)過2022年指數(shù)級的發(fā)展，目前AIGC技術(shù)可生成的內(nèi)容形式已經(jīng)拓展到了包括文字、圖像、視頻、語音、代碼、機器人動作等多種內(nèi)容形式，2022年也因此被稱為“AIGC元年”。生成式AI讓機器開始大規(guī)模涉足知識類和創(chuàng)造性工作，未來預(yù)計能夠產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。