400-8855-170
簡(jiǎn)體中文

新聞資訊

時(shí)間:2023.08.16

振華航空芯資訊:三分鐘看懂“人臉識別”芯片之爭!

在過(guò)去的幾十年間,人工智能一直在默默地發(fā)展,期間出現過(guò)數次“指日可待”的破發(fā)期,但最終都因為算法不成熟而反復沉淪。直到2013-2014年,隨著(zhù)曠視、商湯(這兩家企業(yè)同根同源)的橫空出世,以人臉識別技術(shù)為代表的人工智能瞬間引爆資本市場(chǎng),隨之而來(lái)的就是捷報頻傳的AI應用創(chuàng )新。

發(fā)展強勁,牽引AI一路狂奔

據科技部火炬中心發(fā)布的《2017年中國獨角獸企業(yè)發(fā)展報告》顯示,2017年我國164家獨角獸企業(yè)中,人工智能企業(yè)數量有6家,占比3.66%,獨角獸企

數量排名第10位;據報告分析,這6家企業(yè)總估值120億美元,在整個(gè)獨角獸企業(yè)估值中占比1.91%,位居全行業(yè)第11位。

在這一波AI浪潮中,人臉識別作為爆發(fā)點(diǎn),是目前成長(cháng)最為迅速的AI應用,據前瞻產(chǎn)業(yè)研究院發(fā)布的《人臉識別行業(yè)市場(chǎng)前瞻與投資戰略規劃分析報告》數據顯示,2017年全球人臉識別市場(chǎng)規模約為31.8億美元,預計未來(lái)一段時(shí)間人臉識別市場(chǎng)規模將保持20%左右的增速,預測到2022年,全球人臉識別市場(chǎng)規模將達75.95億美元。

本土人臉識別企業(yè)也隨著(zhù)這一波浪潮成為了中國“萬(wàn)眾創(chuàng )新”的一張名片,商湯、曠視、云從、云天勵飛、依圖這5家企業(yè),放眼全球,它們的技術(shù)水平均處于行業(yè)領(lǐng)先地位。

前瞻數據庫公布的數據顯示,我國人臉識別市場(chǎng)規模近幾年年均復合增長(cháng)率達27%。2016年,我國人臉識別行業(yè)市場(chǎng)規模約為17.25億元;2017年其市場(chǎng)規模已超過(guò)20億元,預計未來(lái)5年增速仍將保持年均25%的高度,至2022年達到65億元以上。

當然,其背后與資本的推助離不開(kāi),去年11月,曠視科技(Face++)完成了4.6億美元的C輪融資,本輪融資一舉打破了國際范圍內人工智能領(lǐng)域融資記錄;而不久后,該記錄即被商湯打破,今年4月9日,商湯獲得6億美元C輪融資;緊接著(zhù)5月31日,再次獲得6.2億美元C+輪融資,從2014年創(chuàng )立至今,商湯科技的融資總額可能已超過(guò)17億美元。

神經(jīng)網(wǎng)絡(luò )卷積深度學(xué)習技術(shù)令人臉識別瞬間提升到3D多維算法領(lǐng)域,人類(lèi)這才終于從算法層面解決了人臉識別不精準、實(shí)戰難的問(wèn)題,讓人臉識別技術(shù)從此走向應用。

不過(guò),問(wèn)題也隨之而來(lái):即便融資號令全球,但沒(méi)有落地,人臉識別就只能飄在天空,落地才是硬道理。于是行業(yè)玩家在繼續追逐算法極致的同時(shí),開(kāi)始了一輪又一輪的產(chǎn)品硬件化。

經(jīng)過(guò)幾年的實(shí)踐檢驗后發(fā)現,當下AI三大要素中影響人臉識別推廣應用的關(guān)鍵不是算法、也不是大數據,而是主觀(guān)認為早已解決的算力問(wèn)題——運行人臉識別深度學(xué)習算法的最佳處理器。

人臉識別運算流程主要有4個(gè):視頻采集→特征提取→數據比對→識別。

由于目前沒(méi)有專(zhuān)門(mén)用于人臉識別的處理芯片,只能采用通用芯片代為處理。因深度學(xué)習算法對算力資源需求高,一般采取核心處理器,如CPU、ARM芯片進(jìn)行視頻采集,把視頻中的人臉圖像摳取下來(lái),然后把該人臉圖像發(fā)送給下一處理單元進(jìn)行結構化處理。

結構化處理是人臉識別的關(guān)鍵。最初方案是在CPU上做處理,但由于CPU負責邏輯算數的部分并不多,在多任務(wù)處理時(shí)效率低下,有分析認為,12顆NVIDIA GPU可以提供相當于2000顆CPU的深度學(xué)習性能;在圖像處理,CPU的先天劣勢決定了其在人臉識別應用上被棄用的結局,該結論同樣適用于應用于Linux系統的ARM處理器。


核心數據處理芯片無(wú)法執行人臉識別結構化運算,只能將圖像處理的工作交給更合適的專(zhuān)門(mén)處理芯片,目前常見(jiàn)的有GPU顯示核心、FPGA現場(chǎng)可編程門(mén)陣列、ASIC專(zhuān)用集成電路、DSP數字信號處理。


GPU:當下AI的主導者

GPU的優(yōu)勢在于解決浮點(diǎn)運算、數據并行計算問(wèn)題,在大量數據元素并行程序方面具有極高的計算密度。

GPU的應用現已不再局限于3D圖形處理了,而是具備強大計算能力的處理器,其在人工智能、深度學(xué)習高速并行運算的優(yōu)勢凸顯。

GPU在云計算、AR/VR、AI中的重要性不斷被產(chǎn)業(yè)界和資本市場(chǎng)驗證和認可,其中,全球龍頭NVIDIA是GPU領(lǐng)域的絕對領(lǐng)導者,過(guò)去幾年實(shí)現了股票的數倍增長(cháng);業(yè)績(jì)方面也是處于高速增長(cháng)態(tài)勢,在整個(gè)2018財年,英偉達營(yíng)收為97.14億美元,與2017財年的69.10億美元相比增長(cháng)41%;凈利潤為30.47億美元,與2017財年的16.66億美元相比增長(cháng)83%。


目前全球超級計算機TOP 500上榜的所有超級計算機有96%都使用了配備英偉達GPU的核心加速器,它所占份額為60%。緊隨其后的是Xeon Phi,所占份額為21%。


無(wú)形中,GPU成為了當下人臉識別算力資源的絕對主力,從行業(yè)采用情況看,但凡是采用中心集中處理組網(wǎng)架構的人臉識別項目,清一色采用GPU作為人像數據結構化的處理單元,特別是在X86服務(wù)器集群中,GPU更是成為唯一選擇。


雖然GPU優(yōu)勢凸顯,卻也存在兩個(gè)致命硬傷,一是功耗大,需依托X86架構服務(wù)器運行,不適用于更為廣泛的人臉識別產(chǎn)品方案開(kāi)發(fā);尤其是人臉識別民用化趨勢日漸增強的當下,GPU不適于在小型化項目的采用。二是成本高昂,采用GPU方案,折算單路人臉識別成本在萬(wàn)元以上,相較其他千元級,甚至是百元級的方案,毫無(wú)成本優(yōu)勢可言,不利于商業(yè)平民化推廣。


這兩個(gè)致命短板,令眾人臉識別創(chuàng )業(yè)公司不得不尋求新的方案;目前在一些中小型項目中,GPU早已被棄選,如道閘、過(guò)道等前景同樣廣闊的領(lǐng)域。


FPGA:被賦予厚望的替代品


場(chǎng)效可編程邏輯閘陣列FPGA運用硬件語(yǔ)言描述電路,根據所需要的邏輯功能對電路進(jìn)行快速燒錄。一個(gè)出廠(chǎng)后的成品FPGA的邏輯塊和連接可以按照設計者的需要而改變。


FPGA和GPU內都有大量的計算單元,因此它們的計算能力都很強。不過(guò)FPGA的可編程性,讓軟件與終端應用公司能夠提供與其競爭對手不同的解決方案,并且能夠靈活地針對自己所用的算法修改電路。其中峰值性能、平均性能與功耗能效比就是決定FPGA與GPU誰(shuí)能在服務(wù)器端占領(lǐng)高地的重要因素。


同樣是擅長(cháng)并行計算的FPGA和GPU,兩者性能都較CPU強許多,其中GPU能同時(shí)運行成千上萬(wàn)個(gè)核心同時(shí)跑在GHz的頻率上,最新的GPU峰值性能甚至可以達到10TFlops以上。


相對而言,FPGA首先設計資源受到很大的限制,例如GPU如果想多加幾個(gè)核心只要增加芯片面積就行,但FPGA一旦型號選定了,其邏輯資源上限就確定了。


而且,FPGA里面的邏輯單元是基于SRAM查找表,其性能會(huì )比GPU里面的標準邏輯單元差很多。


最后,FPGA的布線(xiàn)資源也受限制,因為有些線(xiàn)必須要繞很遠,不像GPU這樣走ASIC flow可以隨意布線(xiàn),因此,在峰值性能方面,FPGA要遠遜于GPU。


平均性能方面,目前機器學(xué)習大多使用SIMD架構,即只需一條指令可以平行處理大量數據,因此用GPU很適合。但是有些應用是MISD,即單一數據需要用許多條指令平行處理,這種情況下用FPGA做一個(gè)MISD的架構就會(huì )比GPU有優(yōu)勢。對于平均性能,看的就是FPGA加速器架構上的優(yōu)勢是否能彌補運行速度上的劣勢。如果FPGA上的架構優(yōu)化可以帶來(lái)相比GPU架構兩到三個(gè)數量級的優(yōu)勢,那么FPGA在平均性能上會(huì )好于GPU。


功耗方面,GPU的功耗遠大于FPGA的功耗,單一比對中,FPGA無(wú)疑是分布式部署人臉識別網(wǎng)絡(luò )的最佳選擇。但如果要比較功耗的同時(shí)再比較同等執行效率的功耗,FPGA則沒(méi)有優(yōu)勢。不過(guò)在GPU無(wú)法改變的當下,FPGA給予了行業(yè)無(wú)限的希望,如果FPGA的架構優(yōu)化能做到很好以致于一塊FPGA的平均性能能夠接近一塊GPU,那么FPGA方案的總功耗遠小于GPU,那么FPGA取代GPU將成為人臉圖像結構化的不二選擇。


FPGA器件的行業(yè)集中度同樣很高,全球前四大產(chǎn)商均來(lái)自美國,分別為:Xilinx(賽靈思)、Altera(阿爾特拉)、Lattice(萊迪思)和Microsemi(美高森美), 總共占據了98%以上的市場(chǎng)份額。其中第一的Xilinx占49%,第二的Altera占39%,二者合計占比達88%市場(chǎng)份額,形成了雙寡頭的競爭格局。


廠(chǎng)家

所屬?lài)?/p>

市場(chǎng)份額

Xilinx

美國

49%

Altera

美國

39%

Lattice

美國

12%

Microsemi

美國

同方國芯

中國

京微齊力

中國

Agate Logic

中國

其他

其他

圖表4:全球FPGA主要廠(chǎng)商和中國廠(chǎng)商市場(chǎng)份額分布(數據來(lái)源:華創(chuàng )證券)



ASIC、DSP:小型項目高性?xún)r(jià)比選配方案


ASIC、DSP都屬于串行計算。ASIC芯片的優(yōu)勢是運算能力強、規模量產(chǎn)成本低,但開(kāi)發(fā)周期長(cháng)、單次流片成本高,主要適用于量大、對運算能力要求較高、開(kāi)發(fā)周期較長(cháng)的領(lǐng)域,比如大部分消費電子芯片和實(shí)驗。


DSP內包括有控制單元、運算單元、各種寄存器以及一定數量的存儲單元等等,在其外圍還可以連接若干存儲器,并可以與一定數量的外部設備互相通信,有軟、硬件的全面功能,本身就是一個(gè)微型計算機。它不僅具有可編程性,而且其實(shí)時(shí)運行速度可達每秒數以千萬(wàn)條復雜指令程序,遠遠超過(guò)通用微處理器,是數字化電子世界中日益重要的電腦芯片。它的強大數據處理能力和高運行速度,是最值得稱(chēng)道的兩大特色。


由于它運算能力很強、速度很快、體積很小,而且采用軟件編程具有高度的靈活性,因此為從事各種復雜的應用提供了一條有效途徑。當然,與通用微處理器相比,DSP芯片的其他通用功能相對弱些。但到目前為止,DSP 并沒(méi)能真正提供任何有用的性能或是可以與 GPU 相匹敵的器件,其主要原因就是核數量,導致不少 DSP 被FPGA取代。

8666.jpg

圖表5:FPGA、ASIC、DSP優(yōu)缺點(diǎn)比較、應用領(lǐng)域(數據來(lái)源:華創(chuàng )證券)

相較ASIC、DSP來(lái)說(shuō),FPGA的功耗仍比較大,成本優(yōu)勢也不足以支撐高性?xún)r(jià)比的人臉識別方案設計,因此,目前針對邊緣云計算的最新應用方案,ASIC、DSP的選用性更強。


而當下人臉識別算法基本都得到了充分的大數據訓練,算法成熟度已經(jīng)較高,其應用也不再一味追求極限,對一些準確率不是極度變態(tài)的場(chǎng)合,ASIC、DSP成為了首選,比如監控的AI賦能。


其中,又因DSP更具開(kāi)發(fā)周期優(yōu)勢,我們已經(jīng)看到,ARM+DSP的處理方案已經(jīng)成為人臉識別超低性?xún)r(jià)比首選,目前的百元級、千元級人臉識別產(chǎn)品正是基于該方案實(shí)現;當然,受限于DSP的大量數據處理性能,可在小型化服務(wù)器中同時(shí)采用多顆DSP共同組建方案,如一部分資源負責人像分析,另一部分DSP資源用于特征提取。


目前TI和海思的方案采用最為廣泛。


TI的達芬奇解決方案中,DM644X系統內嵌DSP,可將人臉檢測置于其中便能達到實(shí)時(shí)處理,適用于DVS解決方案設計,當然,因為該方案系統架構較為復雜,軟件設計困難度要相對高些。


而海思的351X系統為ARM+ASIC結構,編碼算法運行于A(yíng)SIC中,其他功能則運行于內嵌的ARM中。這兩個(gè)方案中,TI的解決方案處理能力最好,但價(jià)格也略高;海思則在系統簡(jiǎn)潔化、開(kāi)發(fā)成本上有優(yōu)勢。


為滿(mǎn)足當下人臉識別等人工智能的發(fā)展需求,行業(yè)也推出了各種針對深度學(xué)習芯片,如TPU、NPU、DPU、BPU等。


相比GPU,TPU更加類(lèi)似于DSP,盡管計算能力略有遜色,可其功耗大大降低,當然,TPU的應用還是要受到CPU的控制;


深鑒科技基于Xilinx可重構特性FPGA芯片開(kāi)發(fā)的DPU屬于半定制化的FPGA,作為專(zhuān)用的深度學(xué)習處理單元使用;


NPU相比于CPU中采取的存儲與計算相分離的馮諾伊曼結構,NPU通過(guò)突觸權重實(shí)現存儲和計算一體化,從而大大提高運行效率,其典型代表有國內的寒武紀芯片和IBM的TrueNorth,另外,中星微電子的“星光智能一號”雖說(shuō)對外號稱(chēng)是NPU,但其實(shí)只是DSP,僅支持網(wǎng)絡(luò )正向運算,無(wú)法支持神經(jīng)網(wǎng)絡(luò )訓練;


BPU主要是用來(lái)支撐深度神經(jīng)網(wǎng)絡(luò ),比如圖像、語(yǔ)音、文字、控制等方面的任務(wù),而不是去做所有的事情,用BPU來(lái)實(shí)現會(huì )比在CPU上用軟件實(shí)現要高效,一般來(lái)說(shuō)會(huì )提高2-3個(gè)數量級,然而,BPU一旦生產(chǎn),不可再編程,且必須在CPU控制下使用。


此外,算法企業(yè)也在積極與芯片企業(yè)合作,加速推出符合需求的人臉識別芯片產(chǎn)品。


如近日商湯就與中國芯片研發(fā)企業(yè)Rockchip瑞芯微展開(kāi)了深度合作,瑞芯微將在旗下芯片平臺全線(xiàn)預裝商湯人臉識別SDK軟件包,首批芯片包括瑞芯微RK3399Pro、RK3399、RK3288三大主力平臺。其中RK3399ProAI芯片首次采用了CPU+GPU+NPU硬件結構設計。


而英特爾作為一代芯片巨頭,也在發(fā)力GPU以期穩固其龍頭地位,接連收購了Altera、Mobileye等企業(yè),欲在搭載強大CPU核心的多核異構處理器方面大展宏圖,雖然目前該夢(mèng)想還沒(méi)有得到很好實(shí)現,不過(guò)也被認為是未來(lái)解決人工智能算力瓶頸的有效方案之一。


小結


目前人臉識別的最佳芯片方案仍是GPU,實(shí)際落地的小型項目則可以采用DSP等能耗低的高性?xún)r(jià)比方案;而FPGA的優(yōu)勢,也讓它具備取代GPU的可能,只是受制于專(zhuān)利墻及技術(shù),更多的希望只能寄托于FPGA四大家族發(fā)展進(jìn)度。


當然,人臉識別的應用萬(wàn)萬(wàn)千,場(chǎng)景應用創(chuàng )新也還在持續開(kāi)發(fā)中,概括起來(lái)主要有三種場(chǎng)景方案需求。


一是終端一體化集成圖像采集、人臉采集、特征提取、數據比對、識別全流程,如手機解鎖、移動(dòng)支付等,該場(chǎng)景主要是1:1識別方式,其對安全性要求最為嚴苛,一般都會(huì )通過(guò)紅外技術(shù)輔助建立3D人像模型以確保真人識別;


二是云邊應用,此時(shí)圖像采集與人臉識別AI應用獨立,對分析處理模塊性能要求較高,一般有1:N、N:N兩種識別方式,而需要紅外輔助建模還是平臺虛擬建模,根據場(chǎng)景安全等級抉擇,如人臉道閘以支持真人識別為佳;


三是中心處理,該模式基本不用做圖像采集,主要是識別認證和大數據碰撞研判,動(dòng)輒百億、千億量級,對處理芯片要求非常高,目前基本可以說(shuō)只有GPU才是最佳選擇。


三種場(chǎng)景,需求不一樣,方案也將不一樣,以目前的芯片技術(shù)水平,還很難下結論說(shuō)誰(shuí)是最好的芯片,只有最適合、最容易落地的方案才是王道,人臉識別作為AI創(chuàng )新的引領(lǐng)者,活下去,才能推助性能更優(yōu)芯片面世。


微信

掃一掃

微信加好友
聯(lián)系電話(huà):
400-8855-170