半導體設備裝卸搬運電鏡安裝維護
2021-10-13 來自: 亞瑟半導體設備安裝(上海)有限公司 瀏覽次數(shù):209
半導體設備裝卸搬運電鏡安裝維護的亞瑟報道:精密設備搬運人工智能領域跑分榜單MLPerf更新了1.1版,主要針對云端和邊緣端的推理性能。精密設備搬運是由ML Commons推出的性能測試榜單。在人工智能技術發(fā)展迅速的今天,不同的針對人工智能加速的芯片也是層出不窮,于是如何能有一個較好的標準跑分(benchmark)平臺就很重要,有了這樣的平臺,用戶才能以較為公平和合理的方式去比較不同芯片的人工智能性能。具體來說,MLPerf對于不同的測試組別(訓練,服務器推理,終端推理等)提供了一系列標準的測試網絡,并且由各個硬件公司上傳可驗證的跑分結果,這些結果在經過驗證后,就由ML Commons總結整理并上傳到MLPerf的榜單上精密設備搬運這次公布的MLPerf 1.1榜單中,基本可以分為幾大勢力:首先,是以Nvidia的GPU為核心加速卡的方案,由各種不同的廠商(包括Nvidia自己,以及超微、聯(lián)想、戴爾、HP等整機廠商)實現(xiàn)的整機去跑分;其次是高通的云端加速卡方案,由高通自己提交跑分結果;第三類是Intel的CPU方案;第四類則是一些初創(chuàng)公司的方案。因此,在MLPerf 1.1的結果中,我們認為關注的,就是高通與Nvidia之間的競爭。事實上,在一些測評項目中,高通的方案已經實現(xiàn)了比Nvidia更高的結果,這也說明在服務器推理市場,Nvidia遇到了一個競爭對手,未來無法再高枕無憂。目前,Nvidia這一代的主要人工智能加速方案包括A100和A30。其中,A100是Nvidia的旗艦級GPU,同時針對推理和訓練市場,算力高達600 TOPS (INT8精度),其功耗則根據使用內存的區(qū)別從250W-400W不等。精密設備搬運另一方面,A30則是Nvidia主要針對推理市場的GPU產品,其INT8峰值算力可達330 TOPS,約為A100的一半,而Nvidia在其官方資料中稱A30在運行機器學習算法時的實際性能約為A100的三分之二。功耗方面,A30的功耗約為165W。在高通方面,Cloud AI 100芯片于今年上半年正式發(fā)貨,其功耗(PCIe版本)則75W。根據高通公布的資料,其設計采用了多核架構,每個AI Core上擁有8MB的SRAM,精密設備搬運在芯片上可以集成16個AI Core,并且這些AI Core會共享LPDDR4X DRAM,以及PCIe接口。值得注意的是,高通的Cloud AI 100并沒有像Nvidia一樣使用HBM2內存接口,而是使用了功耗和帶寬都更低的LPDDR4X接口,這意味著高通需要能地管理內存才能擺脫其在內存帶寬方面的劣勢。在MLPerf 1.1中,高通的表現(xiàn)可圈可點。在推理分類下的各項目中,高通提交了ResNet 50(用于圖像分類),SSD(用于物體檢測)以及BERT(用于自然語言處理任務)的結果。在ResNet 50的結果中,高通裝有16塊75W Cloud AI 100 加速卡的主機可以實現(xiàn)每秒342011次推理,而Nvidia提交的DGX主機結果中(包含8塊400W的A100 GPU),ResNet 50的推理吞吐量為每秒313516次推理,因此高通不僅推理吞吐量比Nvidia的旗艦GPU A100結果高了10%,而且總功耗僅為Nvidia方案的三分之一左右。在和Nvidia A30的對比中,高通的Cloud AI 100同樣可以以A30一半左右的功耗實現(xiàn)比A30高10%左右的ResNet 50推理吞吐量。精密設備搬運另一方面,在目標檢測SSD方面,高通16X Cloud AI 100的性能則比Nvidia 8X A100低了10%左右。而在自然語言BERT項目中,高通16X Cloud AI 100的性能則大約是Nvidia 8X A100的一半。這些結果表明,在主流機器視覺任務中,高通的16X Cloud AI 100已經能實現(xiàn)和Nvidia 8X A100基本相同性能,而在BERT等自然語言處理任務中,Cloud AI 100則仍然距離A100有相當?shù)牟罹?。這其實從高通Cloud AI 100的設計中也可以看出端倪,它使用8MB每核心的片上內存搭配LPDDR4X內存接口,精密設備搬運在模型較小的機器視覺任務(例如ResNet-50和SSD)中已經夠用,內存不會成為其瓶頸;然而對于模型較大的自然語言處理模型如BERT中,LPDDR4X接口仍然成為了高通AI Cloud 100的瓶頸,而使用HBM2系列接口的Nvidia A100則有優(yōu)勢。