线上学术会议成功举行,咱们与 Elsevier 一同为咱们呈现了信息技能芯片的开展与立异。
本次论坛由上海交通大学集成量子信息技能研讨中心主任金贤敏教授掌管,特邀上海交通大学人工智能研讨院首席科学家徐雷教授、浙江大学光电科学与工程学院副院长戴道锌教授、北京大学人工智能研讨院类脑智能芯片研讨中心主任杨玉超教授、上海交通大学物理与地理学院副研讨员唐豪、以及爱思唯尔中心内容客户参谋许靖博士,环绕信息技能芯片的根本技能原理、产品运用及未来开展打开主题共享。
本文将结合论坛的要点内容和当时信息处理芯片的现状,对三种未来备受重视的信息技能芯片进行概念解读及工业剖析。
在算力需求大幅提高的布景下,信息技能芯片所承载的核算处理才能缺乏,来历于架构侧、智能化水平、功耗、软件才能等多方面的应战。
最早以 CPU 为代表的核算芯片选用的依然是传统的冯·诺依曼架构,存算别离是最大的特色,也是冯诺依曼架构的瓶颈地点。在核算之前需求从存储器傍边读取数据,之后再进行核算。这个过程中,功耗和延时花费在转移数据的环节上。从单次操作来讲,大大都情况下,转移数据需求的功耗占有了整个功耗的约 70% 。处理这个问题最直接的思路,便是完结存算一体。
一同,存储器功用的提高远远落后于核算器功用的提高。由于冯·诺依曼瓶颈和存储墙的存在,导致存算别离架构下,算力的提高面临天花板。为了处理这种窘境,更多类型的非冯·诺依曼架构芯片呈现,例如类脑芯片、光子芯片等。
除了架构侧的约束,智能化水平的提高也趋势核算芯片向更智能的阶段跨进。2011 年,危险出资公司 Andreessen Horowitz 的一般合伙人 Marc Andreessen 在《华尔街日报》上宣告了一篇十分有影响力的文章,名为“ Why Software Is Eating the World-软件为安在吞噬国际”。十年后的今日,咱们正站在“Deep Learning is Eating the World-深度学习正在吞噬整个国际”的节点。
依据人工智能的天然语言处理、图画辨认和主动驾驶的技能进步,是以耗费核算资源和动力为价值的。工程师和核算机科学家正在支付巨大的尽力,以找出更有用地练习和运转深度神经网络的办法。这也是未来核算芯片晋级和演化的首要意图,为了让其更好地履行 AI 核算。
第三代神经网络技能估计向类脑脉冲神经网络技能演进,对更高智能水平的人工智能技能的需求,也唆使核算渠道的架构晋级和智能化晋级。
不难发现,人脑是天然界中存在的典型高智能、低功耗的单体核算渠道。类脑芯片则是典型的存算一体、高度智能化的核算架构。全球范围内对类脑智能和类脑芯片的研讨,现已是十分重要的前沿课题。
面临算力需求的提高和人工智能水平的开展,关于信息技能芯片的代际演化来说,近期以面向数字神经网络的加快器(GPU / FPGA / ASIC 芯片)为干流处理计划;中远期,类脑芯片是处理计划之一。除了集成电路芯片的算法、器材、工艺等打破是处理算力问题的办法之外,集成光子芯片的研制也是处理算力瓶颈的有用途径。
在 CPU / GPU 规划范畴,我国起步较晚,在技能水平和工业规划化方面远落后于国际先进水平。但获益于云核算、边际核算、数据中心等核算需求添加,物联网等多场景对高功用高算力芯片提出更高要求,国产替代等要素,我国在 CPU / GPU / FPGA / ASIC 技能提高和国产化速度方面加快行进。
全球 CPU 商场全体被Intel和AMD占有。不管从营收规划,台式机、笔记本、服务器细分商场占有率来讲,Intel 远超 AMD(如图 2 所示)。
经过数十年探究,国产 CPU 工业已初具规划,我国六大国产 CPU 芯片厂商为——以 ×86 架构为主的杂乱指令集(CISC)下,有海光(×86)、上海兆芯(×86);触及 ARM 架构、MIPS 架构、Alpha 架构的精简指令集(RISC)下,有华为鲲鹏(ARM)、天津飞扬(ARM)、龙芯(MIPS)、申威(Alpha)。
图 2丨Intel、NVIDIA 及 AMD 的部分财务数据(数据来历:财报、PassMark,络绎知图收拾)
现阶段合适神经网络核算的加快器最常见的处理计划是 GPU,GPU 实质上来说依然是先进的冯 · 诺依曼架构。
三驾马车奠定 NVIDIA 在 GPU 商场的霸主方位。长时刻以来,游戏显卡事务功不可没,游戏部分为其发明了确认的成绩增加与健康的现金流,2015 年 NVIDIA 营收初次逾越 AMD。之后 NVIDIA GPU 在数据中心事务中又取得一轮爆发式增加。
此外,在阿里云、AWS、Microsoft Azure 及 Google Cloud 厂商中,NVIDIA 的商场比例大幅抢先于 AMD 等一众厂商,NVIDIA 在全球首要云厂商中占有肯定抢先方位。像 Amazon 和Microsoft 这样的大型云厂商,在核算芯片上投入了许多资金来支撑机器学习算法,Google 也在研制自己的专用机器学习芯片。
除此之外,NVIDIA 市值和事务最有幻想空间的仍是主动驾驶核算渠道(轿车中控核算芯片)。一同整个核算芯片商场的首要增加动力估计也将从数据中心,转移到主动驾驶轿车。
Intel(英特尔):成立于 1968 年的英特尔,兴起于 PC 年代,创办人之一的 Gordon Moore 提出了半导体工业经典的摩尔定律。面临异构核算架构年代,英特尔以 “ SVMS 架构”应对,发布多款 FPGA 产品。本年 3 月,英特尔宣告重启晶圆代工服务,重回 7nm 晶圆制程技能战场。
NVIDIA(英伟达):NVIDIA 正在加快从芯片到 CPU 和 GPU 的衔接方法,再到整个软件仓库,以及终究跨整个数据中心的功用提高。2020 年发布了首款安培架构 GPU——NVIDIA A100,单片 A100 包括超越 540 亿个晶体管,使其成为国际上最大的 7nm 处理器。一同发布 NVIDIA DGX A100 体系,单节点 AI 算力到达创纪录的 5 PFLOPS,5 个 DGX A100 体系组成的一个机架,算力可比美一个 AI 数据中心。
AMD:AMD 于 2020 年正式推出锐龙 5000 系列台式机处理器,选用全新“ Zen 3 ”中心架构,这是自 AMD 2017 年推出 “ Zen ” 处理器以来提高最大的一次。得益于 IPC 和频率的两层提高,AMD 锐龙 9 5900X 也是首款默认设置下 CineBench R20 单中心分数超越 600 的台式机处理器。
中科曙光(Sugon):我国中科曙光依托中科院科研实力与工业资源,把握许多高端核算机、存储和云核算等范畴中心技能,九次摘得我国超算 Top100 比例榜首,在 2019 年第 54 届全球超算 Top500 中以 71 套体系并排第二名,在国内高功用核算商场肯定抢先比例。
兆芯(Zhaoxin):我国上海兆芯一同具有 CPU、GPU、芯片组三种 IP 及芯片自主研制才能,开先 KX-6000 和开胜 KH-30000 系列处理器依据 16nm 工艺,是国内首款主频到达 3.0GHz 的国产通用处理器。
景嘉微(JINGJIA MICRO):我国长沙景嘉微是国产 GPU 代表力气,2020 年估计完结经营总收入 6.54 亿元。在图形显控范畴,以 JM5400 研制成功为起点,研制国产高功用低功耗图形处理芯片。第二代 GPU 芯片 JM7200 流片成功,选用 28nm 工艺,已完结与龙芯、飞扬、麒麟软件、国心泰山、道、天脉等国内首要的 CPU 和操作体系厂商的适配作业。
回忆 2020 年并购买卖额超越 10 亿美元的 19 笔买卖,大大都并购活动会集在半导体范畴。Salesforce 和 NVIDIA 是仅有进行屡次严重收买的公司(如图 4 所示)。
除了 CPU 之外,GPU、APU、TPU、FPGA(现场可编程门阵列)、ASIC(专用集成电路)等多种类型的加快器芯片正扮演着愈加重要的人物。在许多情况下,这些加快器与 CPU 等芯片一同作业,用于加快某些对运用至关重要的任务,例如核算机视觉运用中的图画辨认。多种芯片协同作业的架构一般称为异构核算。
FPGA(现场可编程门阵列)是一种灵敏的半导体芯片架构,能够在产品规划完结,甚至在投入现场运用之后进行更改或更新(由此得名)。FPGA 的规划初衷是成为 ASIC(专用集成电路)更灵敏的替代品。
有些 FPGA 专门用于高功用、数据密布的作业场景,如云端数据中心,这时它们需求的运转功率高达几百瓦;有些则用于小型、低功耗的规划,其功耗或许低至 1 毫瓦(千分之一瓦);还有些介于两者之间。由于它们自身十分灵敏,可运用于各类广泛的环境。
以云端数据中心为例,微软一向都在运用高功耗的 FPGA 来加快 Bing 搜索引擎的速度。在此运用中,FPGA 与 CPU 协同作业来加快微软针对必应开发的特定搜索算法。这类高功耗的 FPGA 多由 Xilinx 和 Intel 供给。
而在一些无人机、安防摄像头和可穿戴产品等消费电子运用中,以及猜测性保护、马达操控和机器视觉等工业运用中,小尺度、功耗更低的 FPGA 正适配于网络边际核算设备上去运转依据人工智能的软件算法。
在未来十年内,轿车主动驾驶是 FPGA 最重要的一个探究和运用场景。不只由于 FPGA 灵敏的内部架构,它还能很好地适用于特定的衔接功用,尤其是衔接各类不同的信号输入。除了在车载信息文娱体系中显身手外,FPGA 开端扮演一些新人物,作为多路数据的聚合器。
但由于 ASIC 一旦规划并出产出来,它的功用根本不能修正,除非从头规划和构建全新的芯片。且 ASIC 规划起来比较困难、价格昂扬,在实践通用场景下比较罕见。跟着时刻推移和场景侧的落地,未来专用于主动驾驶侧的 ASIC 芯片有或许成为干流方向。
图 5丨 Intel 在轿车主动驾驶场景用 FPGA 商场占干流方位(来历:络绎知图)
全球主攻 FPGA 商场的企业中,除了有 Xilinx 和 Altera 双雄之外,Lattice也是专做 FPGA 的上市公司。我国主攻 FPGA 的创业公司有安路科技和高云半导体。
巨子Intel也是 FPGA 的强有力竞赛者,英特尔不只是 CPU 王者,又收买了 Altera,在 FPGA 范畴布下一子。归纳来说,Intel 的核算芯片在轿车主动驾驶商场中的选用率,处于干流方位。不只主动驾驶 FPGA 芯片现已量产,还收买 Mobileye 这家全球抢先的视觉 ADAS 厂商,仅有自主的专有软件算法,以及 EyeQ 芯片。
Lattice:低功耗 FPPA 商场的有力竞赛者。长时刻占据消费电子商场的 Lattice 逐步将触手伸入工业和轿车范畴,愈加偏重于边际端、嵌入式、低功耗、小尺度的产品规划开发上。
安路科技(ANLOGIC):成立于 2011 年,大基金、华多半导体加持的 FPGA 创业公司,偏重工业商场。于 2015 年推出其榜首代 FPGA AL3-10,当时现已形成了从几百个逻辑单元 CPLD 到 400K 逻辑单元 FPGA 全系列布局。
高云半导体(GOWIN Semiconductor):2015 年一季衡量产出国内榜首块工业化的 55nm 工艺 400 万门的中密度 FPGA 芯片,并敞开开发软件下载。至今五年时刻连续推出两咱们族,100 多种封装的 FPGA 芯片,例如集成 PSRAM 的 FPGA,蓝牙 FPGA、GOAI 等立异测验。
人工智能中神经网络模型的一个重要特色便是核算量大,而且核算过程中触及到的数据量也很大,因而对高算力和低能耗的要求极高。现在选用冯·诺伊曼架构的干流处理器体系能耗过高、认知任务处理才能缺乏,无法彻底满意这种要求。在这样的年代布景下,打破冯 · 诺伊曼架构的捆绑就成为了必定的趋势。
人脑是十分抱负的核算架构参阅目标。人脑约有 1000 亿个神经元和 100 万亿个突触,能够在极低的能耗下,完结杂乱的相关回忆、自主辨认、自主学习等认知处理。这是依据脑神经网络的多层次杂乱空间结构和脑神经的高度可塑性。
类脑芯片则是典型的非冯 · 诺伊曼架构。类脑核算架构的中心正是学习人脑信息处理方法,将存储和核算一体化,能够实时处理非结构化信息,具有自主学习才能,一同满意超低功耗的需求。
现在商场上没有呈现量产的可商用的类脑芯片,但已有许多国家和组织在类脑核算研讨和工业化范畴探究了多年。海外类脑核算芯片工业化路途走在最前面的代表有两家公司:IBM和Intel,他们发布了两款全数字类脑核算芯片。
2014 年,IBM 推出了神经网络揣度芯片 TrueNorth ,它学习神经元作业原理及其信息传递机制,完结了存储与核算的交融。该芯片包括 4096 个神经突触中心,每个中心包括了 256 个神经元和 6.4 万个突触,算计约 100 万个神经元和 2.56 亿个突触。
TrueNorth 芯片的功耗低至仅 70 毫瓦,比传统处理器低了 4 个数量级。更形象的来说,这适当于一款邮票巨细的神经突触原理超级核算机,而且仅用一块智能手机的电池就能够保持作业近一周时刻。TrueNorth 芯片的功率密度也做到了 20 毫瓦/平方厘米,挨近脑皮层的水平,相同比较于 CPU 低了 3-4 个数量级。
TrueNorth 芯片一同具有很好的扩展性,能经过外部衔接组成愈加杂乱的硅基神经网络体系。2018 年,NS16e-4 体系面世,它集成了 64 个 TrueNorth 芯片,神经元数量到达了 6400 万个。依据 IBM 官网介绍,依托 TrueNorth 能够扩展出具有 10 亿神经元、2560 亿神经突触的超级核算体系,可是功耗仅适当于一台桌面核算机。
IBM 也正在探究 TrueNorth 芯片在多个范畴的运用潜力,包括:运动归类、音频处理、立体视觉、强化学习、机器人、分类等。
2017 年,Intel 推出了支撑片上学习的 Loihi 脉冲神经网络芯片,每个芯片包括 128 个神经形状中心和 3 个× 86 处理器中心,总计 13.1 万个神经元。与 TrueNorth 芯片相似的是,Loihi 芯片相同表现出了十分好的可扩展性。
依据 Intel 官方宣告,英特尔的 Pohoiki Springs 等神经拟态体系仍处于研讨阶段,其规划意图并非替代传统的核算体系,而是为研讨人员供给一个东西来开发和表征新的神经启示算法,用于实时处理、问题处理、适应和学习。
现在,Loihi 芯片的运用在以下几个范畴表现出了更快的运算速度和更低的能耗:语音指令辨认、手势辨认、图画检索、优化和检索、机器人。
我国的类脑核算研制也产生了显着的效果,这其间包括清华大学的“天机芯”、浙江大学的“达尔文芯片”以及创业公司 SynSense时识科技。
2019 年 8 月,清华大学施路平教授团队在《天然》期刊以封面文章宣告首款异构交融类脑核算芯片——“天机芯(Tianjic)”。“天机芯”选用多核架构,由 156 个单功用核(FCore)组成,包括大约 4 万个神经元和 1000 万个神经突触。
而所谓异构交融,指天机芯的架构打破了依据核算机科学的人工智能和依据神经科学的人工智能的壁垒,成为一个通用的渠道,在算法层面上即支撑现在干流的人工神经网络模型(Artificial Neural Network,ANN)也支撑脉冲神经网络模型(Spiking Neural Network,SNN)。
依据天机芯的无人自行车展现了能够完结语音辨认、自平衡操控、探究盯梢、主动避障等功用。之所以选用无人自行车作为展现东西,是由于它是一个相似大脑的多模态体系,能够掩盖感知决议计划和履行的完好的链路,为异构交融的多种模型供给支撑;一同不同于在实验室或许电脑中做仿真,无人自行车也表现了与实在环境的交互。这一项研讨效果也被评选为“ 2019 年我国十大科技开展 ”。
图 9|清华大学“天机芯”研讨效果登上《天然》期刊封面(来历:《天然》)
从清华大学类脑核算中心科技效果转化而来的灵汐科技,现在也现已取得了来自中电海康、广发信德、优选本钱、华控柱石等组织的多轮融资。施路平教授担任灵汐科技的联合创始人。
2015 年,浙江大学牵头研制了达尔文一代芯片,这是国内的首款类脑芯片,具有 2048 个神经元,4 百万个神经突触。2019 年 8 月,达尔文二代芯片面世,这是一款首要面向才智物联网运用的芯片,单芯片由 576 个内核组成,具有 15 万神经元、1000 万个神经突触,在神经元数目上现已与果蝇适当,典型运用功耗约 100 毫瓦。
2020 年,浙江大学宣告了包括 792 颗达尔文二代芯片的类脑核算机 Darwin Mouse 研制成功,这一款类脑核算机支撑 1.2 亿脉冲神经元、720 亿神经突触,与小鼠的大脑神经元数量规划适当,典型运转功耗只需求 350-500 瓦。
SynSense 时识科技是一家类脑芯片、智能传感器规划与开发公司,于 2017 年 2 月在瑞士创建(原名 ai-CTX),现已在国内落地。公司技能起源于由苏黎世大学和苏黎世联邦理工学院联合建议的苏黎世神经信息研讨所,中心技能 DYNAP (Dynamic Neuromorphic Asynchronous Processor)协助可装备、通用、实时呼应的神经网络在脉冲神经元中的完结。
DYNAP-CNN是全球首款动态视觉专用处理器芯片,于2019年成功流片。该芯片由异步电路规划,具有100万脉冲神经元,200万突触,能够直联动态相机(DVS)完结多种实时视觉辨认及交互类任务,典型任务场景下功耗可低至1mW。
创始人乔宁博士结业于我国科学院半导体研讨所,曾在苏黎世大学从事博士后研讨作业,现任苏黎世大学助理教授。现在,时识科技现已取得了百度风投、默克、和利本钱等出资组织的多轮融资。
除了以上依据硅技能的类脑核算芯片,还有一部分类脑核算芯片的研讨方向是依据新式纳米器材和技能,以忆阻器阵列为代表。这种芯片直接使用定制的器材结构,来模仿生物神经元的电特性,集成度更高,是十分有潜力的类脑核算芯片计划。可是,让忆阻器阵列完好完结芯片的功用,尚需求处理工艺、体系、算法等一系列的不知道难题。
在这一方面,我国学者的研讨效果也走在了国际的前沿。2020 年,清华大学钱鹤、吴华强教授团队等协作研制的依据多个忆阻器阵列的存算一体体系宣告在《天然》期刊上,他们在该体系上高效运转了卷积神经网络算法,成功验证了图画辨认功用,能耗高出 GPU 两个数量级,完结了以更低的功耗和硬件本钱完结杂乱的核算。这项研讨效果证明了使用忆阻器完结存算一体的可行性。
类脑芯片的开展,阅历了从纯数字到数模混合、从单芯片的集成到体系级的集成、从片外学习到片上学习的改变趋势。
类脑核算的开展未走出前期的实验室研讨阶段,离工业界的实践运用仍有必定的间隔。依据 Yole 陈述,类脑核算最快或许将于 2024 年前后老练,咱们信任到那时类脑核算芯片表现出的比较于冯·诺伊曼架构的 AI 芯片的优势将会带来巨量的工业开展时机。
与电子核算年代的集成电路芯片的物理结构演化途径相同,在光子核算语境下,光子芯片便是将许多分立光路元件集成在光子芯片上,以完结更高的稳健性和可扩展性。
光子芯片的中心是在硅基上完结光子集成芯片,是在传统 CMOS 芯片上蚀刻微米等级的光学元器材。而光子核算,其实是一个陈旧的技能范畴。作为一种彻底不同于电子核算的技能,光子核算以光子为信息处理载体,依靠光硬件而非电子硬件,以光运算替代电运算,拿手快速并行处理高度杂乱的核算任务。
硅光技能的理念是“以光代电”,但受限于传统别离式光子器材,具有光场调控手法单一、光子规划体积巨大的缺陷。光子核算一向没有清晰的运用场景,大都都停留在实验室阶段。Lightelligence(曦智科技)联合创始人兼 CEO 沈亦晨曾表明,光核算和光子芯片是最合适下一代核算芯片基建技能的挑选。
依据 Yole 数据,依照产品运用场景分类,2025 年硅光子商场规划将由 2019 年的 4.8 亿美元增加至39 亿美元。光通讯仍然是硅光子最重要的运用,数据中心通讯是硅光子的最大商场。
通讯、互连场景下,硅光收发器商场的竞赛长时刻存在,其间的巨子先行者是 IBM 和 Intel,首要是为了改进数据中心数据交换时的速率问题。此外,Luxtera(被思科收买)、Acacia、Fujitsu、Inphi、Rockley Photonics 及 NeoPhotonics 等公司都是硅光芯片范畴的有力竞赛者。
硅光芯片除了在数据中心、通讯、传感和医疗范畴的运用,还有一个十分值得等待的运用是光核算。AI 所掀起的核算需求不断胀大,带动了商场针对特定核算推出更合适的新架构,比方上述的类脑芯片。而在能够连续现有老练半导体工艺技能上,光子芯片的优势又更为显着。
需求清晰的一点是——光子核算≠光量子核算。光子核算依据动摇光学进行精准调制;后者则是用光子编码完结两种状况叠加的量子比特,无法用经典动摇光学描绘的量子光学。
全球范围内,光核算芯片处于十分前期的阶段。从当时时刻节点来看,以美国和我国为代表的光子核算公司仍在进行技能和产品上的探究,且商业化并不老练。尽管离实践运用还需求必定时刻验证,但全体来说我国是十分有时机走在国际前列的。
在使用光进行神经网络核算的范畴中,有一些正在探究的公司,如Lightmatter,Fathom Computing,Lightelligence(曦智科技),LightOn,Luminous 和 Optalysis。将光核算运用于脉冲神经网络,该网络使用大脑神经元处理信息的方法,或许能够解说为什么人脑仅用十几个神经元就能超卓地完结作业。
Lightelligence(曦智科技):诞生于 MIT,成立于 2017年,2019 年 4 月正式发布了全球首款光子芯片原型板卡,2021 年全球首款商用光子芯片行将面世。用光子芯片运转了 Google TensorFlow 自带的卷积神经网络模型来处理 MNIST 数据集,整个模型超越 95% 的运算是在光子芯片上完结。光子芯片处理的准确率现已挨近电子芯片(97% 以上),别的光子芯片完结矩阵乘法所用的时刻是最先进的电子芯片的 1% 以内。
全体来看,核算芯片的代际演进,服务于 AI 算法和智能水平的提高。当时,全球支柱性、智能化工业的信息处理环节进入算力竞赛年代。更多类型的非冯 · 诺依曼架构芯片将会呈现并逐步工业化。络绎知图也将继续重视核算芯片工业及前沿技能革新,为芯片工业与技能研讨、投融资参谋、方针对接等专业服务贡献力气。
络绎知图是集科技数据、智能剖析、学术服务于一体的科技大数据渠道,以透视未来的科技实质为任务,面向学者、高校、科研组织以及从事科研效果转化的相关集体,供给研讨型数据库、剖析东西、学术会议、学术社区等功用,并经过媒体传达原创研讨有用扩大学术研讨的影响力。