2023-07-02

bob米乐m6:什么是CPU、GPU、TDNB?有什么差异?

返回

发布时间:2024-05-18 01:18:51 来源:足球米乐m6 作者:IM米乐


  CPU,作为机器的“大脑”,它是布局战略、指挥若定、操控举动的“总司令官”,担负着整个核算机体系的中心使命。

  CPU由多个结构组成,其间包含运算器(ALU, Arithmetic andLogicUnit)、操控单元(CU, Control Unit)、寄存器(Register)、高速缓存器(Cache),它们之间经过数据、操控及状况总线进行通讯。这些结构和通讯方法是CPU完结各种使命的必要根底,也是进步核算机运算功率的关键因素。

  简略来说:CPU架构由核算单元、操控单元和存储单元三部分组成,如下图所示:

  从字面上咱们也很好了解,核算单元首要履行算术运算、移位等操作以及地址运算和转化;存储单元首要用于保存运算中发生的数据以及指令等;操控单元则对指令译码,并且宣布为完结每条指令所要履行的各个操作的操控信号。

  所以一条指令在CPU中履行的进程是这样的:读取到指令后,经过指令总线送到操控器(黄域)中进行译码,并宣布相应的操作操控信号;然后运算器(绿域)依照操作指令对数据进行核算,并经过数据总线将得到的数据存入数据缓存器(大块橙域)。进程如下图所示:

  CPU遵从的是冯诺依曼架构,其间心便是:存储程序,次序履行。在这个结构图中,担任核算的绿域占的面积好像太小了,而橙域的缓存Cache和黄域的操控单元占有了许多空间。

  因为CPU的架构中需求许多的空间去放置存储单元(橙色部分)和操控单元(黄色部分),比较之下核算单元(绿色部分)只占有了很小的一部分,所以它在大规划并行核算才干上极受限制,而更拿手于逻辑操控。

  别的,因为遵从冯诺依曼架构(存储程序,次序履行),CPU就像是个有板有眼的管家,人们叮咛的作业它总是一步一步来做。可是跟着人们对更大规划与更快处理速度的需求的添加,这位管家逐步变得有些无能为力。

  所以,能不能把多个处理器放在同一块芯片上,让它们一起来干事,这样功率不就进步了吗?GPU便由此诞生了。

  GPU全称为Graphics Processing Unit,中文为图形处理器,就如它的姓名相同,GPU开始是用在个人电脑、作业站、游戏机和一些移动设备(如平板电脑、智能手机等)上运转绘图运算作业的微处理器。

  为什么GPU特别拿手处理图画数据呢?这是因为图画上的每一个像素点都有被处理的需求,并且每个像素点处理的进程和方法都十分相似,也就成了GPU的天然温床。

  从架构图咱们就能很明显的看出,GPU的构成相对简略,有数量许多的核算单元和超长的流水线,特别合适处理许多的类型一致的数据。

  但GPU无法独自作业,必须由CPU进行操控调用才干作业。CPU可独自作用,处理杂乱的逻辑运算和不同的数据类型,但当需求许多的处理类型一致的数据时,则可调用GPU进行并行核算。

  注:GPU中有许多的运算器ALU和很少的缓存cache,缓存的意图不是保存后边需求拜访的数据的,这点和CPU不同,而是为线程thread进步服务的。假如有许多线程需求拜访同一个相同的数据,缓存会兼并这些拜访,然后再去拜访dram。

  借用知乎上某大神的说法,就像你有个作业需求核算几亿次一百以内加减乘除相同,最好的方法便是雇上几十个小学生一起算,一人算一部分,横竖这些核算也没什么技能含量,朴实体力活罢了;而CPU就像老教授,积分微分都会算,便是薪酬高,一个老教授资顶二十个小学生,你要是富士康你雇哪个?

  GPU便是用许多简略的核算单元去完结许多的核算使命,朴实的人海战术。这种战略根据一个条件,便是小学生A和小学生B的作业没有什么依赖性,是相互独立的。

  有一点需求着重,尽管GPU是为了图画处理而生的,可是咱们经过前面的介绍能够发现,它在结构上并没有专门为图画服务的部件,仅仅对CPU的结构进行了优化与调整,所以现在GPU不只能够在图画处理范畴大显神通,它还被用来科学核算、暗码**、数值剖析,海量数据处理(排序,Map-Reduce等),金融剖析等需求大规划并行核算的范畴。

  依照上文所述,CPU和GPU都是较为通用的芯片,可是有句老话说得好:全能东西的功率永久比不上专用东西。

  跟着人们的核算需求越来越专业化,人们期望有芯片能够愈加契合自己的专业需求,这时,便发生了ASIC(专用集成电路)的概念。

  ASIC是指依产品需求不同而定制化的特别标准集成电路,由特定运用者要求和特定电子体系的需求而规划、制作。当然这概念不必记,简略来说便是定制化芯片。

  因为ASIC很“专注”,只做一件事,所以它就会比CPU、GPU等能做许多件事的芯片在某件事上做的更好,完结更高的处理速度和更低的能耗。但相应的,ASIC的出产本钱也十分高。

  而TPU(TensorProcessing Unit, 张量处理器)便是谷歌专门为加快深层神经网络运算才干而研制的一款芯片,其实也是一款ASIC。

  本来许多的机器学习以及图画处理算法大部分都跑在GPU与FPGA(半定制化芯片)上面,但这两种芯片都仍是一种通用性芯片,所以在效能与功耗上仍是不能更严密的适配机器学习算法,并且Google一向深信巨大的软件将在巨大的硬件的协助下愈加大放异彩,所以Google便想,咱们可不能够做出一款专用机机器学习算法的专用芯片,TPU便诞生了。

  据称,TPU与同期的CPU和GPU比较,能够供给15-30倍的功用进步,以及30-80倍的功率(功用/瓦特)进步。初代的TPU只能做推理,要依托Google云来实时搜集数据并发生成果,而练习进程还需求额定的资源;而第二代TPU既能够用于练习神经网络,又能够用于推理。

  如上图所示,TPU在芯片上运用了高达24MB的部分内存,6MB的累加器内存以及用于与主控处理器进行对接的内存,一共占芯片面积的37%(图中蓝色部分)。

  这表明谷歌充沛认识到了片外内存拜访是GPU能效比低的元凶巨恶,因此不惜本钱的在芯片上放了巨大的内存。比较之下,英伟达一起期的K80只要8MB的片上内存,因此需求不断地去拜访片外DRAM。

  别的,TPU的高功用还来源于关于低运算精度的忍受。研讨成果表明,低精度运算带来的算法准确率丢失很小,可是在硬件完结上却能够带来巨大的便当,包含功耗更低、速度更快、占芯片面积更小的运算单元、更小的内存带宽需求等...TPU选用了8比特的低精度运算。

  到现在为止,TPU其完结已干了许多作业了,例如机器学习人工智能体系RankBrain,它是用来协助Google处理查找成果并为用户供给愈加相关查找成果的;还有街景Street View,用来进步地图与导航的准确性的;当然还有下围棋的核算机程序AlphaGo!

  讲到这儿,信任咱们对这些所谓的“XPU”的套路现已有了必定了解,咱们接着来。

  所谓NPU(Neural network Processing Unit), 即神经网络处理器。望文生义,这家伙是想用电路仿照人类的神经元和突触结构啊!

  怎样仿照?那就得先来看看人类的神经结构——生物的神经网络由若干人工神经元结点互联而成,神经元之间经过突触两两衔接,突触记载了神经元之间的联络。

  假如想用电路仿照人类的神经元,就得把每个神经元笼统为一个激励函数,该函数的输入由与其相连的神经元的输出以及衔接神经元的突触一起决议。

  为了表达特定的常识,运用者一般需求(经过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等。该进程称为“学习”。

  这时不知道咱们有没有发现问题——本来,因为深度学习的根本操作是神经元和突触的处理,而传统的处理器指令集(包含x86和ARM等)是为了进行通用核算开展起来的,其根本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需求数百乃至上千条指令才干完结一个神经元的处理,深度学习的处理功率不高。

  神经网络中存储和处理是一体化的,都是经过突触权重来表现。而冯·诺伊曼结构中,存储和处理是别离的,分别由存储器和运算器来完结,二者之间存在巨大的差异。当用现有的根据冯·诺伊曼结构的经典核算机(如X86处理器和英伟达GPU)来跑神经网络运用时,就不可避免地遭到存储和处理别离式结构的限制,因此影响功率。这也便是专门针对人工智能的专业芯片能够对传统芯片有必定先天优势的原因之一。

  ASIC(Application Specific Integrated Circuit)是一种为专门意图而规划的集成电路。无法从头编程,效能高功耗低,但价格昂贵。近年来涌现出的相似TPU、NPU、VPU、BPU等令人目不暇接的各种芯片,本质上都归于ASIC。ASIC不同于 GPU 和 FPGA 的灵敏性,定制化的 ASIC 一旦制作完结将不能更改,所以初期本钱高、开发周期长的使得进入门槛高。现在,大多是具有 AI 算法又拿手芯片研制的巨子参加,如 Google 的 TPU。因为完美适用于神经网络相关算法,ASIC 在功用和功耗上都要优于 GPU 和 FPGA,TPU1 是传统 GPU 功用的 14-16 倍,NPU 是 GPU 的 118 倍。寒武纪已发布对外运用指令集,估量 ASIC 将是未来 AI 芯片的中心。

  是由地平线科技提出的嵌入式人工智能处理器架构。第一代是高斯架构,第二代是伯努利架构,第三代是贝叶斯架构。现在地平线现已规划出了第一代高斯架构,并与英特尔在2017年CES展会上联合推出了ADAS体系(高档驾驭辅佐体系)。

  最早由国内深鉴科技提出,根据Xilinx可重构特性的FPGA芯片,规划专用的深度学习处理单元(可根据已有的逻辑单元,规划并行高效的乘法器及逻辑电路,归于IP范畴),且笼统出定制化的指令集和编译器(而非运用OpenCL),然后完结快速的开发与产品迭代。事实上,深鉴提出的DPU归于半定制化的FPGA。

  嵌入式神经网络处理器(NPU)选用“数据驱动并行核算”的架构,特别拿手处理视频、图画类的海量多媒体数据。

  NPU处理器专门为物联网人工智能而规划,用于加快神经网络的运算,处理传统芯片在神经网络运算时功率低下的问题。

  乘加模块用于核算矩阵乘加、卷积、点乘等功用,NPU内部有64个MAC,SNPU有32个。

  激活函数模块选用最高12阶参数拟合的方法完结神经网络中的激活函数,NPU内部有6个MAC,SNPU有3个。

  二维数据运算模块用于完结对一个平面的运算,如降采样、平面数据复制等,NPU内部有1个MAC,SNPU有1个。

  解紧缩模块用于对权重数据的解压。为了处理物联网设备中内存带宽小的特征,在NPU编译器中会对神经网络中的权重进行紧缩,在简直不影响精度的情况下,能够完结6-10倍的紧缩作用。

  不,听说每过18天,集成电路范畴就会多出一个XPU,直到26个字母被用完。

  Accelerated Processing Unit。现在还没有 AI 公司将自己的处理器命名为 APU,因为AMD早就用过 APU 这个姓名了。APU 是 AMD 的一个处理器品牌。AMD 在一颗芯片上集成传统 CPU 和图形处理器 GPU,这样主板大将不再需求北桥,使命能够灵敏地在 CPU 和 GPU 间分配。AMD 将这种异构结构称为加快处理单元,即 APU。

  Audio Processing Unit。声响处理器,望文生义,处理声响数据的专用处理器。不多说,出产 APU 的芯片商有好多家。声卡里都有。

  上文也进行了详细的介绍。也不会有 AI 公司将自己的处理器命名为 CPU 的。不过,CPU 与 AI 处理器并不抵触。

  Emotion Processing Unit伴随机心情机器人而生,能够让机器人具有心情。从官方途径音讯看,EPU 自身并不杂乱,也不需求做使命量巨大的神经网络核算,是根据 MCU 的芯片。

  Graphics Processing Unit。图形处理器。GPU 本来最大的需求来自 PC 商场上各类游戏对图形处理的需求。可是跟着移动设备的晋级,在移动端也逐步开展起来。

  Image Processing Unit。图画处理器。一些 SOC 芯片中将处理静态图画的模块称为 IPU。可是,IPU 不是一个常用的缩写,更常见的处理图画信号的处理器的缩写为下面的 ISP。

  Image Signal Processor。图画信号处理器。这个论题也不是一个小论题。ISP 的功用,简略的来说便是处理 camera 等摄像设备的输出信号,完结降噪、Demosaicing、HDR、颜色办理等功用。

  Knowledge Processing Unit。嘉楠耘智(canaan)声称 2017 年将发布自己的 AI 芯片 KPU。嘉楠耘智要在 KPU 单一芯片中集成人工神经网络和高功用处理器,首要供给异构、实时、离线的人工智能运用服务。这又是一家向 AI 范畴扩张的不差钱的矿机公司。作为一家做矿机芯片(自称是区块链专用芯片)和矿机的公司,嘉楠耘智累计取得近 3 亿元融资,估值近 33 亿人民币。听说嘉楠耘智近期将发动股改并推动 IPO。

  另:Knowledge Processing Unit 这个词并不是嘉楠耘智第一个提出来的,早在 10 年前就现已有论文和书本讲到这个词汇了。仅仅,现在嘉楠耘智将 KPU 申请了注册商标。

  Mind Processing Unit。意念处理器,听起来不错。「解读脑电波」,「意念沟通」,永久的科幻论题。假如搜集许多人类「考虑」的脑电波数据,经过深度学习,再加上强壮的意念处理器 MPU,不知道能否成为 mind-reader。假如品德伦理上无法承受,先了解一下家里宠物猫宠物狗的「主意」也是能够的吗。再进一步,从 mind-reader 开展为 mind-writer,继续晋级之后,是不是就能够成为冰与火中的 Skinchanger?

  Neural-Network Processing Unit。与 GPU 相似,神经网络处理器 NPU 现已成为了一个通用名词,而非某家公司的专用缩写。因为神经网络核算的类型和核算量与传统核算的差异,导致在进行 NN 核算的时分,传统 CPU、DSP 乃至 GPU 都有算力、功用、能效等方面的缺乏,所以激发了专为 NN 核算而规划 NPU 的需求。这儿罗列几个以 NPU 名义发布过产品的公司,以及几个学术圈的神经网络加快器。

  Optical-Flow Processing Unit。光流处理器。有需求用专门的芯片来完结光流算法吗?不知道,可是,用 ASIC IP 来做加快应该是要的。

  Physical Processing Unit。物理处理器。要先解释一下物理运算,就知道物理处理器是做什么的了。物理核算,便是仿照一个物体在实在国际中应该契合的物理规律。详细的说,能够使虚拟国际中的物体运动契合实在国际的物理规律,能够使游戏中的物体行为愈加实在,例如布料仿照、毛发仿照、磕碰侦测、流体力学仿照等。开发物理核算引擎的公司有那么几家,运用 CPU 来完结物理核算,支撑多种渠道。可是,Ageia 应该是仅有一个运用专用芯片来加快物理核算的公司。Ageia 于 2006 年发布了 PPU 芯片 PhysX,还发布了根据 PPU 的物理加快卡,一起供给SDK 给游戏开发者。2008 年被 NVIDIA 收买后,PhysX 加快卡产品被逐步撤销,现在物理核算的加快功用由 NVIDIA 的 GPU 完结,PhysX SDK 被 NVIDIA 从头打造。

  Quantum Processing Unit。量子处理器。量子核算机也是近几年比较火的研讨方向。作者供认在这方面所知甚少。能够重视这家建立于 1999 年的公司 D-Wave System。DWave 大约每两年能够将其 QPU 上的量子位个数翻倍一次。

  Ray-tracing Processing Unit。光线追寻处理器。Ray tracing 是核算机图形学中的一种烘托算法,RPU 是为加快其间的数据核算而开发的加快器。现在这些核算都是 GPU 的作业了。

  Streaming Processing Unit。流处理器。流处理器的概念比较早了,是用于处理视频数据流的单元,一开始出现在显卡芯片的结构里。能够说,GPU 便是一种流处理器。乃至,还从前存在过一家姓名为「Streaming Processor Inc」的公司,2004 年创建,2009 年,跟着创始人兼董事长被挖去 NVIDIA 当首席科学家,SPI 封闭。

  Speech-Recognition Processing Unit。语音辨认处理器,SPU 或 SRPU。这个缩写还没有公司拿来运用。现在的语音辨认和语义了解首要是在云端完结的,比方科大讯飞。科大讯飞最近推出了一个翻译机,能够将语音传回云端,做实时翻译,内部硬件没有去专门了解。和语音辨认相关的芯片如下。

  Space Processing Unit。空间处理器。全景摄像,全息成像,这些还都是处理咱们的生活空间。当面临宽广的太阳系、银河系这些宇宙空间,是不是需求新的更强壮的专用处理器呢?飞向 M31 仙女座星系,对立漆黑武士,只靠 x86 估量是不可的。

  Vision Processing Unit。视觉处理器 VPU 也有期望成为通用名词。作为如今最炽热的 AI 运用范畴,核算机视觉的开展确实能给用户带来史无前例的体会。为了处理核算机视觉运用中遇到的超大核算量,多家公司正在为此规划专门的 VPU。

  Video Processing Unit。视频处理器。处理动态视频而不是图画,例如进行实时编解码。

  Vector Processing Unit。向量处理器。标量处理器、向量处理器、张量处理器,这是以处理器处理的数据类型进行的区分。

  Wearable Processing Unit。一家印度公司 InedaSystems 在 2014 年大肆宣传了一下他们针对IOT商场推出的 WPU 概念,取得了高通三星的注资。Ineda Systems 研制的这款「Dhanush WPU」分为四个等级,可习惯一般等级到高端等级的可穿戴设备的运算需求,能够让可穿戴设备的电池到达 30 天的继续续航、削减 10x 倍的能耗。可是,全部好像在 2015 年戛然而止,没有了任何音讯。只在主页的最下端有文字显现,Ineda 将 WPU 申请了注册商标。

  寒武纪科技(Cambricon)中科院布景的寒武纪并没有用 xPU 的方法命名自家的处理器。媒体的文章既有称之为深度学习处理器 DPU 的,也有称之为神经网络处理器 NPU 的。陈氏兄弟的 DianNao 系列芯片架构接连几年在各大尖端会议上刷了好几篇 best paper,为其公司的建立奠定了技能根底。寒武纪 Cambricon-X 指令集是其一大特征。现在其芯片 IP 已扩大范围授权集成到手机、安防、可穿戴设备等终端芯片中。据撒播,2016 年就已拿到一亿元订单。在一些特别范畴,寒武纪的芯片将在国内具有肯定的占有率。最新报导显现,寒武纪又融了 1 亿美元。

  Intel Intel 在智能手机芯片商场的失利,让其痛定思痛,一改当年的犹疑,在 AI 范畴的几个运用方向上接连发了狠招。什么狠招呢,便是三个字:买,买,买。在数据中心/云核算方面,167 亿美金收买的Altera,4 亿美金收买 Nervana;在移动端的无人机、安防监控等方面,收买 Movidius(未发布收买金额);在 ADAS 方面,153 亿美金收买 Mobileye。Movidius 在前面 VPU 部分进行了介绍,这儿弥补一下 Nervana 和 Mobileye(根据视觉技能做 ADAS 计划,不是单纯的视觉处理器,所以没写在 VPU 部分)。

  比特大陆 Bitmain 比特大陆规划的全定制矿机芯片功用优越,让其大赚特赚。在卖矿机芯片之余,比特大陆自己也挖挖矿。总归,芯片规划才干特殊、土豪有钱的比特大陆对标 NVIDIA 的高端 GPU 芯片,任性地用 16nm 的工艺敞开了自家的 AI 芯片之路。芯片测验已有月余,据传功耗 60W 左右,同步在吸引产品、商场人员。最近的推文爆出了这款 AI 芯片的姓名:「智子(Sophon)」,来自闻名的《三体》,可见野心不小,信任不就行将正式发布。

  华为&海思商场等待华为的麒麟 970 现已很长时刻了,内置 AI 加快器已成揭露的隐秘,据传用了寒武纪的 IP,就等秋季发布会了。仍是据传,海思的 HI3559 中用了自己研制的深度学习加快器。

  苹果苹果正在研制一款 AI 芯片,内部称为「苹果神经引擎」(Apple Neural Engine)。这个音讯咱们并不惊奇,咱们想知道的便是,这个 ANE 会在哪款iphone中用上。

  高通高通除了保护其根据 Zeroth 的软件渠道,在硬件上也动作不断。收买NXP的一起,据传高通也一向在和 Yann LeCun 以及 Facebook 的 AI 团队坚持协作,一起开发用于实时推理的新式芯片。

  大杂烩写在前面:信任咱们都和我相同,对这些U的英文缩写,傻傻分不清楚,这是最近搜集的一些,收拾一下,做个记载。MPU与MCU最常见的咱们

  大杂烩 /

  是您正在了解的常识,本文将是很好的入门资料哦,无妨和小编一起往下阅览吧。

  首要包含运算器(ALU, Arithmetic and Logic Unit)和操控单元(CU, Control Unit),除此之外还包含若干寄存器、高速缓存器和它们之间通讯的数据、操控及状况的总线

  ? /

  何谓飞翔时刻(ToF)?飞翔时刻(ToF):助力完结三维体会 让构思起飞

  根据OpenHarmony适配移植的对STOMP协议支撑长衔接收发音讯


TAG标签耗时:0.0024280548095703 秒