月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光还原事情的真相

admin 1个月前 ( 10-12 15:53 ) 0条评论
摘要: 机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多!...
月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光复原工作的本相

收拾 | 胡巍巍

当年,阿基米德爷爷说出“给我一个支点,我就能撬动地球”这句话时,估量没少遭受嘲讽。

可是后来的咱们,都曾在物理课本上学过这句话。

事实证明,小,也能够很有力气。

芯片,便是小体积、大能量的典型代表之一。

近来,一位外国科技作者,总结了10个用于机器智能的新式硅芯片的详细信息,从这10个硅芯片来看,谷歌占比最多,国内仅有华为一个。

一起来看看,这10个硅芯片的完好信息吧!

当当当当!先PO出一张图,来一个总览!

Cerebras晶圆级引擎芯片(Cerebras Wafer-Scale Engine)

Cerebras晶圆级引擎(WSE)芯片,无疑是最近呈现的最斗胆和立异的规划。晶圆级集成并不是一个新主见,可是与产值、功率传输和热膨胀有关的集成问题,使其难以商业化。

Cereb挡雪板ras运用这种办法将84个芯片与高速互连集成在一起,从而将根据2D网格的互连按份额缩放到很大份额。

这样能够为机器供给许多内存(18 GB)散布在许多核算中(3.3 Peta FLOP峰值)。

现在,尚不清楚该架构怎么扩展到单个WSE之外。当时神经网络的趋势是具有数十亿权重的大型网络,这将需求进行这样的缩放。

该芯片细节:

  • 宣告于2019年8月。
  • TSMC 16 nm的46,225 mm 2彭具才晶圆级集成体系(215 mm x 215 mm)。
  • 1.2T晶体管。
  • 许多独自的筹码:一共84(12宽乘7高)。
  • 一共18 GB的SRAM存储器,散布在内核之间。
  • 426,384个简略核算中心。
  • 硅缺点能够经过运用冗余内核和链路绕过毛病区域来修正。
  • 估测的时钟速度约月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光复原工作的本相为1 GHz,功耗为15 kW。

互连和IO:

  • 跨过划线的芯片之间的互连,以及在惯例晶圆制作后的后处理过程中增加的布线。
  • 程晓奕
  • IO在晶圆的东西边际带出,这受每个边际的焊盘密度约束。不行能有高速SerDes,由于这些高速SerDes需求集成在每个芯片中,从而使晶圆区域中相当大的一部分与外围具有边际的芯片成为剩下。
  • 基月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光复原工作的本相于2D网格的互连,支撑单字音讯。据官方白皮书表明:“ Cerebras软件将WSE上的一切中心装备为支撑所需的准确通讯”。
  • 互连需求静态装备以支撑特定的通讯形式。
  • 未在互连上传输零以优化稀少性。

每个中心:

  • 是〜0.1 mm 2的硅。
  • 具有47 kB SRAM存储器。
  • 零未从内存中加载,零未相乘。
  • 假定FP32精度和标量履行(无法运用SIMD从内存中过滤零)。
  • FMAC数据途径(每个周期8个峰值操作)。
  • 张量操控单元向FMAC数巴比伦饭馆第二季据途径供给来自内存的跨步拜访或来自链接的入站数据。
  • 有四个与其街坊相邻的8 GB / s双向链接。

每个骰子:

  • 是17毫米x 30毫米= 510毫米2的硅。
  • 具有225 MB SRAM 内存。
  • 具有54 x 94 = 5,076个中心(由于修正计划而剩下4,888个可用中心,每行/列两个中心或许未运用)。
  • FP32的峰值FP32功用到达40 Tera FLOP。

Google TPU v3

现在由于没有关于Google TP嘻游花丛U v3标准的详细信息,它或许是对TPU v2的增量改善:将功用进步一倍,增加HBM2内存以使容量和带宽增加一倍。

该芯片细节:

  • 2018年5月宣告。
  • 或许是16nm或12nm。
  • 估计T月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光复原工作的本相DP为 200W 。
  • BFloat16的105个TFLOP,或许是将MXU加倍到四个。
  • 每个MXU都具有对8 GB内存的专用拜访权限。
  • 集成在四芯片模块(如图)中,峰值功用达420个TFLOP。

IO:

  • 32 GB HBM2集成内存,拜访带宽为1200 GBps(假定)。
  • 假定PCIe-3 x8为8 GBps。

Google TPU v2

Google TPU V2是专为练习和推理而生的芯片。它经过浮点算法改善了TPU v1,并经过HBM集成存储器增强了存储容量和带宽 。

该芯片细节

  • 2017年5月宣告。
  • 或许是20nm。
  • 估计TDP为 200-250W 。
  • 45 TFLOP的BFloat16。
  • 具有标量和矩阵单元的两个中心。
  • 还支撑FP32。
  • 集成在四芯片模块(如图)中,具有180个TFLOP峰值功用。

每个中心:

  • 具有BFloat16乘法和FP32累加的128x128x32b脉动矩阵单元(MXU)。
  • 8GB专用HBM,拜访带宽为300 GBps。
  • BFloat16的峰值吞吐量为22.5 TFLOP。

IO:

  • 16 GB HBM集成内存,带宽为600 GBps(假定)。
  • PCIe-3 x8(8 GBps)。

Google 幽姌之往生TPU v1艺术人生导演溺水

Google的第一代TPU仅用于推理,而且仅支撑整数运算。

它经过在PCIe-3上发送指令来为主机CPU供给加快,以履行矩阵乘法和运用激活功用。这是一个明显的简化,能够节约许多规划和验证时刻。

该芯片细节

  • 在2016年宣告。
  • 331 mm 2在28nm工艺上逝世。
  • 时钟频率为700 MHz,TDP为 28-40W 。
  • 28 MB片上SRAM存储器:24 MB用于激活,4 MB用于累加器。
  • 芯片面积的份额:35%的内存,24%的矩阵乘法单元,41%的逻辑剩下空间。
  • 256x256x8b脉动矩阵乘法单元(64K MAC /周期)。
  • INT8和INT16算术(分别为峰值92和23 TOPs / s)。

IO:

  • 可经过两个端口以34 GB / s的速度拜访8 GB DDR3 -2133 DRAM。
  • PCIe-3 x 16(14 GBps)。

Graphcore IPU

Graphcore IPU架构与许多带有小内存的简略处理器的高度并行,并经过高带宽的一切“交流”互连进行衔接。

该体系结构在体同步并行(BSP)模型下运转,由此程序的履行按一系列核算和交流阶段进行。

该BSP模型是一个强壮的编程笼统,由于它扫除并发损害,BSP履行答应核算和交流阶段充分利用芯片的电力资源。经过衔接10个IPU间,能够构建更大的IPU芯片体系链接。

该芯片细节

  • 16 nm,236亿个晶体管,〜800mm 2芯片尺度。
  • 1216个处理器块。
  • 具有FP32累加功用的125个TFLOP峰值FP16算法。
  • 300 MB的总片上内存散布在处理器内核之间,供给45 TBps的总拜访带宽。
  • 一切模型状况都保存在芯片上,没有直接衔接的DRAM。
  • 150 W TDP(300 W PCIe卡)。

IO:

  • 2个PCIe-4主机IO链接。
  • videogay
  • 10x卡间“ IPU 链接”。
  • 一共384 GBps IO带宽。

每个中心:

  • 混合精度浮点随机算法。
  • 最多运转六个程序线程。

哈瓦那实验室高迪(Habana Labs Gaudi)

哈月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光复原工作的本相瓦那的Gaudi AI训练处理器与现代GPU具有相似之处,特别是广泛的SIMD并行性和HBM2内存。

该芯片集成了十个100G以太网链路,这些链路支撑长途直接内存拜访(RDMA)。

与Nvidia的NVLink或OpenCAPI比较,这种 IO功用使大型体系能够运用商用网络设备构建。

该芯片细节

  • 2019年6月宣告。
  • 选用CoWoS的TSMC 16 nm,假定管芯尺度为〜500mm 2。
  • 异构架构,具有:
    • 一个GEMM操作引擎;
    • 8个Tensor处理中心(TPC);
    • 同享的SRAM存储器(可经过RDMA办理和拜访的软件)。
  • PCIe卡为200W TDP,夹层卡为300W TDP。
  • 不知道的总片上存储器。
  • 芯片之间的显式内存办理(无一致性)。
  • 一个GEMM操作引擎;
  • 8个Tensor处理中心(TPC);
  • 同享的SRAM存储器(可经过RDMA办理和拜访的软件)。

TPC中心:

  • VLIW SIMD并行性和本地SRAM 存储器。
  • 混合精度:FP32,BF16以及整数格局(INT32,INT16,INT8,UINT32,UINT8)。
  • 随机数生成。
  • 逾越函数:Sigmoid,Tanh,高斯差错线性单位(GeLU)。
  • 张量寻址和跨步拜访。
  • 每个TPC不知道的本地内存。

IO:

  • 4个HBM2 -2000 DRAM仓库,以1 TBps的速度供给32 GB。
  • 片胡诺言和陈琪上集成了10个100GbE接口,支撑根据交融以太网(RoCE v2)的RDMA。
  • IO运用20个56 Gbps PAM4 Tx / Rx SerDes完成,也能够装备为20个50 GbE。这样最多可衔接64个芯片,而且吞吐量无堵塞。
  • PCIe-4 x16主机接口。

华为Ascend 910

华为的Ascend与具有宽SIMD秦城主的108种玩法算术和3D矩阵单元的最新GPU相似。该芯片包括用于H.264 / 265的128通道视频解码引擎的附加逻辑。

在华为官方的Hot Chips演示中,华为描绘了将多维数据集和向量操作堆叠以取得高效率以及内存层次结构的应战,其间L1高速缓存(中心)的带宽与吞吐量之比下降10倍,L2高速缓存下降100倍(同享中心)和2000x用于外部DRAM。

该芯片细节

  • 宣告于2019年8月。
  • 456 mm 2逻辑芯片在7+ nm EUV工艺上进行。
  • 与四个96 mm 2 HBM2仓库和“ Nimbus” IO处理器芯片一起封装。
  • 32个达芬奇中心。
  • 峰值256个TFLOP(32 x 4096 x 2)FP16功用,是INT8的两倍。
  • 32 MB同享片上SRAM(二级缓存)。
  • 350W TDP。

互连和IO:

  • 内核在6 x 4 2D网状分组交流网络中互连,每个内核供给128 GBps的双向带宽。
  • 对L2缓存的拜访速度为4 TBps。
  • 1.2 TBps HB便是要香恋M2拜访带宽。
  • 忌独笑
  • 3个30 GBps的芯片间IO。
  • 2个25 GBps RoCE网络接口。

每个达芬奇中心:

  • 3D 1朝鲜飞行员是什么梗6x16x16矩阵乘法单元,供给4,096个FP16 MAC和8,192个INT8 MAC。
  • FP32(x64),FP16(x128)和INT8 (x256)的2,048位SIMD矢量操作。
  • 支撑标量运算。

英特尔NNP -T

继至强融核之后,该芯片是英特尔针对机器学习加快器的第2次测验。像Habana Gaudi芯片相同,它集成了少数的宽矢量核,HBM2集成存储器和相似的100 Gbit IO 链接。

该芯片细节

  • 270亿个晶体管。
  • 在带有CoWoS的TSMC 16FF + TSMC上,688 mm新密神仙洞 2模具。
  • 四个8 GB仓库中的32 GB HBM2 -2400 集成在1200 mm 2的无源硅中介层上。
  • 60 MB的片上SRAM存储器散布在内核之间,并 受ECC维护。
  • 最高1.1 GHz中心时钟。
  • 150-250W TDP。
  • 24个Tensor处理群集(TCP)内核。
  • TPC以2D网状网络拓扑衔接。
    • 用于不同类型数据的独立网络:操控,存储器和芯片间通讯。
    • 支撑多播。
  • 119个最佳功用峰值。
  • 用于不同类型数据的独立网络:操控,存储器和芯片间通讯。
  • 支撑多播。

IO:

  • HBM2带宽为1.22TBps 。
  • 芯片间IO的64个SerDes通道的峰值带宽为3.5巴克利女儿8Tbps(每个通道的每个方向28 Gbps)。
  • x16窃种情人 PCIe-4主机接口(还支撑OAM和Open Com还珠之天然呆是个萌物pute)。

TPC中心:

  • 2个32x32 BFloat16乘法器阵列,支撑FMAC操作和FP32累加。
  • 向量FP32和BFloat16操作。
    • 支撑先验功用,随机数生成,削减和累积。
    • 可编程FP32查找表。
  • 用于非MAC核算的独立卷积引擎。
  • 2.5 MB的两端口专用内存,具有1.4 TBps的读/写带宽。
  • 内存支撑张量转置操作。
  • 通讯接口支撑网状网络上的动态数据包路由(虚拟通道,牢靠的传输)。
  • 支撑先验功用,随机数生成,削减和累积。
  • 可编程FP32查找表。

缩放份额:

  • 多达1024个具有直接互连的芯片,供给相同的散布式内存编程模型(显式内存办理,同步原语,音讯传递)。
  • 扩展展现了以环形拓扑衔接的多达32个芯片。

Nvidia Volta

据了解,Volta从Pascal架构引进Tens月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光复原工作的本相or Cores、HBM2和NVLink 2.0 。

该芯片细节

  • 2017年5月宣告。
  • 815毫米2上TSMC 12海里FFN,21.1 BN晶体管。
  • 300 W TDP(SXM2尺度)。
  • 6 MB二级缓存。
  • 84个SM,每个SM包括:64个FP32 CUDA内核,32个FP64 CUDA内核和8个Tensor内核(5376 FP32内核,2688 FP64内核,672个TC)。
  • Tensor Core履行4x4 FMA,我国商标专网完成64 FMA运算/周期和128 FLOP。
  • 每个SM 128 KB L1数据高速缓存/同享内存和四个16K 32位寄存器。

IO:

  • 32 GB HBM2 DRAM,900 GBps带宽
  • NVLink 2.0(300 GBps)。

Nvidia图灵

Turing是Volta的体系结构修订版,选用相同的16 nm工艺制作,但具有更少的CUDA和Tensor内核。

因而,它具有更小的管芯尺度和更低的功率规模。除ML使命外,它还规划用于履行实时射线追寻,为此它还运用了Tensor Core。

该芯片细节

  • 2018年9月宣告。
  • 台积电12nm FFN,754 mm 2芯片,186亿个晶体管。
  • 260瓦TDP。
  • 72个SM,每个SM包括:64个FP32内核和64个INT32内核,8个Tensor内核(4608 FP32内核,4608 INT32内核和576个TC)。
  • 带有升压时钟的峰值功用:16.3 TFLOPs FP32、130.5 TFLOPs FP16、261 TFLOPs INT8、522 TFLOPs INT4。
  • 24.5 MB片上存储器,介于6 MB L2高速缓存和256 KB SM寄存器文件之间。
  • 1455官窥笔趣阁 MHz根本时钟。

IO:

  • 12个32位GDDR6内存,可供给672 GBps的聚合带宽。
  • 2个NVLink x8链接,每个链接供给高达26 GBps的双向速度。

以上10个芯片,你以为哪个最有远景?从速在谈论区留言吧!

参阅:https://www.jameswhanlon.com/new-chips-for-machine-intelligence.html#google-tpu-1

点击阅览原文,输入关键词,即可查找您想要的 CSDN 文章。

月亮代表我的心简谱,校宝,奥鹏教育学生登录-哥哥新闻,大哥哥的眼光复原工作的本相
文章版权及转载声明:

作者:admin本文地址:http://www.geogianews.com/articles/3852.html发布于 1个月前 ( 10-12 15:53 )
文章转载或复制请以超链接形式并注明出处哥哥新闻,大哥哥的眼光还原事情的真相