AI也会遭遇瓶颈 解析人工智能技术的存储性能需求
2020年对于很多人而言都是永远值得铭记的一年,突如其来的新冠疫情几乎改变了每个人的生活,它不仅给人类的经济造成了重大损失,也给人类的健康带来了巨大的威胁。面对这难以对付的病毒,我们既看到了无数勇士的悲壮逆行,也看到了科技在整个抗疫斗争中所起到的关键作用,特别是其中的AI人工智能技术——通过AI技术我们可以加速疫苗的研发;通过AI技术,在众多医疗终端设备以及大量的病人临床数据中,我们能提炼出最佳的诊断方案,加速诊断的效率,提升诊断的效果。可以说,AI技术在这次关键的战役中发挥出了重大的作用。
因此并不意外,在2020年第三届软件定义存储峰会上,英特尔提出的主题是“突破内存与存储瓶颈 释放人工智能无限潜力”。毕竟在这场抗疫战斗中,英特尔不仅投入重金资助合作伙伴使用AI技术进行诊断、疫苗开发方面的研究,还推动AI科技在医学检验、医疗物资生产、疫情推演等多个领域加速落地,英特尔深知AI人工智能对人类的重要性。除了对抗新型病毒,AI人工智能技术其实也深入了人类生活的各个领域。英特尔公司中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰先生在峰会上谈到:“从医疗、教育、工业到能源、金融等等,每个行业都在以数字化的方式来寻求主动变革,我们可以预见的是,在不远的将来,整个社会对数字化的服务需求将不断地激增”。
AI人工智能技术将给存储产品带来重大挑战
人工智能技术的数据管道主要分为采集、准备、训练和推理四部分。每个部分需要读写不同类型的数据,工作负载也不尽相同。
“工欲善其事,必先利其器”,要想发挥出AI人工智能技术的最大威力,需要企业构建强有力的IT基础设施。这个设施不仅需要强有力的处理器、FPGA、GPU,也需要高性能的存储设备,否则就会如普通电脑一般,因为机械硬盘传输速度最慢,寻找数据的时间最长,往往会成为整个系统性能的瓶颈,即使是SATA/PCIe NAND SSD,很多时候也跟不上AI数据处理的需求。倪锦峰先生介绍到,无论用于哪个行业,人工智能的工作实际上主要由采集、准备、训练和推理四部分组成。每个部分需要读写不同类型的数据,工作负载也不尽相同,将给存储设备带来较大的挑战。
简单地说,在整个人工智能执行过程中,IO的需求是不可预测、复杂多变的,它读写的数据主要有三个重要的特点:
第一是它的数据集大小,差异性非常大,在最初开始的采集阶段是PB级别,到训练阶段是GB级别,到训练好了执行的函数,相关的模型可能是KB级别;
第二它的工作负载也是复杂多变的,从最初百分之百的写入到准备阶段的50%读、50%写混合负载,到后面的一些训练、推理阶段可能出现百分之百的读,其中包括很多的随机读取操作;
第三是存储模式也会有很多变化,从一开始顺序化的数据流写入,到后面则是通过完全随机的读写,来帮助建立准确的模型。
因此人工智能技术对存储性能的要求是很苛刻的,用户总是希望设备能满足高吞吐量和低延时的需求,总是希望更多的数据能够更加靠近处理器,以获取及时的传输、执行,但用户又会希望AI的基础设施投资成本能在可控的范围之内,可以说这是一个相互矛盾的需求,那么对于用户来说如何才能实现这个愿望呢?
优化成本,提升性能,英特尔存储产品构建分层存储
首先还是应对用户使用的数据类型进行研究,倪锦峰先生向我们展示了英特尔经典的存储金字塔图。在应用中,并不是所有数据都会经常被用到,因此数据可以被分成热数据、温数据和冷数据等3个不同层次。热数据即需要立马进行处理的数据,例如银行收到的转账请求,即时的地理位置等。温数据是非即时的状态和行为数据,例如用户近期感兴趣的话题,或用户最近去过的地方等,冷数据则是不经常访问的数据。
研究数据类型、数据使用所形成的工作负载,对数据进行分层,并使用最适合的设备来存储数据可以提升存储系统的性能,并降低成本。
如果全部使用DRAM内存来存储这些数据,在性能上可能会表现突出,但也意味着用户需要花费非常高昂的成本。因此更合理的是根据数据的类型、负载对它们合理地使用存储设备。例如可以使用DRAM内存、英特尔傲腾持久内存来存储热数据,因为它们拥有很高的性能和超低的延迟,离CPU和GPU最近,能够获得及时的洞察。而英特尔傲腾固态盘搭配以英特尔为代表的TLC、QLC NAND固态盘,则凭借大容量、高性能适合用于热、温热、温存储。这种分层设计的绝妙之处在于金字塔里的每一个层级的数据、使用产品在容量和延时特性上正好有数量级的差距,这就使得用户可以根据数据的类型、工作负载进行冷热分层,并同时参考自己的预算,对性能的需求,对功耗的预期,来不断地优化自己的存储方案。
凭借不同于传统NAND闪存的革命性材料,傲腾具有就地写入、支持位寻址、低延迟等三大新特性。
那么英特尔的存储技术能否承担起这一重任呢?从倪锦峰先生的介绍中,可以看到由于使用了不同于传统NAND闪存的傲腾介质,傲腾持久内存、傲腾固态盘具有诸多新特性。首先是它支持就地写入,写入前不需要进行数据擦除。不像普通NAND闪存存在读-修改-写这个过程,因此它拥有更好的性能。同时在长时间写入后,它也不会出现数据脏块,不需要进行垃圾回收,因此傲腾产品可以很好地保持性能一致性,不会出现NAND固态盘用得越久、性能越差的问题。
与采用传统NAND闪存的DC P4600SSD相比,傲腾固态盘DC P4800X的延迟更低、一致性更好,寿命长得多,效率更高。
其次是傲腾技术支持位寻址,可以提供超低的延迟,带来更快的传输速度,毕竟AI人工智能技术的应用对存储设备的容量和性能都有很高的要求。相比传统NAND闪存,傲腾产品在性能上有质的提升,形象地比喻,就是将数据的载体从汽车升级为飞机。延迟方面,它最好可以做到微秒级别,虽然和内存DRAM的不到0.1 微秒相比还是存在一定的差距,但是已远远好于NAND闪存的近百微秒的水平。英特尔数据显示傲腾DC固态盘的访问延迟不仅较传统HDD、SATA SSD大幅降低,即便与同样采用NVMe接口的NAND SSD相比,其优势也是非常大的——与采用3D NAND 颗粒的英特尔DC P4600 SSD 相比,傲腾固态盘DC P4800X的读取延迟在不同写压力、不同队列深度下,低了8~63倍。
此外新介质大幅提升了傲腾产品的寿命,英特尔傲腾固态盘可以支持多达60个DWPD(每日全盘写入次数),而大家所熟悉的英特尔P4600、P4610这样的高性能、高寿命的NAND固态盘,只能支持3个DWPD左右,英特尔傲腾固态盘的进步是非常可观的。
人工智能技术的数据管道可以通过使用英特尔傲腾持久内存、傲腾固态盘、QLC 3DNAND固态盘,进行合理搭配来提升任务执行的效率,并降低成本、功耗。
同时从AI数据通道中的采集、整理、训练、推理四个阶段,可以看到各阶段对存储的要求是非常高的,需要有持续、一致的吞吐量,以及同样一致、持续、超低的延迟,这些需求正是傲腾产品所擅长的,再加上英特尔QLC 3D NAND SSD所拥有的大容量(已可实现单盘32TB)、高性能特性,通过这样一个完美的结合,可以帮助改善客户对数据的融合,提升软件定义存储解决方案的性能,帮助用户为即将到来的人工智能时代的数据爆发做好相应的准备。
大幅提升效率,英特尔存储方案体现实际价值
采用傲腾固态盘后,VMWare vSAN、hadoop、CEPH等各个存储系统的性能都获得了大幅提升。
根据倪锦峰先生介绍,在实际使用中,不少平台改用英特尔傲腾产品后,都获得了很好的效果。如百度在2018年发布了基于英特尔傲腾固态盘加英特尔QLC 3D NAND固态盘的存储解决方案,这一方案大幅提升了AI人工智能、大数据、云计算的存储性能。在AI的一个训练场景中,这一方案相比原来的HDD机械硬盘方案可以获得21倍的性能提升以及96%的延迟下降,同时降低TCO多达60%。在VMWare vSAN分布式存储系统中,将高性能缓存从NAND PCIe固态盘换成英特尔的傲腾固态盘后,其虚拟机密度提升了60%,同时系统整合率能够提升30%;在hadoop分布式架构中,当用户使用英特尔傲腾固态盘作为hadoop的临时数据缓存后,其吞吐量或性能可以提升40%左右。
而在CEPH分布式存储系统中,当用户使用英特尔傲腾固态盘替换了传统的NAND固态盘,作为元数据(metadata)缓存和journal盘后,其延迟可以降低50%左右,同时IOPS性能获得了40%左右的提升。在微软的Azure Stack HCI云平台上,当用户将英特尔傲腾固态盘作为缓存盘后,则能使每个系统、每个节点所能够支持的虚拟机数量提升60%左右,同时虚拟机的跑分也能够提升约80分。此外,现在也有很多国内公司正在使用英特尔傲腾技术来进行存储解决方案的创新,包括浪潮、VMWare、XSKY、QingCloud等众多合作伙伴。
让存储更接近计算资源,让存储兼得高性能与稳定性
英特尔公司中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰先生接受了采访
从以上的技术讲解、案例可以看到,英特尔解决方案之所以能有如此突出的表现,主要依赖的是性能接近内存的傲腾存储产品。而在前不久举行的2020英特尔中国年度战略“纷享会”上,英特尔也提出了近内存计算的概念,那么这是否代表着未来的存储趋势?幸运的是,笔者在此次大会上还获得了采访英特尔公司中国区非易失性存储解决方案事业部战略业务开发总监倪锦峰先生的机会。倪锦峰先生认为在这个数据爆发的时代,特别是当5G技术发展成熟之后,所产生的大量数据无法通过网络全部汇集到数据中心,所以部分数据必须要在边缘进行计算,这就需要存储和计算在边缘端融合在一起,只有高效的存储性能才能帮助边缘端快速完成计算。
而在数据中心里,则存在不少压缩、解压缩等具有规律性、重复性、依赖内存的计算需求,如果使用传统的执行方式将消耗很多CPU计算资源和DRAM内存资源。英特尔的中长期目标则是将计算和存储融合在一起,使得存储和计算更加靠近。比如英特尔中国研究院宋继强院长提到的方案是将FPGA与存储架构融合在一起,存储系统可以满足类似实时计算的要求,比如压缩、解压缩、AI训练等。同时存储系统的参与也能有效降低用户对CPU、内存资源的需求,从而降低成本。而性能接近内存的傲腾介质的确比较合适承担这一重任。
显然傲腾突出的性能是实现近内存计算的关键,那么企业在长时间使用傲腾时,是否需要进行额外的维护、保养呢?倪锦峰先生则表示对于传统的NAND闪存固态盘来说,可能需要这样的工作。毕竟传统SSD的读-修改-写机制会导致垃圾数据堆积,造成性能下降,同时垃圾回收等会带来额外的寿命损耗。传统SSD之所以后续会出问题,一是因为垃圾堆积没有有效处理,二是因为NAND闪存用的时间越长,它的坏块就会越多,因此需要做很多坏块的管理工作,坏块越多,冗余空间越来越少,性能也会越差。
而傲腾产品没有写入放大的问题,同时可擦写能力非常高,寿命有量级差异,所以它的整个生命周期里是没有性能衰减的问题。同时傲腾产品都经历了严格的性能和可靠性验证,包括模拟了恶劣负载情况下工作5年的测试,即加速老化测试。英特尔有大量的数据证明,傲腾产品在整个生命周期里面性能是一致、持续稳定的。
傲腾将成加速AI人工智能技术的“催化剂”
在本文截稿时,新冠疫情仍没有结束,人类仍在与之战斗。但我们坚信没有一个冬天不能过去,没有一个春天不会到来,AI新兴技术必将助力人类更快地战胜疫情,加速推动社会的数字化和智能化的发展。而要加速AI技术的发展,像傲腾这样让数据更靠近CPU,性能接近内存的新技术必不可少。而凭借更大的存储容量和优异的性价比,英特尔QLC3D NAND也将成为取代HDD机械硬盘阵列的一个新选择。毫无疑问,傲腾技术与QLC 3D NAND技术的结合,将成为AI人工智能技术的“催化剂”,我们也期待着这瓶“催化剂”能让AI人工智能技术发展得更快,并创造出更多的成果,为人类造福。