据行业分析机构 Trendfocus发布的数据,2024年第一季度,全球机械硬盘(HDD)出货量达2970万块,环比增长3%,出货总容量达262EB,环比增长22%。面向企业存储的HDD出货量和出货容量双双增长,其中出货容量增幅高于出货量的增幅,这表明HDD依然是企业容量需求型场景的主流选择。

企业数据存储大致可分为性能需求型和容量需求型两大类场景,前者的典型代表是计算类应用,通常以512B、4K等小数据块的随机读写为主,关注点聚焦在IOPS性能;而容量需求型存储则重点考量64K、128K及以上数据块的顺序读写性能(即带宽,MB/s),典型应用场景包括关键业务数据备份、文件共享、日志存储等,使用HDD为AI应用存储海量训练数据也是企业的主流选择。

虽然SSD的顺序读写性能高于HDD,但对于企业用户来说,实际的使用需要结合各种综合因素,除性能外,还有稳定性、可靠性、投入成本等多种因素。所以企业依然青睐使用HDD来满足海量数据增长引发的存储容量需求。而HDD是如何满足企业应用所需的呢?

本文将基于东芝的MG10-D系列空气封装硬盘,从实际测试出发,分析HDD在企业存储市场的优势特点。

1基准测试:可预测的性能,简化企业存储复杂度

MG10-D系列是东芝最新发布的传统磁记录格式 (CMR) 空气硬盘产品家族,有SATA和SAS两种接口,容量从1TB到10TB。据东芝官网信息,MG10-D系列硬盘的性能和电源能效均有明显提升,同时还提供即时清理擦除(SIE)和自加密驱动器(SED)等数据安全功能。本次测试用的HDD为3.5英寸外形规格的SATA接口硬盘,容量8TB。

图1:用于本次测试的东芝MG10-D系列磁盘,容量8TB

图2:硬盘背面;

图3:硬盘接口为SATA 3.0规格,最大速率6Gb/s;

图4:主轴电机,带动内部盘片高速旋转(7200转/分钟),并“托”起磁头实现数据存取;

图5:主轴电机上方的通气孔,用以保持内外部气压平衡,旁边有英文提示“请勿遮挡”。

基准性能测试的目的是用于评估HDD自身所能发挥出的性能,即 “裸盘性能”。根据海量文件存储、数据备份、云归档等场景的数据存取特点,测试选择用64K、128K及以上尺寸的数据块,通过常用的硬盘基准性能测试工具Iometer下发顺序读写负载来评估HDD的带宽表现。图6为东芝MG10-D系列8TB硬盘在128K数据块下的顺序读写性能。

图6:东芝MG10-D系列8TB硬盘的128K顺序读写性能

本节测试使用单一线程对东芝MG10-D系列8TB硬盘下发读写负载,从测试结果可以看出,在单线程、1队列深度时,硬盘达到最大读写带宽,均在290MB/s左右,此时的平均响应时间仅为0.46ms。

此测试结果表明了以下多层含义:

1、 顺序读写性能均衡,不管是顺序读(绿色柱状)还是顺序写(橙色柱状),在不同队列深度下的吞吐率都近乎相似,保持在290MB/s左右;

2、 在队列深度为1时,硬盘已达到最大的读写带宽290MB/s,应用体验稳定流畅。

3、 在达到最大带宽后,随着负载(队列深度)的增加,吞吐率保持平稳,响应时间随负载的增加而增长,这表明即使在密集负载情况下,东芝MG10-D 8TB硬盘依然能够发挥出最大带宽性能,且保持平稳,具有很好的性能可预测性,以便企业存储系统能更好地匹配业务需求。

值得注意的是,东芝官网公布的MG10-D系列HDD的顺序读写带宽为268MiB/s,为二进制。而本测试中的290MB/s使用十进制,换算成二进制大约为278MiB/s。

图7:不同数据块大小的顺序读写性能(吞吐率与响应时间)

上图7是东芝MG10-D系列8TB硬盘在使用64K、128K、256K、512K、1024K等不同大小数据块下的顺序读写带宽和响应时间表现。其性能表现趋势与上一测试结果近乎相似,在1队列深度时可达到最大吞吐率,且随着负载的继续增加,吞吐率保持不变,响应时间随数据块大小而变化。

图8:东芝MG10-D系列8TB硬盘稳定性测试结果

上图8为128K数据块在持续读写下的响应时间散布,在1分钟持续的读写负载下发中,响应时间大多散布在0.4~0.5ms之间,只有极少数分散在0.5ms之外,但均未超过0.6ms,这从另一方面显示了东芝MG10-D系列硬盘的性能稳定性与可预测性。

从基准测试的结果数据来看,东芝MG10-D系列8TB硬盘仅需单线程单队列的情况下就能达到最大吞吐率,即使在密集读写负载情况下也能保持稳定的最大带宽性能,所具备的性能可预测性,有助于企业用户简化存储系统的优化与管理工作。

基准性能测试反映的是东芝8TB硬盘本身所能发挥的最大性能,并不代表其在实际应用中的性能表现。接下来进行的文件性能测试将展示东芝8TB硬盘的实际应用性能表现。

2如何让海量小文件存储更有效率?

文件存储是企业最常见的应用场景,典型如日志存储、文件共享、云数据备份与归档等,随着大数据分析技术的发展,海量文件存储也逐渐成为企业的典型应用场景,尤其是近几年掀起的又一轮AI狂潮,为AI模型训练所需的海量数据提供存储能力也是HDD的重要应用场景。

我们使用VDbench创建模拟企业实际数据环境,来测试东芝10-D系列8TB硬盘,评估在处理海量小文件场景下,硬盘的每秒文件读写数,每秒吞吐率,以及响应时间等多项表现。将东芝MG10-D系列8TB硬盘用作企业文件系统,并创建两层目录,每层10个目录,在第二层的所有目录中都创建2000个半/非结构化文件,总计20万个文件(即2000x10x10)。在不同的测试环节,VDbench会重新生成不同大小的20万个文件(如64K、128K、256K、512K、1024K),用以评估东芝MG10-D系列8TB硬盘在不同文件大小情况下的每秒文件读写数量和带宽吞吐。

图9展示的是64K、128K、256K及以上不同尺寸大小文件的顺序读取与写入性能:

图9:海量小文件的顺序读取/写入性能测试结果

从上图展示的测试结果来看,在64K和128K小文件测试中,MG10-D每秒可成功打开并传输的文件超1000个以上,随着文件尺寸的增大,每秒文件传输数开始下降,带宽则快速提升,在256K时达到最大带宽171MB/s;之后随着文件尺寸的增加,每秒文件传输数逐渐下降,带宽随之对应下降。

在文件顺序写入测试中(实际是重写),64K文件每秒可写入近950个,随着文件尺寸的增大,每秒写入数量逐步降低,写入带宽则随之提高。在1MB文件时达到最大带宽111MB/s。

在企业数据中心内,更多应用场景的数据传输特点是文件随机读写,图10展示的是不同尺寸大小文件的随机读取与写入性能测试结果:

图10:海量小文件随机读取/写入性能测试结果

图10测试结果显示,在20万小文件随机读取性能测试中,东芝MG10-D系列8TB硬盘在128K尺寸大小文件时,每秒成功打开并传输的文件数量最多,达到137个,对于HDD而言,这是一个极出色的性能成绩。随后,随着文件尺寸的增大,每秒打开数量降低,但带宽随之提高,在1MB尺寸文件时获得最大带宽38MB/s。

同理,在随机写入测试中,东芝MG10-D系列8TB硬盘在64K尺寸文件获得最大文件写入数量——每秒写入519个文件,随着测试文件尺寸的增大,每秒写入数量下降,但写入带宽逐渐上升,到1MB尺寸文件时获得最大带宽——97MB/s。

为何在文件性能测试中,随机写入性能远超随机读取性能?这是因为在测试中启用了硬盘写入缓存(Write Cache)。通常情况下,为了防止突然掉电导致缓存数据丢失,硬盘中的写入缓存大多处于关闭状态。而在本次测试中之所以打开写入缓存,这是因为东芝MG10-D系列硬盘中集成了持久写入缓存技术,即使突然掉电,该技术也能保证硬盘缓存中的数据安全。并且,该系列硬盘缓存都为512MB,更大容量意味着可以缓存更多数据,也意味着更好的性能。

以上两个测试结果显示,东芝MG10-D系列8TB硬盘对文件随机读取的加速效果低于随机写入,这是因为测试数据全部都是重新写入的新数据,没有调用到读缓存。而在文件随机写入测试中,下发的负载首先写入硬盘的写缓存(并经过排序),然后以类似顺序写入的方式写入硬盘,从测试结果来看,其加速效果非常明显,在64K文件大小时,每秒随机写入的文件数量约为顺序写入的55%,随着文件尺寸的增大,加速效果越发明显,在1MB文件大小时,随机写入带宽接近顺序写入带宽的90%(87%)。

在海量小文件存储系统中,存储的文件数量也会对文件读写性能带来影响(其他配置不变的情况下),此测试将评估128K尺寸文件大小下,不同文件数量对读写性能带来的影响,图11为测试结果:

图11:不同文件数量对存储性能的影响

在文件随机读取测试中,随着文件系统中文件数量的增加,每秒成功打开并传输的文件数量会随之下降,在超过10万个文件后,读取性能趋于平缓,响应时间也维持稳定。而在文件随机写入测试中,由于写入缓存的加速,虽然文件系统内文件数量显著增加,但每秒成功写入的文件数量依然平稳,响应时间也没有很大起伏,得益于缓存显著提升了企业文件系统的性能,尤其是写入性能。

上述结果均基于单机环境下对单块东芝MG10-D系列8TB硬盘进行测试获得,在企业实际环境中,存储系统通常有着数量多得多的硬盘。比如分布式存储,即使最小3节点也有多达36块硬盘,如果按上述测试数据推算,其能支持每秒最多3.6万个文件的并发访问。即使部署在传统双控阵列(12块硬盘)中,也能支持每秒最多近1.2万个文件的并发访问。更何况还有存储系统的内存/缓存加持,实现的系统综合实际性可高于上述数值。

本测试综合考虑HDD的性能后选择使用的是单机环境(i5-13600,14Core@2.7GHz,32G内存)进行测试,在测试中排除了系统内存、网络等因素的影响。在企业实际环境,如文件共享应用中,文件系统(NAS)缓存将会对文件读写性能带来利好,但不同的存储网络(GbE vs FC、10GbE vs 25GbE等)则会对测试结果带来较大影响,同时,客户端并发数量、读写负载混合比例等都会不同程度上影响文件系统性能。

3除了性能,硬盘还有其他优点

东芝MG10-D系列硬盘是东芝专为企业存储而研发改进的传统磁记录格式(CMR)硬盘家族,除了上述测试中所反映出的性能稳定性、可预测性外,为满足企业存储需求,东芝MG10-D系列硬盘还有着很多特点及可选择的附加功能,比如:

即时清理擦除(SIE)和自加密功能(SED)。很多企业,尤其是有着大规模数据中心的企业,因故障更换硬盘、报废硬盘后,如何处理被淘汰硬盘通常是一个难题,其上可能存放着企业敏感数据。而利用这两项安全功能,能帮助企业更好地处理数据安全风险。东芝MG10-D全容量系列硬盘均支持这两项功能。

持久写入缓存技术。可在保证最优写入性能(Write Cache启用)的基础上防范由于突然掉电导致缓存数据丢失的风险,帮助企业在保证数据安全的同时更好地应对突发业务波峰。

存储选择更灵活。东芝MG10-D系列硬盘不仅提供用于构建分布式存储的SATA接口硬盘,还提供满足企业存储阵列需求的SAS接口硬盘;企业还可根据业务所需灵活选择512e/4Kn或512n等不同扇区格式的硬盘,可无缝融入企业各种业务场景;1TB起步、最高10TB的容量规格也让企业拥有更灵活的选择。

图12:东芝MG10-D系列提供不同规格型号的硬盘,供企业按需求灵活选择

除上述特点以外,东芝MG10-D系列硬盘每年额定工作负载总传输率可达550TB;同时还具有很好的电源能效,在活跃待机模式下的功耗降至5.74W,相比上一代产品能耗节省方面也有很大提升。对于聚集了数万台服务器的企业数据中心,每一瓦的能耗节省都能为用户带来更好的成本管控制。

在很多企业数据中心的主流应用场景,HDD以其可预测的性能、更具性价比的投入、经验证的可靠性、更灵活的容量与接口选择,以及优异的兼容性等特点,能够更好地支撑企业业务的正常稳定运行。