今年是AIGC的元年,AI技术将会越来越深入地应用到高性能计算中。
“在AI、云计算、硅基芯片等前沿技术的蓬勃发展下,超算技术正在发生深刻的变革。从硬件、软件、生态的角度出发,构筑怎样高效可靠的数据基础设施,是业界持续探索的问题。”在近日的一场计算学术年会上,华为数据存储产品线副总裁庞鑫接受第一财经记者专访时表示,2023年是AIGC的元年,AI技术将会越来越深入地应用到高性能计算中。
庞鑫认为,传统超算正在加速与AI深度融合,数据密集化趋势会愈加明显。“HPC与AI均是以数学基础、数理逻辑为核心,在各种算力调度与任务协调中,业界已意识到数据快速流转的重要性。因此,这种全新的科学范式催生了全新的数据范式,高效的信息检索与数据处理是超算应用的根基,数据基础设施的升级将为‘超算大厦’的基础,成为关键制胜点。”
超级计算,又称高性能计算,指利用并行工作的多台计算机系统组成的计算资源,处理极端复杂或数据密集型问题。目前,随着多地超算中心和大型数据中心建设升级项目兴起,超级计算市场迅速增长。根据Synergy Research Group数据,全球超级数据中心数量从2017年的390个增长至2022年二季度的659个,增长近一倍,预计2024年总数将超1000个。
“AI技术的导入可以解决传统高性能计算算不了、算不准、算不动的问题,其本质是数据驱动通过AI算法拟合成一个符合大概率的规律,尽管当前这些规律缺乏可解释性,但反而是科研创新突破的最佳指引。”庞鑫对记者表示,割裂的数据分析机制将成为未来制约数据价值变现的主要瓶颈。因此,围绕数据的高效获取、高效清洗、高效流转以及全流程管理将是科技竞备赛中的制胜点,数据决定AI智能的高度。
庞鑫认为,对于科研人员来说,以数据为中心的“数据密集型超算”趋势来临,只有强大的的数据存储,才能保证支撑超算产业从科学研究走向科学智能时代。首先,应推动超算中心算力和存力的协同发展,需要创新算存协同的架构,以存强算,譬如通过将部分算子向存储下沉,实现业务感知的近数据处理,避免在数据准备上花费大量精力;其次,还应部署全系统数据融合加速技术,比如多协议融合互通,让系统前一阶段的输出直接成为下一阶段的输入,实现数据免搬迁;以及全局数据调度能力,让数据可以跨地域、跨系统域地按需流转、快速归集;此外,数据智能分级也非常关键,通过识别数据访问频次让数据在不同介质间分级流动,这在面对超算日趋庞大的数据体量时成为刚需。
庞鑫在采访中谈到,E级超算的建设已经屡见不鲜,随之而来的能耗、散热的严峻问题已成为行业向绿色低碳演进中的重点。通过加大超算中心高密硬件的部署、尤其是闪存介质的应用,能有效解决这一问题。
“目前中国的数据中心使用半导体介质即SSD闪存盘的比例不到30%,闪存盘在性能、能耗、容量密度等多维度上都较传统机械硬盘具有碾压性的表现。华为正在坚定推行全闪存化的分布式存储,通过采用更高容量SSD大盘、场景化的数据缩减算法,正在加速SSD性价比拐点的到来。”庞鑫说。
“此外,文件系统是数据密集型超算演进的灵魂,业界一直缺少国产的、好用的并行文件系统。因此,华为选择了在此节点进行攻坚。”庞鑫表示,超算产业与AI的深度融合是时代的下一个赛点,在算力、算法之外,用好数据是中国超算跨越式发展的新机遇,产业各方应该共同在应用生态的探索上发力,让中国不仅要成为全球超算系统的领跑者,也能够成为全球超算应用的领跑者。