超级计算正越来越成为一个国家科技创新核心竞争力的重要方面,是推动国家安全与创新发展的强力引擎,为解决国家安全、技术创新、经济发展和社会进步等一系列重大挑战性问题提供了不可替代的作用。
经过近三十年的艰苦努力,我国超级计算机的研制水平和性能已经居于全球领先水平,“天河二号”“神威·太湖之光”多次荣膺全球超算速度之冠,中国称霸全球TOP500排行榜冠军达创纪录的五年之久。不过,2018年6月美国在五年之后重新夺回了世界第一的宝座。中美两国进入交替领跑世界超算的局面。
软件跟不上发展
但在超算应用水平方面,虽然2016年和2017年,基于神威·太湖之光的超算应用“千万核可扩展大气动力学全隐式模拟器”和“非线性地震模拟”蝉联“戈登贝尔奖”,可实际上我国超算应用发展还远远滞后于超算研制能力的发展。
其一,超算应用软件的可扩展性偏低。科技部通过一系列重点研发计划,在重点应用领域部署了一系列课题,进行几十万核乃至百万核并行算法与软件研制的重点突破,但目前日常运行的大部分超算作业,其并行规模仍停留在几千或几万个处理器甚至更低的量级,没有充分发挥出亿亿次超级计算机上并行的能力。我国应用软件仍处于初级阶段,应用领域与软件研发存在脱轨现象。
其二,受制于国外垄断,国产商业应用软件发展滞后,市场占有率几乎是空白。在超算应用比较多的制造业和基础科研等关键领域,大部分商业应用软件都被国外垄断。我国不仅支出巨额软件采购费用,软件升级还受制于外方。我国超级计算机特别是国产超级计算机上运行的大规模并行软件几乎都是科研用软件,不具备大规模商业推广的能力。
其三,我国超级计算机的研制模式一直以来都是政府科技部门主导,地方政府参与,企业承担研制任务,国家超级计算中心负责运维和推广。虽然在过去二十多年里,我国超算的研制和发展在这一模式的指导下,取得了举世瞩目的辉煌成就,但为了取得TOP500世界冠军而忽视实际需求,研制远远超过实际需求的机器的做法也越来越值得我们反思。
思想和人才的制约
我国超算应用发展滞后的原因主要有以下四点:首先,在建设思路上,采取了超算系统性能优先发展再拉动超算应用发展的策略。欧美日等国家一般根据各领域实际应用需求,针对性地研制能满足实际应用需求的超算系统,能够避免对机器的浪费。而从实践来看,我国的超算发展偏重于先发展超算计算能力,往往会导致超算系统的初期应用效率偏低的情况出现,需要一定时间的过渡期才能将机器用起来。
其次,“重硬轻软”的思想导致经费投入比例严重失调。美国能源部建议的对超算软硬件的投入比例约为1:1。据有关专家介绍,我国超算系统的软件经费投入,在项目申报时已经能占20%至30%,比过去的不到10%已经有了明显的改善,但是离1:1的比例还有很大差距。
再次,研发力量分散。我国超算应用软件的研发人员大部分分散在一些小的实验室、研究所,或者依附在以硬件研发为主的国家重点实验室,仅在核物理、石油、气象、地球物理等个别领域建有专门的国家重点实验室,但是未形成合力。
最后,超算软件人才严重匮乏。当前高校相关人才培养体系、培养计划和课程设置落后于超算应用领域的人才需求。同时,科研评价体系难以对超算应用软件研发做出客观评价,加上科研经费管理不利于体现软硬件研究成果的不同价值,软件研发人员待遇偏低但市场需求旺盛且待遇有明显优势,导致应用软件研发人才频繁“跳槽”,人才流失严重。
多方努力补齐短板
为了解决现存问题,笔者建议:一是抓住历史机遇,将我国超算的发展模式从超算机器性能拉动,向应用需求拉动转变。随着我国超算应用软件研制和应用水平的不断提升,二者的差距越来越小,为我国转变发展模式提供了良好的历史机遇。我们应抓住这一机遇,探索出一条健康的超级计算系统发展道路。
二是成立若干国家级超算行业应用软件国家工程实验室。制定我国超级计算机应用中长期研究规划和路线图;当前应着力开展艾级(百亿亿次)应用相关的基础问题和关键共性技术研究。此外,中心应以重大专项为牵引,集中多学科人才和资源,稳定研发方向和人才队伍。
三是转变“重硬轻软”思维,持续稳定支持超算应用软件研发。根据超算软件人才队伍的实际发展情况和研发能力,适时调整财政支出结构,统筹协调全国超算研制计划和经费安排,软硬件经费投入比尽量做到30%以上,远期目标希望做到1:1。
四是鼓励国家超算中心联合应用部门组建行业应用联合实验室。实验室由行业应用方的学科带头人领导,国家超算中心提供高性能运算支持并指导或协助进行程序移植,自主研发大型并行应用软件,并通过应用在用户中培养人才。
五是重视计算科学学科建设和人才激励机制。推广“超算理论+多学科应用”课程,促进多学科交叉融合。对高水平超算应用软件科研人员实行兼职兼薪、协议薪酬等模式;采取内外部结合的评价机制,给予超算软件研发人员公平公正的评价和职务晋升通道。
六是加强人才队伍的建设,为超级计算的发展提供源源不断的人才供应。在全国院校推进超级计算相关学科和课程的体系建设,结合并行应用挑战赛等形式,为超级计算应用领域培养更多更好的人才队伍。
随着云计算、大数据、人工智能、区块链和边缘计算等新一轮高新技术的快速推广和普及,以超级计算为核心的算力经济学越来越成为衡量一个地方数字经济发展程度的代表性指标。搭建超算和云计算平台,出台超算扶植政策,培养超算人才和队伍,将超级计算与大数据和人工智能等进行深度融合创新,将成为进行新旧动能转换的主要手段。
(作者张云泉 系中科院计算所研究员、国家超算济南中心主任)
原标题:中国超算“暂时有劲使不上”怎么破|超算|大规模|并行