“数据是建设数字中国的基础资源和关键要素,数据基础设施是数据价值释放的基础。而存储设施作为数据基础设施的核心部分,是支撑数据高效流通和安全合规的重要组成。”5月24日,第七届数字中国建设峰会数据标准化与数据基础设施分论坛上,华为数据存储产品线副总裁庞鑫表示。
数据作为关键生产要素的价值日益凸显,峰会期间发布的《全国数据资源调查报告(2023年)》显示,2023年,全国数据生产总量达到32.85ZB(泽字节),同比增长22.44%;数据存储总量为1.73ZB,存储空间利用率为59%。
“我国数据产量已经超过32ZB,是全球的数据大国,但是我们还不是数据强国。”结合业界的洞察和实践,庞鑫抛出问题。
在他看来,当前数据基础设施建设面临挑战:在数据汇集治理方面,数据留存率较低,数据存量规模小,大量的数据要素价值没有被充分释放。
在数据流通利用方面,目前数据的流动性不高、共享难,数据可视化管理不足,导致数据使用效率低。“例如在AI大模型的场景下,由于可信的数据流通利用基础设施的欠缺,数据供给慢,大量算力在等待数据,导致AI基础设施可用度低。”庞鑫直言,据统计,我国AI集群可用度普遍不足30%。
同时,在数据安全方面,目前有大约75%的数据保存在机械硬盘存储介质上,存在产业安全风险,也存在人为因素带来的风险、数据被勒索的风险、健全的数据保护灾备体系缺乏等问题。据统计,2023年,每11秒就会发生一次勒索软件攻击事件,平均勒索赎金达1000万元人民币,且相关勒索攻击还在持续增加。
“数据基础设施的应用场景非常广泛,涵盖几乎所有数据相关领域,尤其是金融、医疗、交通、电信等行业场景。”庞鑫举例道,如在金融行业可以对客户数据进行深度挖掘和分析,从而提供更加精准的金融服务和风险管理;在医疗领域中可以协助远程医疗,将散乱无序的信息进行分析处理,为前端输出有价值的信息。
为持续加强数据基础设施建设,更好助力数字经济发展,庞鑫建议,围绕全国一体化算力网和数据流通利用数据基础设施建设,加大数据保存规模,推进价值数据应存尽存,并加快发展和部署先进存储设施,汇聚保存高质量的数据资源。他谈到,目前部分省份正在以此为目标,建立数据存力中心。
针对数据流通利用的问题,庞鑫表示,产业界已经开始实践基于存储设施的可信数据空间,建立跨区域跨行业跨机构的新型数据湖,实现数据要素的可视可管可用,让数据供给方和消费方可以放心进行高效数据流动。在此背景下,结合大模型和高质量数据集建设,应该提前准备行业高质量知识,加快AI数据湖的应用,以存强算,发挥AI基础设施的系统化优势,提高集群可用度,实现大模型效率提升。
在提升数据安全方面,庞鑫建议,提高自主的先进存储使用比例,夯实数据安全底座;构建数据基础设施内生安全能力,健全数据容灾备份和防勒索病毒安全体系,建立数据流通基础设施的安全屏障。