京津冀中心企业风采| 联泰集群:让 AI 训练不再「排队」!集群扩容,70 个科研任务并行无忧
本文转载自“联泰集群”微信公众号
编者按
随着 AI 训练、科学计算和大数据分析的发展以及科研团队的不断扩大,一些科研院所的现有算力和存储资源已满足不了日常科研训练,特别是不能满足数据与知识工程、机器视觉团队、神经网络与图像处理团队对算力和存储的需求。京津冀国家技术创新中心培育的高科技企业联泰集群(北京)科技有限责任公司(简称“联泰集群”)结合用户痛点和对需求的分析,精准定制“算力+存储”双扩容方案,实现70人团队科研业务零中断,以高性能计算解决方案为智能仿真等前沿研究注入强劲动能,获用户高度认可。
-
异构计算节点 1:2 台双路 Intel 4316 8 GPU 卡服务器(Ada Lovelace 架构 24GB); 异构计算节点 2:2 台双路 Intel 4316 8 GPU 卡服务器(Ada Lovelace 架构 48GB);
存储节点:3 台双路 36 盘位存储服务器(352TB*3);
网络部分:机房改造;
集群管理:LtAI 异构资源管理平台,搭建统一 AI 计算资源池;
支持资源调度、监控、管理;
支持组织、用户管理;
支持存储管理;
支持数据标注;
支持数据管理;
支持模型训练、模型管理、模型服务;
支持开发环境管理,各种 AI 框架;
支持 AutoML 超参调优;
存储管理:LTHPC 并行存储系统,搭建高性能存储资源池;
-
支持副本/纠删码技术特性; -
支持在线横向扩展,容量可达 EB 级; -
支持 NFS/SMB/POSIX 等协议,无性能瓶颈; -
多级可靠性保障,保证业务连续性和安全性;; -
支持非结构化数据之间协议融合互通访问,基于 ROW 的可以快照功能等;


-
AI 集群整体单精度算力 3558.4 TFLOPS,GPU 总显存 2112GB; -
存储裸容量 1PB,可用容量高达 600TB; -
新增设备无缝加入原集群,用户业务不中断; -
分布式存储支持 RDMA、GDS 等技术,对前端 GPU 服务器的增速巨大,超额完成训练任务; -
纠删码/副本的部署方式,一定程度上保证了用户的数据安全。
未来,联泰集群将继续秉承“算力改变世界,算力让世界更美好”的愿景,不断加大研发投入和技术创新力度,为用户提供更加高效、可靠、智能的算力服务解决方案,为推动社会进步和产业升级做出更大的贡献。
关于联泰集群