GPU云平台存储节点和管理节点采购(GY202104899)采购公告

GPU云平台存储节点和管理节点采购(GY202104899)采购公告

项目名称GPU云平台存储节点和管理节点采购项目编号GY********9
公告开始日期2021-09-14 01:50:18公告截止日期2021-09-17 02:00:00
采购单位青岛校区公共(创新)实验教学中心付款方式货到验收合格后付款
联系人中标后在我参与的项目中查看联系电话中标后在我参与的项目中查看
签约时间要求到货时间要求合同签订后20天内
预算总价¥390,000.00未公布
收货地址山东大学青岛校区K2楼
供应商资质要求

符合《政府采购法》第二十二条规定的供应商基本条件

公告说明
采购清单1
采购商品采购数量计量单位所属分类
万兆交换机1网络设备无无
品牌品牌1华为
型号S6730S-S24X6Q-A
品牌2
型号
品牌3
型号
预算单价¥16,000.00
技术参数及配置要求24口+6个40GE QSFP+以太网光接口。
24个10GE SFP+以太网光接口
支持的模块和线缆:
GE光模块
GE-CWDM彩色光模块
GE-DWDM彩色光模块
GE光电模块
10GE SFP+光模块(不支持OSXD22N00)
10GE-CWDM光模块
10GE-DWDM光模块
1m、3m、5m、10m SFP+高速电缆
3m、10m SFP+ AOC光线缆
0.5m、1.5m SFP+专用堆叠电缆(最后16个SFP+接口支持,仅用于免配置堆叠)
售后服务服务网点:不限;质保期限:3年;响应期限:报修后4小时;
采购清单2
采购商品采购数量计量单位所属分类
智能管理软件1办公软件无无
品牌品牌1Amax
型号AI Max
品牌2
型号
品牌3
型号
预算单价¥48,000.00
技术参数及配置要求AI Max智能管理软件,提供统一的中文web管理界面,支持web界面中英文切换;订制版Tensorflow-gpu、Caffe、PyTorch、Mxnet的各个版本镜像,对外提供下载;支持分布式存储支持IB高速网络和RDMA数据读写效率高;支持模型开发调试,启动Jupyter notebook进行交互式开发和调试,启动JupyterLab进行交互式开发和调试,支持后期无限扩容。
一、用户接口:
GUI界面:提供统一的中文web管理界面,支持web界面中英文切换
命令行客户端:客户通过pip安装命令行客户端,连接集群进行操作
Restful API:系统所有功能均对外提供Restful API,方便用户进行二次开发
SDK:Java开发者可以使用已封装好的SDK进行二次开发,方便快捷
二、权限管理
用户组管理:对用户组进行管理。支持用户组创建、删除,角色设定,将用户加入或移出用户组等
用户管理:对用户进行管理。支持用户创建、删除、用户组、分区、存储卷和资源配额设定
资源限额:对用户的CPU、GPU、Mem和存储配额进行设定,限定用户能使用的资源数量
角色管理:针对系统各功能模块,定义不同的角色。通过用户组的角色设定为不同的用户设置不同的角色
功能授权:系统对不同的角色有不同的功能授权,只有特定角色的用户才能访问系统特定的功能(对所有用户接口都有效)
数据访问:用户的数据存储空间相互隔离,每个用户只能访问各自空间中的数据,无法越界访问未授权的数据
资源配额修改:用户可修改资源配额与存储卷
三、镜像管理
容器镜像:运行中容器保存为镜像
镜像分享:管理员可以提升私有镜像为公共镜像,普通用户可以分享私有镜像给其它用户;被分享的镜像保持一份拷贝,只有在同步后产生新的拷贝
本地镜像:本地环境pull和push镜像
Docker exec console:通过Docker exec console配置镜像并保存
自定义python包:镜像制作功能允许用户自定义python package
机器学习镜像库:订制版Tensorflow-gpu、Caffe、PyTorch、Mxnet的各个版本镜像,对外提供下载
NGC镜像下载:用户可以从Nvidia NGC下载镜像
镜像Label:启动任务时通过label匹配正确的镜像,加载列表
镜像仓库:系统自带docker镜像仓库,实现镜像的保存,推送和下载
镜像列表:查看镜像仓库中的镜像列表,查看镜像的名称、标签、创建时间等信息
镜像元数据查看:查看镜像的OS类型、kernel的版本、python版本以及安装的packages、python3版本以及安装的packages
镜像上传:上传docker镜像tar包并保存到镜像仓库;上传Dockerfile,系统生成镜像并保存到镜像仓库。
镜像下载:从docker hub搜索、下载镜像并保存到镜像仓库。
镜像定制:选定基础镜像和需要安装的python packages,制作新的镜像并保存到镜像仓库。
显示镜像操作进度:对镜像上传、下载和定制,显示详细进度和消息。
自由镜像:启动选定镜像为容器,用户通过ssh登录到console,安装packages,配置环境,完成后提交为新的镜像。
镜像隔离:镜像分为公共镜像和私有镜像,公共镜像由管理员维护,所有用户均可读取。用户私有镜像相互隔离,无法相互访问。
预置镜像:系统内置tensorflow,caffe,pytorch,tensorboard等镜像
四、资源管理
节点伸缩:增加、删除系统节点
节点资源配置:查看节点硬件资源配置,包括CPU,GPU,Mem和磁盘
节点剩余资源展示:创建任务时,用户可以查看节点上剩余资源,避免因单个节点资源不足导致任务调度失败
资源分区;将集群资源在逻辑上划分为不同的分组,不同的分组设置不同的资源数量,满足不同项目组的资源使用和隔离需求
资源配额:支持对用户和分区设置资源的配额,包括CPU、GPU、Mem,用户使用的资源总和不能超过配额,分区任务消耗的资源总和不能超过配额
异常显示:当服务器,网络,GPU卡等硬件发生异常时,Web GUI上会显示相应的异常信息,提示用户进行处理。
节点IPMI链接:通过节点IPMI链接查看IPMI详细信息,帮助管理员定位硬件故障和问题
节点服务监控:监控节点服务运行状态,可以在Web GUI上查看节点上重要服务是否运行正常。
分区配额关联GPU类型:创建分区时,可以针对具体的GPU卡类型限定数量
个人配额关联GPU类型:编辑个人配额时,可以针对具体的GPU卡类型限定数量
空闲交互式任务释放:交互式任务支持空闲时间属性,当空闲超过设定的时长,显示警告提示管理员进行删除
节点资源监控:监控节点资源使用率,包括CPU使用率,GPU使用率,内存,硬盘等信息,并记录日志,可以在web界面上以图表方式查看历史信息。
五、数据存储
分布式存储:支持常用的分布式存储例如gluster、lustre等
IB存储网络:分布式存储支持IB高速网络和RDMA,数据读写效率高。
NAS共享存储:支持NAS共享存储。
本地数据缓存:NFS数据支持本地数据缓存,提高IO性能
创建卷:支持创建分布式卷、冗余卷以及条带化卷。
多存储卷:支持基于GlusterFS和NFS的多个卷同时共存和使用
查看卷:查看卷的使用百分比,展示卷关联用户的使用空间统计排名。
数据管理:支持数据上传、下载、删除、压缩、解压、复制、移动和内容浏览
FTP接口:支持通过ftp上传和下载大数据
公共数据:自动创建公共数据空间,由管理员维护,所有用户均可以读取和使用公共数据。
公共数据挂载:用户运行任务时,公共数据以只读方式挂载在用户容器中,避免拷贝
数据共享:支持把私有数据共享给组和用户,支持取消共享;共享的数据可以被目的用户读取和拷贝。
数据空间配额:针对用户指定存储空间配额,用户存储空间大小不能超过配额限制。
六、模型训练
工作目录设定:用户在运行离线任务时可以设定工作目录
离线训练:用户上传项目后,可以提交任务启动模型训练,提交任务需要指定入口程序、机器学习框架、资源需求、分区和使用的镜像。
Shell脚本启动离线任务:用户通过自定义的Shell脚本启动训练任务,适应conda使用习惯和特殊场景
Tensorflow分布式:支持TensorFlow框架的多机多卡分布式训练
Horovod分布式:基于Horovod的分布式训练,支持Tensorflow、PyTorch、MxNet,极大降低用户开发分布式训练的难度;容器之间通过基于SR-IOV的高速虚拟网卡通信,大大提高训练性能
任务模板:用户通过自定义任务模板,设置模板参数,可以快速启动任务,提高效率
超参数调整:启动模型训练任务时,通过key-value对的形式设置超参数。
模型训练可视化:支持使用TensorBoard、Visdom、VisualDL、MxBoard等工具对Tensorflow、PyTorch、MxNet的训练过程进行可视化
训练日志:支持实时查看任务训练过程中的log输出
任务管理:查看当前被调度、正在运行,暂停和已完成的任务,删除、暂停和继续任务。
任务详情:查看任务程序入口、资源需求、分区、学习框架、开始结束时间和成功状态与消息。
任务资源统计:显示训练任务的CPU,GPU和Mem的实时使用率,任务运行结束时统计任务运行过程资源的使用情况。
任务调度:根据任务的CPU、GPU和Mem的需求,以及对GPU卡型号的选择,动态调度任务到最优的节点上,保证资源使用的效率。
任务优先级:用户提交任务可以选定优先级,管理员可以调整任务队列顺序和任务的优先级
任务预约:用户可以预约任务执行的时间和频率
GPU多容器共享:GPU可以在多个容器之间进行共享
任务容错:运行失败的任务会在指定次数内自动重启
模型开发调试:Jupyter启动Jupyter notebook进行交互式开发和调试
JupyterLab启动JupyterLab进行交互式开发和调试
PyCharm启动图形化任务,通过Web VNC连接并在PyCharm中进行开发和调试
Remote Debug启动Terminal或Desktop任务,在本地PyCharm中进行代码同步和远程调试
Terminal启动Terminal,通过ssh连接容器进行开发调试
开发任务管理:启动、暂停、删除模型开发调试任务
七、模型产出
模型导出:支持导出训练好的模型
模型部署:训练完毕的Tensorflow模型使用TensorServing进行部署,对外提供服务和测试功能
监控中心:监控报表提供节点、分区、集群层次的统计报表,方便管理员进行资源使用的统计
GPU显存监控:显示任务GPU显存使用率
资源面板:统计系统总体资源配置、CPU、GPU、Mem使用率,节点状态,分区资源消耗和任务运行情况
节点资源统计:使用直方图显示节点CPU、GPU、Mem、网络IO、运行容器数量的实时统计
节点资源历史:显示节点CPU、GPU、Mem、网络IO的历史曲线图
分区资源统计:使用直方图显示分区CPU、GPU、Mem和任务运行的实时统计
分区资源历史:显示分区CPU、GPU、Mem的历史曲线图
GPU信息详细监控:从分区、用户、集群、任务类型等各个层次和维度展示当前GPU的空闲和占用状态
用户资源使用统计:使用图表方式对用户在选定时间段内的CPU、内存和GPU使用进行统计
卷使用统计:使用直方图显示所有卷的使用排名统计
八、系统环境
操作系统:支持Ubuntu Centos操作系统
自动启动:服务器重启后,自动启动平台服务。
内存占用低:单机版资源优化后内存使用量降至8G,16GB内存运行流畅
九、其他
在线手册:GUI界面可直接链接查看html格式的AIMax用户手册
在线升级:GUI界面可进行AI Max在线升级
其他:需提供针对本项目的厂家加盖公章的项目授权、售后服务承诺函
售后服务服务网点:不限;质保期限:3年;响应期限:报修后4小时;
采购清单3
采购商品采购数量计量单位所属分类
机械硬盘32网络设备无无
品牌品牌1Amax
型号ST2400MM0129
品牌2
型号
品牌3
型号
预算单价¥3,000.00
技术参数及配置要求2.4TB/10KRPM/256M/SAS/2.5
售后服务服务网点:不限;质保期限:3年;响应期限:报修后4小时;
采购清单4
采购商品采购数量计量单位所属分类
GPU计算节点2办公软件无无
品牌品牌1英伟达
型号A100
品牌2
型号
品牌3
型号
预算单价¥65,500.00
技术参数及配置要求A100 40GB GPU卡
CUDA Parallel-Processing 核心:6,912
NVIDIA Tensor 核心:432
GPU 显存:40 GB HBM2 ECC
GPU 显存带宽:1,555 GB/s
FP64 性能:9.7 TFLOPS
FP64 Tensor Core 性能:19.5 TFLOPS
FP32性能:19.5 TFLOPS
TF32 性能:156 TFLOPS, 312 TFLOPS (当采用采用稀疏技术时)
FP16 性能:312 TFLOPS, 624 TFLOPS(当采用采用稀疏技术时)
最大热设计功耗 (TDP):250W
散热方式:Passive
显卡PCI Express:4.0 x 16
外形规格:双宽
售后服务服务网点:不限;质保期限:3年;响应期限:报修后4小时;
采购清单5
采购商品采购数量计量单位所属分类
存储服务器1网络设备无无
品牌品牌1AMAX
型号C4036-X2
品牌2
型号
品牌3
型号
预算单价¥99,000.00
技术参数及配置要求架构:4U机架式服务器 (含导轨上架安装、调试服务)。
CPU:Intel Xeon Gold 5218R 2.1G/20Core/27.5M/125W/ * 2 颗。
内存:16GB DDR4-2933 ECC 内存 * 12 根。
内存扩展:可支持16 x DDR4 DIMM内存插槽,最大可支持4TB 3DS ECC DDR4 2933MHz RDIMM/LRDIMM。
机械硬盘:2.4TB/10KRPM/256M/SAS/2.5 * 32 块,做raid 5。
固态系统硬盘: 480GB SATA固态硬盘 * 2块,做raid 1。
固态热数据盘:960GB SATA固态硬盘 * 2块,做raid 1
存储扩展:36 x 3.5”/2.5” SATA/SAS热插拔硬盘位,其中支持4 x U.2 NVMe SSD;2 x 2.5” SATA/SAS热插拔硬盘位;2 x NVMe M.2。 含数据保护模块,支持RAID0/1/5/6/10/50等
网络接口: 板载双万兆电口+双万兆光口网卡+RJ45智能管理口。
电源:1200W 1+1冗余高效电源.
售后服务服务网点:不限;质保期限:3年;响应期限:报修后4小时;

2021-09-14 01:50:18


联系人:郝工
电话:010-68960698
邮箱:1049263697@qq.com

标签: 存储

0人觉得有用

招标
业主

-

关注我们可获得更多采购需求

关注
相关推荐
 
查看详情 免费咨询

最近搜索

热门搜索