GPU云平台存储节点和管理节点采购（GY202104899）采购公告-采招网



GPU云平台存储节点和管理节点采购（GY202104899）采购公告

招标
山东省
发布：2021-09-14
截止：2021-09-17
附件:0

招标正文



GPU云平台存储节点和管理节点采购（GY202104899）采购公告

项目名称	GPU云平台存储节点和管理节点采购	项目编号	GY********9
公告开始日期	2021-09-14 01:50:18	公告截止日期	2021-09-17 02:00:00
采购单位	青岛校区公共（创新）实验教学中心	付款方式	货到验收合格后付款
联系人	中标后在我参与的项目中查看	联系电话	中标后在我参与的项目中查看
签约时间要求		到货时间要求	合同签订后20天内
预算总价	￥390,000.00未公布
收货地址	山东大学青岛校区K2楼
供应商资质要求	符合《政府采购法》第二十二条规定的供应商基本条件
公告说明

采购清单1

采购商品	采购数量	计量单位	所属分类
万兆交换机	1	台	网络设备无无

品牌品牌1	华为
型号	S6730S-S24X6Q-A
品牌2
型号
品牌3
型号
预算单价	￥16,000.00
技术参数及配置要求	24口+6个40GE QSFP+以太网光接口。 24个10GE SFP+以太网光接口支持的模块和线缆： GE光模块 GE-CWDM彩色光模块 GE-DWDM彩色光模块 GE光电模块 10GE SFP+光模块（不支持OSXD22N00） 10GE-CWDM光模块 10GE-DWDM光模块 1m、3m、5m、10m SFP+高速电缆 3m、10m SFP+ AOC光线缆 0.5m、1.5m SFP+专用堆叠电缆（最后16个SFP+接口支持，仅用于免配置堆叠）
售后服务	服务网点:不限;质保期限:3年;响应期限:报修后4小时;

采购清单2

采购商品	采购数量	计量单位	所属分类
智能管理软件	1	套	办公软件无无

品牌品牌1	Amax
型号	AI Max
品牌2
型号
品牌3
型号
预算单价	￥48,000.00
技术参数及配置要求	AI Max智能管理软件，提供统一的中文web管理界面，支持web界面中英文切换；订制版Tensorflow-gpu、Caffe、PyTorch、Mxnet的各个版本镜像，对外提供下载；支持分布式存储支持IB高速网络和RDMA数据读写效率高；支持模型开发调试，启动Jupyter notebook进行交互式开发和调试，启动JupyterLab进行交互式开发和调试，支持后期无限扩容。一、用户接口： GUI界面：提供统一的中文web管理界面，支持web界面中英文切换命令行客户端：客户通过pip安装命令行客户端，连接集群进行操作 Restful API：系统所有功能均对外提供Restful API，方便用户进行二次开发 SDK：Java开发者可以使用已封装好的SDK进行二次开发，方便快捷二、权限管理用户组管理：对用户组进行管理。支持用户组创建、删除，角色设定，将用户加入或移出用户组等用户管理：对用户进行管理。支持用户创建、删除、用户组、分区、存储卷和资源配额设定资源限额：对用户的CPU、GPU、Mem和存储配额进行设定，限定用户能使用的资源数量角色管理：针对系统各功能模块，定义不同的角色。通过用户组的角色设定为不同的用户设置不同的角色功能授权：系统对不同的角色有不同的功能授权，只有特定角色的用户才能访问系统特定的功能（对所有用户接口都有效）数据访问：用户的数据存储空间相互隔离，每个用户只能访问各自空间中的数据，无法越界访问未授权的数据资源配额修改：用户可修改资源配额与存储卷三、镜像管理容器镜像：运行中容器保存为镜像镜像分享：管理员可以提升私有镜像为公共镜像，普通用户可以分享私有镜像给其它用户；被分享的镜像保持一份拷贝，只有在同步后产生新的拷贝本地镜像：本地环境pull和push镜像 Docker exec console：通过Docker exec console配置镜像并保存自定义python包：镜像制作功能允许用户自定义python package 机器学习镜像库：订制版Tensorflow-gpu、Caffe、PyTorch、Mxnet的各个版本镜像，对外提供下载 NGC镜像下载：用户可以从Nvidia NGC下载镜像镜像Label：启动任务时通过label匹配正确的镜像，加载列表镜像仓库：系统自带docker镜像仓库，实现镜像的保存，推送和下载镜像列表：查看镜像仓库中的镜像列表，查看镜像的名称、标签、创建时间等信息镜像元数据查看：查看镜像的OS类型、kernel的版本、python版本以及安装的packages、python3版本以及安装的packages 镜像上传：上传docker镜像tar包并保存到镜像仓库；上传Dockerfile，系统生成镜像并保存到镜像仓库。镜像下载：从docker hub搜索、下载镜像并保存到镜像仓库。镜像定制：选定基础镜像和需要安装的python packages，制作新的镜像并保存到镜像仓库。显示镜像操作进度：对镜像上传、下载和定制，显示详细进度和消息。自由镜像：启动选定镜像为容器，用户通过ssh登录到console，安装packages，配置环境，完成后提交为新的镜像。镜像隔离：镜像分为公共镜像和私有镜像，公共镜像由管理员维护，所有用户均可读取。用户私有镜像相互隔离，无法相互访问。预置镜像：系统内置tensorflow，caffe，pytorch，tensorboard等镜像四、资源管理节点伸缩：增加、删除系统节点节点资源配置：查看节点硬件资源配置，包括CPU,GPU，Mem和磁盘节点剩余资源展示：创建任务时，用户可以查看节点上剩余资源，避免因单个节点资源不足导致任务调度失败资源分区；将集群资源在逻辑上划分为不同的分组，不同的分组设置不同的资源数量，满足不同项目组的资源使用和隔离需求资源配额：支持对用户和分区设置资源的配额，包括CPU、GPU、Mem，用户使用的资源总和不能超过配额，分区任务消耗的资源总和不能超过配额异常显示：当服务器，网络，GPU卡等硬件发生异常时，Web GUI上会显示相应的异常信息，提示用户进行处理。节点IPMI链接：通过节点IPMI链接查看IPMI详细信息，帮助管理员定位硬件故障和问题节点服务监控：监控节点服务运行状态，可以在Web GUI上查看节点上重要服务是否运行正常。分区配额关联GPU类型：创建分区时，可以针对具体的GPU卡类型限定数量个人配额关联GPU类型：编辑个人配额时，可以针对具体的GPU卡类型限定数量空闲交互式任务释放：交互式任务支持空闲时间属性，当空闲超过设定的时长，显示警告提示管理员进行删除节点资源监控：监控节点资源使用率，包括CPU使用率，GPU使用率，内存，硬盘等信息，并记录日志，可以在web界面上以图表方式查看历史信息。五、数据存储分布式存储：支持常用的分布式存储例如gluster、lustre等 IB存储网络：分布式存储支持IB高速网络和RDMA，数据读写效率高。 NAS共享存储：支持NAS共享存储。本地数据缓存：NFS数据支持本地数据缓存，提高IO性能创建卷：支持创建分布式卷、冗余卷以及条带化卷。多存储卷：支持基于GlusterFS和NFS的多个卷同时共存和使用查看卷：查看卷的使用百分比，展示卷关联用户的使用空间统计排名。数据管理：支持数据上传、下载、删除、压缩、解压、复制、移动和内容浏览 FTP接口：支持通过ftp上传和下载大数据公共数据：自动创建公共数据空间，由管理员维护，所有用户均可以读取和使用公共数据。公共数据挂载：用户运行任务时，公共数据以只读方式挂载在用户容器中，避免拷贝数据共享：支持把私有数据共享给组和用户，支持取消共享；共享的数据可以被目的用户读取和拷贝。数据空间配额：针对用户指定存储空间配额，用户存储空间大小不能超过配额限制。六、模型训练工作目录设定：用户在运行离线任务时可以设定工作目录离线训练：用户上传项目后，可以提交任务启动模型训练，提交任务需要指定入口程序、机器学习框架、资源需求、分区和使用的镜像。 Shell脚本启动离线任务：用户通过自定义的Shell脚本启动训练任务，适应conda使用习惯和特殊场景 Tensorflow分布式：支持TensorFlow框架的多机多卡分布式训练 Horovod分布式：基于Horovod的分布式训练，支持Tensorflow、PyTorch、MxNet，极大降低用户开发分布式训练的难度；容器之间通过基于SR-IOV的高速虚拟网卡通信，大大提高训练性能任务模板：用户通过自定义任务模板，设置模板参数，可以快速启动任务，提高效率超参数调整：启动模型训练任务时，通过key-value对的形式设置超参数。模型训练可视化：支持使用TensorBoard、Visdom、VisualDL、MxBoard等工具对Tensorflow、PyTorch、MxNet的训练过程进行可视化训练日志：支持实时查看任务训练过程中的log输出任务管理：查看当前被调度、正在运行，暂停和已完成的任务，删除、暂停和继续任务。任务详情：查看任务程序入口、资源需求、分区、学习框架、开始结束时间和成功状态与消息。任务资源统计：显示训练任务的CPU，GPU和Mem的实时使用率，任务运行结束时统计任务运行过程资源的使用情况。任务调度：根据任务的CPU、GPU和Mem的需求，以及对GPU卡型号的选择，动态调度任务到最优的节点上，保证资源使用的效率。任务优先级：用户提交任务可以选定优先级，管理员可以调整任务队列顺序和任务的优先级任务预约：用户可以预约任务执行的时间和频率 GPU多容器共享：GPU可以在多个容器之间进行共享任务容错：运行失败的任务会在指定次数内自动重启模型开发调试：Jupyter启动Jupyter notebook进行交互式开发和调试 JupyterLab启动JupyterLab进行交互式开发和调试 PyCharm启动图形化任务，通过Web VNC连接并在PyCharm中进行开发和调试 Remote Debug启动Terminal或Desktop任务，在本地PyCharm中进行代码同步和远程调试 Terminal启动Terminal，通过ssh连接容器进行开发调试开发任务管理：启动、暂停、删除模型开发调试任务七、模型产出模型导出：支持导出训练好的模型模型部署：训练完毕的Tensorflow模型使用TensorServing进行部署，对外提供服务和测试功能监控中心：监控报表提供节点、分区、集群层次的统计报表，方便管理员进行资源使用的统计 GPU显存监控：显示任务GPU显存使用率资源面板：统计系统总体资源配置、CPU、GPU、Mem使用率，节点状态，分区资源消耗和任务运行情况节点资源统计：使用直方图显示节点CPU、GPU、Mem、网络IO、运行容器数量的实时统计节点资源历史：显示节点CPU、GPU、Mem、网络IO的历史曲线图分区资源统计：使用直方图显示分区CPU、GPU、Mem和任务运行的实时统计分区资源历史：显示分区CPU、GPU、Mem的历史曲线图 GPU信息详细监控：从分区、用户、集群、任务类型等各个层次和维度展示当前GPU的空闲和占用状态用户资源使用统计：使用图表方式对用户在选定时间段内的CPU、内存和GPU使用进行统计卷使用统计：使用直方图显示所有卷的使用排名统计八、系统环境操作系统：支持Ubuntu Centos操作系统自动启动：服务器重启后，自动启动平台服务。内存占用低：单机版资源优化后内存使用量降至8G，16GB内存运行流畅九、其他在线手册：GUI界面可直接链接查看html格式的AIMax用户手册在线升级：GUI界面可进行AI Max在线升级其他：需提供针对本项目的厂家加盖公章的项目授权、售后服务承诺函
售后服务	服务网点:不限;质保期限:3年;响应期限:报修后4小时;

采购清单3

采购商品	采购数量	计量单位	所属分类
机械硬盘	32	个	网络设备无无

品牌品牌1	Amax
型号	ST2400MM0129
品牌2
型号
品牌3
型号
预算单价	￥3,000.00
技术参数及配置要求	2.4TB/10KRPM/256M/SAS/2.5
售后服务	服务网点:不限;质保期限:3年;响应期限:报修后4小时;

采购清单4

采购商品	采购数量	计量单位	所属分类
GPU计算节点	2	个	办公软件无无

品牌品牌1	英伟达
型号	A100
品牌2
型号
品牌3
型号
预算单价	￥65,500.00
技术参数及配置要求	A100 40GB GPU卡 CUDA Parallel-Processing 核心：6,912 NVIDIA Tensor 核心：432 GPU 显存：40 GB HBM2 ECC GPU 显存带宽：1,555 GB/s FP64 性能：9.7 TFLOPS FP64 Tensor Core 性能：19.5 TFLOPS FP32性能：19.5 TFLOPS TF32 性能：156 TFLOPS, 312 TFLOPS （当采用采用稀疏技术时） FP16 性能：312 TFLOPS, 624 TFLOPS（当采用采用稀疏技术时）最大热设计功耗 (TDP)：250W 散热方式：Passive 显卡PCI Express：4.0 x 16 外形规格：双宽
售后服务	服务网点:不限;质保期限:3年;响应期限:报修后4小时;

采购清单5

采购商品	采购数量	计量单位	所属分类
存储服务器	1	套	网络设备无无

品牌品牌1	AMAX
型号	C4036-X2
品牌2
型号
品牌3
型号
预算单价	￥99,000.00
技术参数及配置要求	架构：4U机架式服务器（含导轨上架安装、调试服务）。 CPU：Intel Xeon Gold 5218R 2.1G/20Core/27.5M/125W/ * 2 颗。内存：16GB DDR4-2933 ECC 内存 * 12 根。内存扩展：可支持16 x DDR4 DIMM内存插槽，最大可支持4TB 3DS ECC DDR4 2933MHz RDIMM/LRDIMM。机械硬盘：2.4TB/10KRPM/256M/SAS/2.5 * 32 块，做raid 5。固态系统硬盘： 480GB SATA固态硬盘 * 2块，做raid 1。固态热数据盘：960GB SATA固态硬盘 * 2块，做raid 1 存储扩展：36 x 3.5”/2.5” SATA/SAS热插拔硬盘位，其中支持4 x U.2 NVMe SSD；2 x 2.5” SATA/SAS热插拔硬盘位；2 x NVMe M.2。含数据保护模块，支持RAID0/1/5/6/10/50等网络接口：板载双万兆电口+双万兆光口网卡+RJ45智能管理口。电源：1200W 1+1冗余高效电源.
售后服务	服务网点:不限;质保期限:3年;响应期限:报修后4小时;

2021-09-14 01:50:18

联系人：郝工
电话：010-68960698
邮箱：1049263697@qq.com

标签: 存储

 0人觉得有用

招标
业主

-

关注我们可获得更多采购需求

 关注

相关推荐

查看详情

免费咨询



搜索

 最近搜索

无

 热门搜索

无