GPU云平台存储节点和管理节点采购(GY202104899)采购公告
GPU云平台存储节点和管理节点采购(GY202104899)采购公告
项目名称 | GPU云平台存储节点和管理节点采购 | 项目编号 | GY********9 |
---|---|---|---|
公告开始日期 | 2021-09-14 01:50:18 | 公告截止日期 | 2021-09-17 02:00:00 |
采购单位 | 青岛校区公共(创新)实验教学中心 | 付款方式 | 货到验收合格后付款 |
联系人 | 中标后在我参与的项目中查看 | 联系电话 | 中标后在我参与的项目中查看 |
签约时间要求 | 到货时间要求 | 合同签订后20天内 | |
预算总价 | ¥390,000.00未公布 | ||
收货地址 | 山东大学青岛校区K2楼 | ||
供应商资质要求 | 符合《政府采购法》第二十二条规定的供应商基本条件 | ||
公告说明 |
采购商品 | 采购数量 | 计量单位 | 所属分类 |
---|---|---|---|
万兆交换机 | 1 | 台 | 网络设备无无 |
品牌品牌1 | 华为 |
---|---|
型号 | S6730S-S24X6Q-A |
品牌2 | |
型号 | |
品牌3 | |
型号 | |
预算单价 | ¥16,000.00 |
技术参数及配置要求 | 24口+6个40GE QSFP+以太网光接口。 24个10GE SFP+以太网光接口 支持的模块和线缆: GE光模块 GE-CWDM彩色光模块 GE-DWDM彩色光模块 GE光电模块 10GE SFP+光模块(不支持OSXD22N00) 10GE-CWDM光模块 10GE-DWDM光模块 1m、3m、5m、10m SFP+高速电缆 3m、10m SFP+ AOC光线缆 0.5m、1.5m SFP+专用堆叠电缆(最后16个SFP+接口支持,仅用于免配置堆叠) |
售后服务 | 服务网点:不限;质保期限:3年;响应期限:报修后4小时; |
采购商品 | 采购数量 | 计量单位 | 所属分类 |
---|---|---|---|
智能管理软件 | 1 | 套 | 办公软件无无 |
品牌品牌1 | Amax |
---|---|
型号 | AI Max |
品牌2 | |
型号 | |
品牌3 | |
型号 | |
预算单价 | ¥48,000.00 |
技术参数及配置要求 | AI Max智能管理软件,提供统一的中文web管理界面,支持web界面中英文切换;订制版Tensorflow-gpu、Caffe、PyTorch、Mxnet的各个版本镜像,对外提供下载;支持分布式存储支持IB高速网络和RDMA数据读写效率高;支持模型开发调试,启动Jupyter notebook进行交互式开发和调试,启动JupyterLab进行交互式开发和调试,支持后期无限扩容。 一、用户接口: GUI界面:提供统一的中文web管理界面,支持web界面中英文切换 命令行客户端:客户通过pip安装命令行客户端,连接集群进行操作 Restful API:系统所有功能均对外提供Restful API,方便用户进行二次开发 SDK:Java开发者可以使用已封装好的SDK进行二次开发,方便快捷 二、权限管理 用户组管理:对用户组进行管理。支持用户组创建、删除,角色设定,将用户加入或移出用户组等 用户管理:对用户进行管理。支持用户创建、删除、用户组、分区、存储卷和资源配额设定 资源限额:对用户的CPU、GPU、Mem和存储配额进行设定,限定用户能使用的资源数量 角色管理:针对系统各功能模块,定义不同的角色。通过用户组的角色设定为不同的用户设置不同的角色 功能授权:系统对不同的角色有不同的功能授权,只有特定角色的用户才能访问系统特定的功能(对所有用户接口都有效) 数据访问:用户的数据存储空间相互隔离,每个用户只能访问各自空间中的数据,无法越界访问未授权的数据 资源配额修改:用户可修改资源配额与存储卷 三、镜像管理 容器镜像:运行中容器保存为镜像 镜像分享:管理员可以提升私有镜像为公共镜像,普通用户可以分享私有镜像给其它用户;被分享的镜像保持一份拷贝,只有在同步后产生新的拷贝 本地镜像:本地环境pull和push镜像 Docker exec console:通过Docker exec console配置镜像并保存 自定义python包:镜像制作功能允许用户自定义python package 机器学习镜像库:订制版Tensorflow-gpu、Caffe、PyTorch、Mxnet的各个版本镜像,对外提供下载 NGC镜像下载:用户可以从Nvidia NGC下载镜像 镜像Label:启动任务时通过label匹配正确的镜像,加载列表 镜像仓库:系统自带docker镜像仓库,实现镜像的保存,推送和下载 镜像列表:查看镜像仓库中的镜像列表,查看镜像的名称、标签、创建时间等信息 镜像元数据查看:查看镜像的OS类型、kernel的版本、python版本以及安装的packages、python3版本以及安装的packages 镜像上传:上传docker镜像tar包并保存到镜像仓库;上传Dockerfile,系统生成镜像并保存到镜像仓库。 镜像下载:从docker hub搜索、下载镜像并保存到镜像仓库。 镜像定制:选定基础镜像和需要安装的python packages,制作新的镜像并保存到镜像仓库。 显示镜像操作进度:对镜像上传、下载和定制,显示详细进度和消息。 自由镜像:启动选定镜像为容器,用户通过ssh登录到console,安装packages,配置环境,完成后提交为新的镜像。 镜像隔离:镜像分为公共镜像和私有镜像,公共镜像由管理员维护,所有用户均可读取。用户私有镜像相互隔离,无法相互访问。 预置镜像:系统内置tensorflow,caffe,pytorch,tensorboard等镜像 四、资源管理 节点伸缩:增加、删除系统节点 节点资源配置:查看节点硬件资源配置,包括CPU,GPU,Mem和磁盘 节点剩余资源展示:创建任务时,用户可以查看节点上剩余资源,避免因单个节点资源不足导致任务调度失败 资源分区;将集群资源在逻辑上划分为不同的分组,不同的分组设置不同的资源数量,满足不同项目组的资源使用和隔离需求 资源配额:支持对用户和分区设置资源的配额,包括CPU、GPU、Mem,用户使用的资源总和不能超过配额,分区任务消耗的资源总和不能超过配额 异常显示:当服务器,网络,GPU卡等硬件发生异常时,Web GUI上会显示相应的异常信息,提示用户进行处理。 节点IPMI链接:通过节点IPMI链接查看IPMI详细信息,帮助管理员定位硬件故障和问题 节点服务监控:监控节点服务运行状态,可以在Web GUI上查看节点上重要服务是否运行正常。 分区配额关联GPU类型:创建分区时,可以针对具体的GPU卡类型限定数量 个人配额关联GPU类型:编辑个人配额时,可以针对具体的GPU卡类型限定数量 空闲交互式任务释放:交互式任务支持空闲时间属性,当空闲超过设定的时长,显示警告提示管理员进行删除 节点资源监控:监控节点资源使用率,包括CPU使用率,GPU使用率,内存,硬盘等信息,并记录日志,可以在web界面上以图表方式查看历史信息。 五、数据存储 分布式存储:支持常用的分布式存储例如gluster、lustre等 IB存储网络:分布式存储支持IB高速网络和RDMA,数据读写效率高。 NAS共享存储:支持NAS共享存储。 本地数据缓存:NFS数据支持本地数据缓存,提高IO性能 创建卷:支持创建分布式卷、冗余卷以及条带化卷。 多存储卷:支持基于GlusterFS和NFS的多个卷同时共存和使用 查看卷:查看卷的使用百分比,展示卷关联用户的使用空间统计排名。 数据管理:支持数据上传、下载、删除、压缩、解压、复制、移动和内容浏览 FTP接口:支持通过ftp上传和下载大数据 公共数据:自动创建公共数据空间,由管理员维护,所有用户均可以读取和使用公共数据。 公共数据挂载:用户运行任务时,公共数据以只读方式挂载在用户容器中,避免拷贝 数据共享:支持把私有数据共享给组和用户,支持取消共享;共享的数据可以被目的用户读取和拷贝。 数据空间配额:针对用户指定存储空间配额,用户存储空间大小不能超过配额限制。 六、模型训练 工作目录设定:用户在运行离线任务时可以设定工作目录 离线训练:用户上传项目后,可以提交任务启动模型训练,提交任务需要指定入口程序、机器学习框架、资源需求、分区和使用的镜像。 Shell脚本启动离线任务:用户通过自定义的Shell脚本启动训练任务,适应conda使用习惯和特殊场景 Tensorflow分布式:支持TensorFlow框架的多机多卡分布式训练 Horovod分布式:基于Horovod的分布式训练,支持Tensorflow、PyTorch、MxNet,极大降低用户开发分布式训练的难度;容器之间通过基于SR-IOV的高速虚拟网卡通信,大大提高训练性能 任务模板:用户通过自定义任务模板,设置模板参数,可以快速启动任务,提高效率 超参数调整:启动模型训练任务时,通过key-value对的形式设置超参数。 模型训练可视化:支持使用TensorBoard、Visdom、VisualDL、MxBoard等工具对Tensorflow、PyTorch、MxNet的训练过程进行可视化 训练日志:支持实时查看任务训练过程中的log输出 任务管理:查看当前被调度、正在运行,暂停和已完成的任务,删除、暂停和继续任务。 任务详情:查看任务程序入口、资源需求、分区、学习框架、开始结束时间和成功状态与消息。 任务资源统计:显示训练任务的CPU,GPU和Mem的实时使用率,任务运行结束时统计任务运行过程资源的使用情况。 任务调度:根据任务的CPU、GPU和Mem的需求,以及对GPU卡型号的选择,动态调度任务到最优的节点上,保证资源使用的效率。 任务优先级:用户提交任务可以选定优先级,管理员可以调整任务队列顺序和任务的优先级 任务预约:用户可以预约任务执行的时间和频率 GPU多容器共享:GPU可以在多个容器之间进行共享 任务容错:运行失败的任务会在指定次数内自动重启 模型开发调试:Jupyter启动Jupyter notebook进行交互式开发和调试 JupyterLab启动JupyterLab进行交互式开发和调试 PyCharm启动图形化任务,通过Web VNC连接并在PyCharm中进行开发和调试 Remote Debug启动Terminal或Desktop任务,在本地PyCharm中进行代码同步和远程调试 Terminal启动Terminal,通过ssh连接容器进行开发调试 开发任务管理:启动、暂停、删除模型开发调试任务 七、模型产出 模型导出:支持导出训练好的模型 模型部署:训练完毕的Tensorflow模型使用TensorServing进行部署,对外提供服务和测试功能 监控中心:监控报表提供节点、分区、集群层次的统计报表,方便管理员进行资源使用的统计 GPU显存监控:显示任务GPU显存使用率 资源面板:统计系统总体资源配置、CPU、GPU、Mem使用率,节点状态,分区资源消耗和任务运行情况 节点资源统计:使用直方图显示节点CPU、GPU、Mem、网络IO、运行容器数量的实时统计 节点资源历史:显示节点CPU、GPU、Mem、网络IO的历史曲线图 分区资源统计:使用直方图显示分区CPU、GPU、Mem和任务运行的实时统计 分区资源历史:显示分区CPU、GPU、Mem的历史曲线图 GPU信息详细监控:从分区、用户、集群、任务类型等各个层次和维度展示当前GPU的空闲和占用状态 用户资源使用统计:使用图表方式对用户在选定时间段内的CPU、内存和GPU使用进行统计 卷使用统计:使用直方图显示所有卷的使用排名统计 八、系统环境 操作系统:支持Ubuntu Centos操作系统 自动启动:服务器重启后,自动启动平台服务。 内存占用低:单机版资源优化后内存使用量降至8G,16GB内存运行流畅 九、其他 在线手册:GUI界面可直接链接查看html格式的AIMax用户手册 在线升级:GUI界面可进行AI Max在线升级 其他:需提供针对本项目的厂家加盖公章的项目授权、售后服务承诺函 |
售后服务 | 服务网点:不限;质保期限:3年;响应期限:报修后4小时; |
采购商品 | 采购数量 | 计量单位 | 所属分类 |
---|---|---|---|
机械硬盘 | 32 | 个 | 网络设备无无 |
品牌品牌1 | Amax |
---|---|
型号 | ST2400MM0129 |
品牌2 | |
型号 | |
品牌3 | |
型号 | |
预算单价 | ¥3,000.00 |
技术参数及配置要求 | 2.4TB/10KRPM/256M/SAS/2.5 |
售后服务 | 服务网点:不限;质保期限:3年;响应期限:报修后4小时; |
采购商品 | 采购数量 | 计量单位 | 所属分类 |
---|---|---|---|
GPU计算节点 | 2 | 个 | 办公软件无无 |
品牌品牌1 | 英伟达 |
---|---|
型号 | A100 |
品牌2 | |
型号 | |
品牌3 | |
型号 | |
预算单价 | ¥65,500.00 |
技术参数及配置要求 | A100 40GB GPU卡 CUDA Parallel-Processing 核心:6,912 NVIDIA Tensor 核心:432 GPU 显存:40 GB HBM2 ECC GPU 显存带宽:1,555 GB/s FP64 性能:9.7 TFLOPS FP64 Tensor Core 性能:19.5 TFLOPS FP32性能:19.5 TFLOPS TF32 性能:156 TFLOPS, 312 TFLOPS (当采用采用稀疏技术时) FP16 性能:312 TFLOPS, 624 TFLOPS(当采用采用稀疏技术时) 最大热设计功耗 (TDP):250W 散热方式:Passive 显卡PCI Express:4.0 x 16 外形规格:双宽 |
售后服务 | 服务网点:不限;质保期限:3年;响应期限:报修后4小时; |
采购商品 | 采购数量 | 计量单位 | 所属分类 |
---|---|---|---|
存储服务器 | 1 | 套 | 网络设备无无 |
品牌品牌1 | AMAX |
---|---|
型号 | C4036-X2 |
品牌2 | |
型号 | |
品牌3 | |
型号 | |
预算单价 | ¥99,000.00 |
技术参数及配置要求 | 架构:4U机架式服务器 (含导轨上架安装、调试服务)。 CPU:Intel Xeon Gold 5218R 2.1G/20Core/27.5M/125W/ * 2 颗。 内存:16GB DDR4-2933 ECC 内存 * 12 根。 内存扩展:可支持16 x DDR4 DIMM内存插槽,最大可支持4TB 3DS ECC DDR4 2933MHz RDIMM/LRDIMM。 机械硬盘:2.4TB/10KRPM/256M/SAS/2.5 * 32 块,做raid 5。 固态系统硬盘: 480GB SATA固态硬盘 * 2块,做raid 1。 固态热数据盘:960GB SATA固态硬盘 * 2块,做raid 1 存储扩展:36 x 3.5”/2.5” SATA/SAS热插拔硬盘位,其中支持4 x U.2 NVMe SSD;2 x 2.5” SATA/SAS热插拔硬盘位;2 x NVMe M.2。 含数据保护模块,支持RAID0/1/5/6/10/50等 网络接口: 板载双万兆电口+双万兆光口网卡+RJ45智能管理口。 电源:1200W 1+1冗余高效电源. |
售后服务 | 服务网点:不限;质保期限:3年;响应期限:报修后4小时; |
2021-09-14 01:50:18
标签: 存储
0人觉得有用
招标
|
- 关注我们可获得更多采购需求 |
关注 |
最近搜索
无
热门搜索
无