工业大学工程结构材料损伤仿真试验高性能计算平台

工业大学工程结构材料损伤仿真试验高性能计算平台

西北工业大学受用户委托,对工程结构材料损伤仿真试验高性能计算平台采购项目以公开招标方式进行采购,现邀请合格的投标人前来投标。

设备主要功能和用途:

一、本项目为工程结构材料损伤仿真试验的高性能科学计算硬件平台,保证仿真试验系统高效运行,适应重大工程结构材料服役安全研究对数字仿真的要求。

技术要求

概述:


此次招标采购为工程结构材料损伤仿真试验的高性能科学计算硬件平台,保证仿真试验系统高效运行,适应重大工程结构材料服役安全研究对数字仿真的要求。
本技术要求为最低配置要求,投标方案必须高于或远高于本技术要求。具体要求如下:
一、目标与技术性能指标
数字化硬件子系统的主要任务是保证仿真试验系统高效运行,适应重大工程结构材料服役安全研究对大规模计算任务、可视化处理和大容量数据存储的要求。数字化子系统的设计目标是:

l 满足仿真系统各应用软件的特点和需求

l 具有多任务并行处理能力

l 高计算效率和高可靠性

按照能够同时进行2-3个大型项目的仿真试验任务进行高性能计算性能设计:

l 计算能力:大于32Tflops;

l 仿真试验数据存储能力:不小于160TB;

l 体系架构:SMP、集群、InfiniBand;

l 操作系统:Unix、Linux、Windows;

l 开发语言:C、C++、C#、Fortran77、Fortran90、JAVA等;

l 应用支持:支持目前主流的工程仿真分析软件应用,如表1所示。

表1 数字化硬件子系统的应用支持
方法
软件
并行CPU数目
适用平台 (编程模型,新版本)

FEA
ANSYS Mechanical
8
Linux 平台

MSC.Nastran
8
Unix 平台

MAC.Marc
~16
Unix 平台

ABAQUS
~32
Unix 平台

LS-Dyna/MSC.Dytran
~32
Linux 平台

CFD
CFX
~32
Linux 平台

Fluent
~32
Linux 平台

BEM
BEASY
~8
Windows平台

MD
Material Studio
32
Unix 平台

可视化
Opticore
8
Linux 平台

Ensight
8
Linux 平台


二、设计方案与主要参数
工程结构材料损伤仿真系统需要采用先进的计算机及辅助技术,实现计算分析和结果还原等主要过程的数字化模拟,提高分析研究的效率和精度,满足各种大型应用的仿真需求。

用户通过网络支持服务来实现对仿真试验系统的应用,采用高性能计算集群进行仿真计算与分析,利用可视化处理与生成主机进行计算结果的可视化处理与分析,如图1所示。

图1用户应用逻辑

u设计方案

仿真试验系统数字化硬件子系统设计方案如图2所示。子系统的核心部分是高性能计算HPC集群、图形处理与生成主机、仿真数据存储、网络环境服务系统。

图2 仿真试验系统数字化硬件子系统的设计方案

(1)高性能计算集群

高性能计算集群主要解决大规模科学问题的计算和海量数据的处理。工程结构材料服役安全和失效机理研究涉及上亿节点的高精度有限元分析、多物理场耦合分析、瞬态模拟、计算流体力学计算、非线性模拟、分子动力学模拟等大规模并行计算问题,还涉及多个仿真试验任务的同时处理,以实现工程材料服役过程的多物理场耦合分析、多尺度模拟、损伤与失效过程仿真等。这些大规模复杂系统模型的求解、海量数据的处理等需要以高性能计算集群作支撑。

高性能计算集群是仿真试验系统硬件环境的核心部分,设计时重点考虑了高性能、高可靠性、可扩充性,可管理性和对应用软件的支持及兼容性等因素。

高性能计算集群采用选用基于SMP架构的高性能计算机加上并行计算节点的配置方案,两者在高性能计算任务调度软件的调度下组成统一的高性能计算平台。其中,基于SMP架构的高性能计算机能够满足需要大内存环境的应用软件,如分子模拟软件等。

根据高性能计算集群的节点类型和相应功能,可以把点划分为以下几种类型:

l 用户节点

l 管理节点

l I/O节点

l 计算节点

高性能计算集群的各节点需要通过网络连接起来,其中包括管理网络、算网络、终端网络和KVM网络。

管理网络主要用于集群系统的管理,例如管理节点对计算节点的管理,包括初期系统的安装下发,任务的分配,负载的平衡等等,应用软件服务节点也可以通过管理网络负责应用软件的分发和调配。管理网络采用千兆以太组网。

计算节点和I/O节点用这个网络进行通常的网络I/O。计算网络的性能直接影响到HPC计算的性能。计算网络采用Infiniband技术。

终端网络是集群系统与外界网络连接的接口。其他网络的主机可以通过终端网络与高性能计算服务器交换数据。也可以进行作业提交、远程管理等工作。终端网络采用千兆以太组网。

KVM网络是KVM 设备和各节点连接的星形网络。KVM是指Keyboard、Video和Mouse。通过KVM 设备的切换,管理员可以方便地管理各个节点。

(2)仿真数据存储服务系统

仿真数据存储服务系统对仿真试验过程中所产生的大量数据进行高速存储,为高性能计算服务器和图形处理与生成主机提供数据访问。仿真数据存储服务系统的功能包括中间结果缓存、最终结果存储以及数据的备份和恢复。

仿真数据存储服务系统采用SAN架构,支持在线扩充。为保证数据存储系统与高性能计算服务器和图形处理与生成主机匹配,配置多台I/O服务器,采用海量并行文件系统,以提高大规模运算时的数据存取速度,从而提高整个高性能计算和图形处理的运算性能。

仿真数据存储服务系统由以下设备构成:

l 数据存储部分:大容量高性能磁盘阵列、存储管理软件、SAN交换机

l 数据备份与恢复部分:数据备份及恢复软件

l 共享文件系统部分:海量并行共享文件系统、I/O服务器

(3)管理子系统

为用户终端子系统提供访问仿真平台的门户系统,实现整个仿真平台的资源管理、作业调度。

目前的仿真软件厂商已经帮助建立了比较完善的管理工作平台,用户不但可以使用专业的软件,也可以借助集成协同仿真环境管理自己的项目。

管理子系统的组成为:

l 管理系统数据库及服务器

l 资源管理服务器及软件

l 作业调度服务器及软件

l 项目管理服务器及软件

◆运算能力设计

高性能计算的具体配置指标需要依据仿真试验的对象、仿真分析软件及其对硬件系统计算能力的要求进行推算。

在设计高性能计算集群的运算能力时,遵循表1中应用系统对计算能力的要求,同时考虑满足4-6个大型项目同时进行计算的要求。

表1中各种应用软件对CPU数量的要求归纳如下:

● Unix平台:64颗

● Linux 平台:480颗

● Windows平台:32颗

合计576颗CPU,由于动作流程和软件功能的限制,单个项目几乎不可能同时运行并占满576颗CPU。假定单个项目最多同时占用60%的CPU,同时进行2个项目,则对CPU数量的需求为:

l 576×60%×2=691

按照应用模式和计算能力的需求,针对仿真的运算特点,经过对可研方案的细化,方案最终选择了分布式并行计算平台和基于SMP架构的高性能计算机这两种架构的机型:

分布式并行计算平台;设计了30个运算节点,包括30个双路刀片计算节点,采取12核CPU技术,共计720个CPU内核。

基于SMP架构的高性能计算机,采用16核处理器,共配置64个CPU内核

共计配置784个CPU内核,即使考虑到CPU内核数量与CPU数量不是简单的对等关系,以及多内核计算机能力的非线性因素,仍然能够满足应用系统691颗CPU的需求。从运算能力方面考虑,例如用ANSYS求解一个1.24亿自由度的静态有限元模型,采用16核CPU(运算能力约为0.64TFLOPS)计算,将花费4小时(实际测算)。本系统以在1小时内同时解决4-6个上述大型运算问题为目标(因动态问题的预算时间要远高于静态问题,因此4小时完成静态问题的求解比较合理),并考虑到连接效率和资源占用等因素以80%估算实际运算能力,则理论运算能力至少为:

0.64×4×6×0.8=12.288 TFLOPS

根据上述配置方案,仿真试验系统高性能计算集群的运算能力估算如表2所示。系统运算总能力为31.18TFLOPS,其中分布式计算节点运算能力为30.72TFLOPS,能够较好满足同时进行4-6个大型仿真试验任务需求,高性能计算机运算能力为0.46TFLOPS,可满足分子模拟软件等需要大内存环境的应用软件。

l 表2运算能力估算

主频

(GHZ)
单机

核数
单周期浮点运算数
运算

节点数
运算能力

(FLOPS)

基于SMP架构的高性能计算机
3.6
64
2
1
0.46T

分布式计算节点
2.5
24
16
30
30.72T

合计
-
-
-
31
31.18T

◆存储能力设计

仿真试验过程中会产生大量的过程数据,包括模型、输入输出、图片、动画等各种信息。仿真过程的数据具有大容量、实时传输等要求。

如一个大规模有限元分析问题(100,000,000自由度),其输入文件、模型文件、结果文件可达400~500GB,单个文件可达近100GB,如表3所示;一个中等规模有限元分析问题(5,000,000,自由度),文件可达50GB。仿真试验的同时还要求对过程数据进行实时的高速存取,以便在磁盘与计算服务器之间进行数据交换。

表3有限元分析过程数据量实例

计算模型
节点数
41,845,305

单元数
28,259,684

自由度
124,041,315

过程数

据文件
INPUT文件
6.5GB

DB文件(模型)
21GB

Esave文件
84GB

Rst文件(结果)
39GB

因此需要专门的存储服务系统对仿真试验过程中所产生的大量数据进行高速存储,为高性能计算服务器和图形处理与生成主机提供数据访问。

存储服务系统的选型、结构设计较大程度上影响仿真数据存储的管理效率。按照以下原则制订了容量和性能需要:

l 数据的容量和备份需求;

l 数据的备份类型(中间结果、最终结果);

l 数据的保存周期(按3年的期限);

l 估算最大的需求量(80%容量为满负荷);

l 满足集群计算多任务、多用户的特点。

仿真数据存储服务系统需要对其仿真任务的过程数据保持一定时间的备份以便调用,本方案以3年为周期。在3年周期之内,系统可能承担大型仿真任务45-60项,中型仿真任务120-150项,以此测算需要的存储容量为:(20×0.5TB+50×0.05TB)*3=37.5TB

基于上述对单任务仿真数据量的估算,考虑到其他的仿真任务和多用户、备份等各种因素,设计存储总容量为80T。并采用基于NAS的存储架构,无论从稳定性、性能,可扩展性等方面都符合仿真试验系统的需求,其可扩展性可以满足仿真试验系统未来的数据增长需求。

三、装置构成

如图3所示,按照方案设计,数字化硬件子系统由高性能计算集群、图形处理与生成主机、数据存储服务系统以及辅助系统构成。设备配置如表4所示。

(1)高性能计算集群

针对计算能力要求和运行软件的要求,仿真数据中心计算方案按照实际应用的情况配置了高性能计算服务器加集群的计算方案,配置了784颗CPU(核),总体计算能力约为31.18TFlops。

为了满足基于SMP计算软件的需要,配置4颗16核CPU,配置1024G内存。为了满足基于MPI分布式计算软件的需要,配置30节点;每节点包含2个Intel十二核处理器,128GB DDR4内存,2块600GB SAS磁盘。相应的应用软件的安装配置方案如表5所示。

图3 仿真试验系统数字化硬件子系统的构成

表4数字化硬件子系统配置

名称
配置说明
单位
数量

高性能计算集群
1、SMP计算节点:配置4颗16核CPU,,配置1024G内存.提供应用软件的运行测试报告或证明。

2、并行计算节点:配置30节点:每节点包含2个Intel十二核处理器,128GB DDR4内存,2块600GB SAS磁盘

3、任务管理调度平台;配置2台冗余任务管理调度节点;每台包含2颗12核处理器,128G内存,2*600G SAS磁盘,配置任务调度软件.

1

仿真数据存储服务系统
磁盘阵列:统一存储设备,配置双控制器,缓存≥512GB,4个40Gb QDR速率InfiniBand接口,8个万兆千兆自适应网口;采用20块8TB SAS2磁盘; 另外配置4块200GB SSD固态硬盘,用于存放热点数据以及数据库数据;冗余电源风扇配置, 支持UNIX、Windows、Linux等操作系统和集群软件系统;支持并配置数据快照、在线压缩和重复数据消除功能;并与SMP计算节点属于同一品牌。

1

表5仿真应用软件安装配置方案

方法
软件
并行CPU

数目
使用平台
部署计算平台

FEA
ANSYS Mechanical
32
Linux
并行节点

MSC.Natran
16
Unix
高性能主机

MAC.Marc
~16
Unix
高性能主机

ABAQUS
~16
Unix
高性能主机

LS-Dyna/MSC.Dytran
~128
Linux
并行节点

CFD
CFX
~128
Linux
并行节点

Fluent
~128
Linux
并行节点

BEM
BEASY
~32
Windows
并行节点

MD
Material Studio
16
Unix
高性能主机

可视化
Opticore
32
Linux
图形处理与生成主机

Ensight
32
Linux
图形处理与生成主机

建立冗余的高性能、高可用计算任务调度管理平台为用户终端子系统提供访问仿真平台的门户系统,实现整个仿真平台的资源管理、作业调度。管理平台包括2台服务器(每台包含2个 12核处理器,64G内存,2*600G硬盘)及任务调度管理软件。

任务调度采用分布式资源管理软件,可通过分配计算负载,实现异构的环境中硬件和软件资源的充分利用。

通过Portal Server 接受用户发起的任务,并且根据任务的执行的需求,包括内存,执行速度,可用软件许可等,资源管理策略安排这些任务在合适的系统上运行,当一个任务发起时,被送至任务管理,在决定了任务的需求和优先级后,任务管理通知主守护进程将任务排队,等待执行。一个执行守护进程会从队列中启动任务,并检测任务的执行直到完成。任务调度的功能包括:

l 批处理队列

l 负载均衡

l 任务统计

l 革新的动态队列和资源管理

l 动态性能数据采集

l 认证的基于加密的安全协议

l 策略管理

(2)仿真数据存储服务系统

方案针设计了基于InfiniBand的高速网络的存储架构,从存储架构上解决了集群计算对存储层的性能要求。如图5所示。

仿真数据存储服务的具体配置为:

系统磁盘阵列:配置双控制器,缓存≥512GB,4个40Gb QDR速率InfiniBand接口,8个万兆千兆自适应网口;采用20块8TB 10000RPM SAS2磁盘;4*200 SSD.冗余电源风扇配置, 支持UNIX、Windows、Linux等操作系统和集群软件系统;支持并配置数据快照、在线压缩和重复数据消除功能。

光纤存储交换机:Infiniaband 高速交换机,配置36口FDR 56GbB交换机,并配齐需要的线缆。

支持UNIX 和LINUX 客户端。

图5仿真数据存储服务系统

图5仿真数据存储服务系统

四、详细技术指标要求

4.1SMP计算节点 一台

项目
指标项
指标内容

服务器架构
★服务器架构
国内外知名品牌机架式UNIX服务器

处理器

CPU
★类型
64bit RISC架构芯片,多核多线程CPU

★主频
RISC 架构处理器必须≥3.5GHz

★总主频配置
RISC 架构当前配置主频总和≥230GHz (CPU主频×CPU总核数)

★总CPU内核
必须配置≥64核物理CPU.

★总线程数量
≥512 (CPU总内核数×每核线程数)

★高速缓存
2级缓存容量必须≥128KB/内核

3级缓存容量必须≥0.5MB/内核

内存
★内存容量
≥1024GB DDR3内存

内存插槽数
当前内存插槽数量不小于32个插槽数量

内存可扩展容量
当前主机最大物理内存必须可扩展至≥2T

硬盘
★硬盘
2块容量≥300GB,转速≥10000RPM , SAS 硬盘

支持RAID级别
支持RAID 0,1,10

★IB HCA
1块双口40Gb QDR速率InfiniBand HCA卡;

★网络接口
≥4个万兆千兆自适应以太网电端口

★电源/风扇
冗余

★安装附件
安装托架、电源线缆等

配置一个原厂42U标准机架机柜,要求配置≥2个PDU,单个PDU容量≥22kvA

系统管理
支持磁盘镜像、逻辑卷管理

有图形界面的系统管理工具,有功能全面的系统管理工具,

支持基于WEB的远程系统监控和故障诊断

虚拟化软件
★虚拟化软件及虚拟化管理
配置企业版、无功能限制的虚拟化分区软件及虚拟化管理软件,要求能够实现对小型机与X86服务器的虚拟化进行统一管理,配齐符合上述硬件配置的软件许可

CPU/内存调整
支持动态增加/减少CPU/内存;

工作负载优化
支持智能多线程技术,根据负载类型自动调整。同时支持数据库池和Web应用池。

虚拟化效率
要求采用虚拟化技术后,系统开销小于15%

操作系统
★类型
64位专用UNIX操作系统

应用
兼容32位应用

★支持中文操作系统

★支持ORACLE 9i/10g/11g/12c (64位)

支持标准
支持X/open,XPG4,POSIX,System V接口标准;支持动态可扩展日志文件系统;支持IPV6 网络协议

安全
高于(ITSEC)E3/F-C2/或(TCSEC)C2级

★中文支持
支持GB中文字符集及其内码

系统管理
支持无限买方数

支持操作系统的故障诊断、在线修补和动态升级

★网管软件
配置企业级集中网管软件及相应Agent许可,支持远程集中对硬件(小型机、X86服务器及存储等)、虚拟化及操作系统等进行统一集中远程监控和管理;

★服务
三年原厂质保服务(提供原厂商书面承诺),质保期内,故障报修<2小时到现场,软件故障修复必须≤4小时,硬件故障修复必须≤24小时

★其它
必需提供原厂商的授权书

4.2并行计算节点 一套

名称
指标要求
数量

刀片计算节点
刀片机箱
★管理模块≥1个,集成远程KVM和远程虚拟媒体;
3

★千兆(万兆上联)交换模块≥1个,对外提供≥6个RJ45千兆电口、≥2个SPF+万兆端口;

冗余散热模块;

★满配电源模块,提供 N+1或N+N冗余电源配置;

计算刀片
★Intel E5 V3系列处理器,主频≥2.5GHz,配置CPU核数量≥24核;
30

★内存≥128GB,配置≥16个内存插槽,可扩展≥512GB;

★热插拔SAS硬盘2块,单块容量≥600GB;支持RAID 0/1/10;

千兆自适应网口数量≥2个;

★56Gb FDR速率InfiniBand接口≥1个;

配置远程管理模块,支持远程监控图形界面, 可实现与操作系统无关的远程对服务器的完全控制,包括远程的开关机、重启、更新Firmware, 虚拟KVM, 虚拟软驱, 虚拟光驱等操作;

4.3 HPC Super Cluster管理/登录/IO节点 两台

指标项
指标内容

管理/登录/IO节点
机架式服务器,2U高度,

★Intel E5 V3系列处理器,主频≥2.4GHz,配置CPU核数量≥12核;

★内存≥128GB,配置≥24个内存插槽;

★热插拔SAS硬盘2块,单块容量≥600GB;支持RAID 0/1/10;

★1块≥400G PCI-E SSD企业级硬盘;

千兆自适应网口数量≥2个;

★56Gb FDR速率InifiniBand接口≥1个;

★16Gb FC HBA接口≥2个;

冗余热插拔电源及风扇;

配置远程管理模块,支持远程监控图形界面, 可实现与操作系统无关的远程对服务器的完全控制,包括远程的开关机、重启、更新Firmware, 虚拟KVM, 虚拟软驱, 虚拟光驱等操作;

4.4仿真数据存储服务系统 一套

指标项
指标内容

★基本要求
国内外知名品牌,与本项目HPC Unix节点同一品牌

★控制器
冗余双活高性能控制器

★主机接口
当前配置≥4个40Gb QRD速率InfiniBand主机接口,≥8个万兆千兆自适应以太网接口

要求支持FC SAN;

★存储架构
统一存储磁盘阵列,必须支持NFS、iSCSI以及FC SAN。

★阵列Cache
每个控制器 配置≥256G DRAM Cache

磁盘配置
★当前配置≥160T裸容量,要求转速≥7200RPM SAS2硬盘, 全部使用一个硬盘型号;配置200*4 SSD固态硬盘。

★要求最大可扩展至≥384块硬盘

要求同时支持SSD、10000rpm以及7200rpm硬盘,以便后续合理搭配各种类型硬盘;

分区数量
无限制

★磁盘管理
支持RAID 0、RAID1、RAID5、RAID6、RAID10

★冗余管理
冗余电源、冗余风扇、冗余内部总线

★管理功能
无需中断应用即可完成数据卷动态扩容,扩容过程对应用透明;配置存储图形化智能管理软件

提供一套完整的存储管理软件,盘阵可根据需要灵活划分存储空间,具备性能管理、性能分析功能,图形化管理界面

软件功能及特性
★支持并配置完全容量许可的数据压缩功能重复数据消除功能;

★支持并配置不限数量的快照及恢复功能;

★支持并配置本地卷拷贝功能;

支持Oracle数据库的混合列压缩功能;

支持Oracle智能存储协议,Oracle Database将关于各 I/O 的元数据发送给 Oracle ZFS 存储设备,让存储动态地自我调优以实现最佳性能;提供数据库和每可插拔数据库级别的可见性以获得切实洞察

异构平台的支持
支持Unix(本项目中服务器专用Unix)、Linux(SUSE、 Red Hat等)、Windows NT/2000/2003等主流操作系统,支持大型数据库管理系统(Oracle,DB2,SQL Server,Sybase等)

★网管软件
配置企业级集中网管软件及相应Agent许可,支持远程集中对硬件(小型机、X86服务器及存储等)、虚拟化及操作系统等进行统一集中远程监控和管理;

★服务
三年原厂质保服务(提供原厂商书面承诺),质保期内,故障报修<2小时到现场,软件故障修复必须≤4小时,硬件故障修复必须≤24小时

★其它
提供原厂商授权

4.5 网络、KVM、防火墙、配件

序号
功能及技术指标
参 数 要 求
数量

1
★计算网络
Mellanox FDR Infiniaband 高速交换机,

要求≥36口FDR 56GbB交换机,

并配齐项目需要的线缆
1


2
★管理网络
≥48口千兆以太网交换机,配齐所需线缆
4

3
★机柜
原厂标准42U工业机柜,可将以上设备全部安装

配置PDU模块≥2个,

每PDU含15位10A C13插座+12位16A C19插座,3个32A单相空开,含1个32A 3相5芯 IEC60309工业连接器

4
KVM管理设备
配置1U手动伸缩控制台(17寸折叠液晶显示器套件、包含鼠标、键盘等,配置KVM切换器≥8口,8条匹配线缆),机架式安装
3

5
防火墙
≥1U机架,

★吞吐量≥1G,

★配置千兆电口≥6个

★并发连接数≥100万,

★每秒新建连接数≥1万。

领先的一体化检测引擎技术,支持IPv6,包含应用识别与用户识别功能、智能流量管理、应用管控、入侵防护、病毒防护、DNS防护、应用安全防护、URL过滤、垃圾邮件过滤、数据防泄密、内容过滤、基于云租户的安全防护等安全模块,支持路由、交换、访问控制、流量管理、SNAT/DNAT、链路/服务器负载均衡、三层至七层DDoS防护、IPSec/SSL VPN、Scale out集群部署、HA、日志报表等。

产品没有用户数许可限制,提供应用特征、URL地址库、病毒特征库、IPS特征库升级服务。
1

4.6集群系统软件

1.HPC作业管理
☆商业化软件

☆满足HPC Super Cluster作业管理
1

2.集群管理
★1)商业版集群监控管理软件,与服务器设备同一品牌,并提供与系统硬件数量相匹配的许可证;

2)出具产品软件著作权证书;

3)管理软件基于B/S架构,能使用主流浏览器进行访问;

★4)可创建及管理不同权限不同组别的用户/组,支持用户在线注册及管理员审批;

★5)直观的集群物理拓扑视图,监控包括总体及各计算节点的CPU平均使用率、内存剩余率、磁盘剩余率、集群整体I/O运行,集群节点的静态属性信息、动态属性信息,显示节点的环境参数等;

★6)提供IP管理,Hosts管理,进程管理,服务管理,远程开机/关机管理,VNC管理,一键开关机等功能;

7)能够提供报表系统,能按时间体现集群系统总体运行情况;

★8)支持跨操作系统平台(windows,linux)进行监控管理;

★9)可配置节点设备在机柜中的物理位置关系;

10)支持远程命令行和Web页面两种访问模式下作业的递交、删除、查询以及队列设置等操作;

11)作业调度支持多队列管理,各个队列可设置不同管理策略、根据用户作业的运行情况动态调整用户优先级;

12)作业调度支持FIFO、抢占式以及Backfill等多种调度策略,保证大作业能够得到调度;

★13)支持浮动license管理;支持以FlexNet为license管理器的软件;支持使用其他的license管理器软件;

14)提供基于命令行的集群环境配置工具软件,实现一键配置所有节点的SSH无密码访问、RSH无密码访问、网络连通检测、IPMI配置、NFS配置、添加及删除用户、同步文件,实现有所有节点并行执行命令等功能,方便集群运维管理。

★15)提供3年现场技术支持服务
1

3.★操作系统
企业版Redhat Linux操作系统,64bit;
1

4.HPC虚拟化软件
支持接受本次HPC作业软件调度管理、支持vNUMP、支持vmkenel 对RDMA,即Hypervisor Bypass功能,支持浮点运算功能,支持QDR infiniBand。提供infiniBand Bandwidth with VM DirectPath I/O测试数据图表数据,提供VM DirectPath I/O (RDMA Read, Send/Receive Polling)时钟周期测试图表数据。提供和Native节点运行对比率图表。以上软件功能需要向用户提供合法使用各关键节点及功能软件许可。
1

5.并行环境
1) 安装基于64操作系统并兼容32位系统的GNU(gfortran,gcc,g++)编译器;

2) 安装OpenMPI,MVAPICH, MPICH2,OpenMP,PVM等并行编程环境与调试开发工具;

安装GotoBLAS, LAPACK, SCALAPACK, FFTW,GSL等数学库;

集群管理工具:包括并行shell,系统自动安装与部署,集群软件包管理等功能,支持大规模升级或修改配置,支持服务器远程IPMI管理、硬件维护,常用数学函数库、常用开源应用软件一键安装;
1

五、工程结构材料损伤仿真软件协同仿真测试硬件环境

为了保证仿真试验系统性能,适应重大工程结构材料服役安全研究对协同仿真任务的要求。提供工程结构材料损伤仿真软件协同仿真测试硬件环境,具体硬件的基本性能需求:

l 计算能力:大于3.5Tflops;(覆盖航空、航天、核电等领域)

l 协同仿真试验数据存储能力:32TB;(满足基本协同设计仿真过程展示数据的存储需求)

l 操作系统:Unix、Linux、Windows;(满足基本协同设计和数据库需求)

l 开发语言:满足目前主流开发语言的需求:C、C++、Fortran 77、Fortran 90、JAVA等;

l 体系架构:SMP、集群

l 应用支持:支持目前主流的工程仿真分析软件应用,

具体技术指标

集群硬件

序号
名称
简要描述
数量
备注

1
刀片计算节点
刀片平台
管理模块≥1个,集成远程KVM和远程虚拟媒体;

千兆(万兆上联)交换模块≥1个,对外提供≥6个RJ45千兆电口+≥2个SPF+万兆端口;

冗余散热模块≥5个;

冗余电源模块≥2000W;数量≥4个;提供N+1或N+N电源冗余配置;
1

计算刀片
Intel E5 V3系列处理器,主频≥2.4GHz,配置CPU核数量≥16核;

内存≥64GB,配置16个内存插槽;

热插拔SAS硬盘≥2块,单块容量≥600GB;支持RAID 0/1/10;

千兆自适应网口数量≥2个;

配置远程管理模块,支持远程监控图形界面, 可实现与操作系统无关的远程对服务器的完全控制,包括远程的开关机、重启、更新Firmware, 虚拟KVM, 虚拟软驱, 虚拟光驱等操作;
10

2
管理/登录/IO节点
机架式PC服务器,2U高度,Intel E5 V3系列处理器,主频≥2.4GHz,配置CPU核数量 ≥8核;内存≥64GB;热插拔SAS硬盘≥3块,单块容量 ≥600GB;支持RAID 0/1/5/10;万兆千兆自适应网口数量 ≥2;16Gb FC HBA接口2个;冗余热插拔电源及风扇;配置企业级Linux软件许可,配置企业级虚拟化软件及虚拟化管理软件许可;配置企业级集中网管软件及相应Agent许可,支持远程集中对硬件(小型机、X86服务器及存储等)、虚拟化及操作系统等进行统一集中远程监控和管理;配置远程管理模块,具备并激活远程故障管理、环境监控、远程开关机以及rKVM功能及许可;
1

3
磁盘阵列
品牌: 与服务器同一品牌

存储控制器: 采用3U16盘位设计,配置≥2个存储控制器,控制器冗余设计;支持在线更换控制器,每一控制器可以独立控制所有的磁盘,RAID算法采用硬件XOR设计

缓存: 配置≥8GB Cache(非SSD或者高速Flash 充当缓存),支持扩展≥32GB缓存

缓存保护: 配置 BBU 电池保护,配置基于 Flash 的永久保护模组,不存在断电时间限制

存储协议:配置FC、iSCS数据访问协议

主机接口: 配置≥8 个 1Gb ISCSI 主机接口+4个8Gb FC主机接口,(双控)

扩展性: 最大可扩展到≥112块硬盘,预授权112块物理硬盘许可

实配容量:≥16块2TB 7200转 3.5寸SAS热插拔硬盘

RAID级别:支持 RAID 0,1,10,3,5,6

最大 LUN 数:≥1024个

分区许可:配置≥128个用户授权许可(分区许可)

多路径软件:配置128台主机路径冗余和负载均衡许可

系统管理软件:提供完整的存储系统管理软件,支持集中式 GUI 管理,在同一管理界面实现监控,提供冗余和负载均衡管理

系统兼容性:支持 WinNT,Win2000,Win2003,Win2008,Solaris, AIX, HPUX, NetWare, Red Hat Linux等主流操作系统

系统扩充性:模块化结构,具有完全在线、无需停机的扩充能力,包括系统微码升级、系统处理能力的扩充、存储容量的扩充和 IO 能力的扩充等,并支持系统的平滑扩充

电源风扇:冗余电源,冗余散热风扇设计

服务:3年原厂整机质保,3年原厂免费上门服务(提供原厂项目授权函,原厂服务承诺函,原件)
1

4
机柜
原厂标准42U工业机柜,可将以上设备全部安装

配置1个PDU模块,PDU含15位10A C13插座+12位16A C19插座,3个32A单相空开,含1个32A 3相5芯 IEC60309工业连接器
1

5
KVM管理设备
配置1U手动伸缩控制台(17寸折叠液晶显示器套件、包含鼠标、键盘等,配置KVM切换器8口,8条匹配线缆),机架式安装
1

6
管理网络
24口千兆以太网交换机,配齐所需线缆
1

系统软件

1
作业管理
☆商业化软件,

☆满足HPC Super Cluster作业管理
1

2
集群管理
★1)商业版集群监控管理软件,与服务器设备同一品牌,并提供与系统硬件数量相匹配的许可证;

2)出具产品软件著作权证书;

3)管理软件基于B/S架构,能使用主流浏览器进行访问;

★4)可创建及管理不同权限不同组别的用户/组,支持用户在线注册及管理员审批;

★5)直观的集群物理拓扑视图,监控包括总体及各计算节点的CPU平均使用率、内存剩余率、磁盘剩余率、集群整体I/O运行,集群节点的静态属性信息、动态属性信息,显示节点的环境参数等;

★6)提供IP管理,Hosts管理,进程管理,服务管理,远程开机/关机管理,VNC管理,一键开关机等功能;

7)能够提供报表系统,能按时间体现集群系统总体运行情况;

8)支持跨操作系统平台(windows,linux)进行监控管理;

★9)可配置节点设备在机柜中的物理位置关系;

10)支持远程命令行和Web页面两种访问模式下作业的递交、删除、查询以及队列设置等操作;

11)作业调度支持多队列管理,各个队列可设置不同管理策略、根据用户作业的运行情况动态调整用户优先级;

12)作业调度支持FIFO、抢占式以及Backfill等多种调度策略,保证大作业能够得到调度;

13)支持浮动license管理;支持以FlexNet为license管理器的软件;支持使用其他的license管理器软件;

14)提供基于命令行的集群环境配置工具软件,实现一键配置所有节点的SSH无密码访问、RSH无密码访问、网络连通检测、IPMI配置、NFS配置、添加及删除用户、同步文件,实现有所有节点并行执行命令等功能,方便集群运维管理。

★15)提供3年现场技术支持服务
1

3
操作系统
企业版Redhat Linux操作系统,64bit;
1

4
并行环境
3) 安装基于64操作系统并兼容32位系统的GNU(gfortran,gcc,g++)编译器;

4) 安装OpenMPI,MVAPICH, MPICH2,OpenMP,PVM等并行编程环境与调试开发工具;

安装GotoBLAS, LAPACK, SCALAPACK, FFTW,GSL等数学库;

集群管理工具:包括并行shell,系统自动安装与部署,集群软件包管理等功能,支持大规模升级或修改配置,支持服务器远程IPMI管理、硬件维护,常用数学函数库、常用开源应用软件一键安装;
1

六、保修和服务

本项目要求投标方提供全面的安装实施、性能调优、现场培训,达到真正的“交钥匙”工程,经过安装实施、现场培训,此仿真平台可以稳定上线、安全可靠运行、充分发挥性能;本项目要求投标方提供不低于三年硬(软)件24小时到现场解决问题的免费保修、售后服务的详细条款内容及续保相关条款(包括保修方式和费用)的书面文件。投标方要提供准确的到货周期,系统集成时间,产品(包括第三方产品)的保修方式。

七、安装测试和系统集成

本系统安装地点在北京昌平,安装过程及相应的费用由投标方负责,投标方应向招标方提交整套系统性能和可靠性的缜密测试方案(必须含实测浮点计算峰值的Linpack测试),如实测数据低于投标方投标时承诺的峰值,招标方有权退货并追究由此产生的相关费用的索赔;测试完成后,系统进入30天的试运行期。

安装过程中涉及的如线缆、连接件、安装支撑件等各类配件、辅材由投标方提供。

八、技术培训

中标方应对用户进行相应的技术培训。使用户能掌握有关该系统的使用、维护和管理的必要技能,达到能独立进行日常维护和系统管理等的目标,以保障所提供的设备能够正常、安全地运行。

投标方应根据上述要求在投标书中给出系统的培训方案。

九、实施服务、培训具体要求

序号
功能
详细 要 求

1
实施
1. 硬件安装、检测:
l 硬件安装

摆放位置,计算每个机柜重量,加固地板,

l 制冷匹配

计算每个机柜的热负荷,提出制冷方案

l 线缆、标签系统

连接网络、电缆、机柜须打上标签

l 计算到各机柜电负载,部署供电电缆

l 硬件检测

1. 硬件检测:对各种设备的部件进行检测,确保部件功能正常以及性能完好,同时生成部件检测报表。如有部件因某些原因不能正常工作,则更新部件,并做详细记录。

2. 磁盘阵列的配置。根据现场网络情况设置管理IP,安装管理软件,并根据需要升级固件微码。根据客户需求做需要备份平台相应的备份策略划分。

3. 交换机配置。根据现场网络情况设置。

4. 硬件设备的整体融合检测:将设备安装完成进行整体测试,同时生成检测报表,监测设备间的兼容性是否完好,运行是否正常,并做详细记录

2. 系统安装:
l 计算集群

安装OS、相应补丁;并行环境;编译器、数学库;应用软件;虚拟系统;实验环境。

l 网络、防火墙集群

Vlan;网络参数匹配应用调整;路由表调优

防火墙策略定制、参数调整。

l 存储集群、

存储软件安装、调整IO参数,数据读写策略定制

l 备份系统

软件安装、定制备份策略

l 管理集群

OS安装、虚拟化管理系统、功能安装

l 用户认证系统

软件安装、安全认证策略定制

l 监控系统。

软件安装、监控策略定制

l 作业系统

软件安装,作业策略定制

3. 系统测试:
l 计算集群Linpack测试,实测效率≥80%理论值,提供测试报告;

l 存储集群提供IOR测试,实测效率≥80%理论值,提供测试报告;

l 集群网络带宽、延迟测试Iperf测试,实测效率≥90%理论值,提供测试报告;

l 计算集群64 CPU Core Fluent(SMP模式)程序测试,提供测试报告

l 模拟每个机柜满负荷、1/2满负荷、空载时候的散热量,计算每个机柜制冷量,测试安全运行负荷状态,提供测试报告

l 模拟100、500用户的本地、远程登录,测试登录系统的带负载能力,提供测试报告

l 模拟网络主动攻击,测试防火墙的安全、性能,提供测试报告

l

4. 应用软件安装、调试、调优:
应用软件安装调试:

ANSYS Mechanical

MSC.Nastran

MAC.Marc

ABAQUS

LS-Dyna/MSC.Dytran

CFX

Fluent

BEASY

Material Studio

Opticore

Ensight等

对以上应用软件优化,提供测试报告

5.应用软件和作业调度系统集成
集成、开发统一作业界面,并预留添加新应用软件接口。

6.远程使用集群
开发远程使用软件接口,包括远程登录、远程用户管理、远程软件远程应用规则等

7.备份系统
自动备份数据、自动恢复数据,安全可靠,并且需要模拟数据备份、恢复

8.系统试运行
满负荷试运行时间为一个月,使用的应用程序请和用户商量。

9 系统验收
提供所有实施服务、培训所需技文档,请见备注表

2
培训
培训内容:

1. 系统

l 集群管理系统

l 集群作业调度

l 集群并行程序开发

l 并行集群系统

l 集群备份系统

l 集群网络系统

l 集群安全系统

2. 硬件

l 服务器

l 存储

l 网络

l 防火墙

3.培训目标

1. 用户能掌握有关该系统的使用、维护和管理的必要技能,达到能独立进行日常维护和系统管理等的目标,以保障所提供的设备能够正常、安全地运行。

售后服务
l 三年7X24小时电话、邮件支持,远程诊断

l 主动预防式服务方案

l 三年每季度一次巡检,提供巡检报告

备注:实施服务、培训所需技术文档

阶段
名称
作用
评审级别
变更控制

需求调研
《需求调研大纲》
确定需求调研的准备工作、内容、方法方式及人员和日程安排
双方现场实施负责人
双方项目负责人

《系统需求分析报告》
了解用户招标书已经明确的和没有明确但为完成上述需求必须进一步了解明确的业务需求
双方项目负责人
双方项目负责人

集成实施
《项目实施计划》
集成工作实施与设备硬件、软件安装调试的日程进度,分工。确定现场实施准备工作、人员和日程安排等
双方现场实施负责人,工程监理公司
双方项目负责人

系统安装
《安装调试进度表》

《设备软件安装手册》、《设备软件操作手册》、《设备硬件安装手册》、《设备硬件操作操作手册》
现场安装、调试和提交软、硬件的相关文档
双方现场实施负责人
双方现场实施负责人

系统与软硬件测试
《测试计划》

《测试问题卡》

《测试总结报告》
符合ISO9000质量保证体系规定的功能测试、同行间测试文档
双方现场实施负责人
双方项目负责人

系统培训
《培训计划》

《培训考勤记录》

《培训总结》
明确培训环境条件及方式,参加人员,课程课时等要求

培训记录,培训效果总结,是否达到目标
双方现场实施负责人
双方现场实施负责人

系统试运行
《软件问题及修改记录》

《硬件问题及调整纪录》
实施中发现的软、硬件问题和用户提出的具体修改意见,以及对其所作修改调整和确认记录
乙方现场负责人
双方现场实施负责人

《设备系统交付书》
设备系统已在现场安装、调试、测试、培训完成,可以进入试运行证明
乙方现场负责人
双方项目负责人

项目验收
《验收计划》《验收报告》

《到货验收汇总表》,《测试总结报告》、《试运行总结报告》《项目技术报告》《项目总结》
试运行成功,开发过程项目总结,技术总结,等验收相关文档
工程监理公司

双方现场实施负责人
工程监理公司

双方现场实施负责人

日常工作
《现场工作日程安排计划》
需在现场进行较长时间的一般工作日程安排
双方现场实施负责人
双方现场实施负责人

《用户项目报告》
较长时间不在用户现场时向乙方汇报项目进展和工作情况,
双方现场实施负责人
双方现场实施负责人

《现场工作周报》
现场工作周计划
双方现场实施负责人,工程监理公司
双方现场实施负责人

《阶段评估报告》
某阶段性目标实现后进行总结,向工程领导小组提交,为下阶段打好基础
双方项目负责人
双方项目负责人

一、项目名称:工程结构材料损伤仿真试验高性能计算平台

二、招标编号:西工大招(采)货-2016-013号

三、招标数量:1套 预算:649万人民币

四、 技术规格:详见附件1

五、 交货期: 合同签订后6个月

六、 资格审查:本项目采用资格预审方式进行

七、 投标人资格要求:

1.投标人应具有国内独立法人资格,符合《中华人民共和国政府采购法》第二十二条规定:“具有独立承担民事责任的能力;具有良好的商业信誉和健全的财务会计制度;具有履行合同所必需的设备和专业技术能力;有依法缴纳税收和社会保障资金的良好记录;在前三年内的经营活动中没有重大违法记录;符合法律、行政法规规定的其他条件”。

2.具有较强的西安本地售后服务保障体系,配有较强的专业技术队伍,能提供快速的售后服务响应。

3. 所投的主要产品须有针对本次投标的厂家专项授权书(截、开标时提供原件)

4.本项目不接受联合体投标。

八、报名时须按以下顺序提供报名资料:(复印件加盖公司红章)

1.法人授权委托书原件(法定代表人、被授权人签字和被授权人身份证原件)

2.营业执照副本

3.税务登记证副本

4.组织机构代码证

5. 投标人若为境外企业须提供外国(地区)企业常驻代表机构登记证、公司注册证书、商业登记证三证中任一证均可

6.投标人提供2014年以来同类项目合同(复印件加盖红章)1份(以合同签订日期为准)

报名时间:

2016年4月14日-4月20日(法定公休日、法定节假日除外)

每天上午8:30-11:30 下午14:30-17:00

九、资格预审说明:

*本项目采用资格预审方式进行,资格预审费200元,报名时交纳。招标人对投标报名单位进行资格预审,只有资格预审合格的单位才能参加投标,本项目具体资格预审时间、招标文件领取时间及截、开标时间另行通知。

地址:西安市友谊西路127号西工大研究生东馆517室

具体招标要求详见招标文件

十一、联系人及电话

技 术:吕胜利 139*****186

商 务:段雅安 ********635

地 址:西安市友谊西路127号西工大研究生东馆517室

西北工业大学招标与设备采购中心

2016年4月14日

标签: 损伤

0人觉得有用

招标
业主

-

关注我们可获得更多采购需求

关注
相关推荐
 
返回首页

收藏

登录

最近搜索

热门搜索