:数据工坊建模工具采购项目采购需求公开

内容
 
发送至邮箱

:数据工坊建模工具采购项目采购需求公开

一、功能及要求:一、采购项目名称:数据工坊建模工具采购项目、项目预算:*元、采购内容

序号

软件名称

功能模块

子功能模块

三级功能模块

功能描述

1

数据工坊

可视化建模

种子工厂

种子仓库

种子批量注册

(略) 表批量注册为种子。

2

种子仓库展现

模型分类过滤、模糊搜索、列表展现。

3

种子分类展现

支持按资源库、标签库、原始库、专题库等目录展现。

4

种子编辑

支持种子编辑,例如:表名、项目名、名称等基本信息。

5

种子删除

支持种子删除。

6

种子详情

对种子基本信息进行展现,例如:表名、项目名、名称,以及表抽样、表结构、表信息等基本信息。

7

种子回收箱

种子彻底删除

暂存已删除的种子,支持单条彻底删除。

8

种子恢复

暂存已删除的种子,支持单条恢复。

9

已删除种子列表展现

模糊搜索、分类搜索等功能,按主题、表名等列表展现。

10

种子批量恢复

支持批量删除的种子恢复。

11

种子批量销毁

支持批量删除的种子彻底删除。

13

模型工厂

模型仓库

模型仓库

模型简况、缩略图、列表展现。

14

模型导入

支 (略) 的模型 (略) 。

15

模型导出

(略) 的优秀模型批量导出。 (略) 模型复用。

16

模型搜索、过滤、状态统计

支持对模型仓库内的模型进行多条件搜索功能。

17

模型下次运行信息

支持对已经发布调度的模型,查看下次运行时间,以方便模型运维。

18

补录数据

支持对指定的模型进行数据的补录功能,方便系统故障时,对失败的模型进行重新运行,以维护数据的完整性。

19

取消发布

支持对已经发布的模型进行取消发布设置。

20

开启调度

支持对已经发布并且暂停调度的模型,进行调度开启设置。

21

停止调度

支持对已经发布并且开启调度的模型,进行调度停止设置。

22

注销模型

支持对指定模型进行注销,注销后的模型会进入到模型回收箱暂存。

23

模型分享

当一个模型有多人轮流开发时,支持对指定模型分享给其他用户,其他用户可以在此基础上进行开发。

24

模型克隆

当对一个 (略) 进行重新迭代,而又想留存现有模型的情况下,支持模型克隆操作,对克隆出来的模型进行迭代修改验证。

25

模型详情

支持对模型维度进行全景展示,包括模型的基本信息、开发视图、结果信息、依赖模型等功能。

26

模型生产

开发模型展现

支持我的模型、他人分享的模型分类树状图展现。

27

模型搜索

支持模型模糊搜索。

28

模型可视化画布

模型画布、可视化建模。

29

模型快捷操作

模型运行、停止、撤销、重做、删除、框选、横向对齐、纵向对齐、放大、缩小、适应画布、实际尺寸、保存为图片、刷新、快捷键帮助、保存、发布。

30

可视化模型预览

节点结果缩略图预览。

31

基本信息

模型基本信息查看,包括:版本、名称、最近更新时间、创建时间、更新人、生效日期、失效日期。

32

调度参数信息

显示模型的调度参数,包括:设置调度参数,引用参数算子。

33

版本信息

显示模型的版本信息,包括编辑人、编辑时间、编辑版本、发布状态、操作。

34

模型多tab展示

支持画布同时显示多个tab页,每个tab页一个模型。

35

新建模型

支持模型或分析任务新增,包括:模型名称、目录、描述信息。

36

模型回收箱

模型彻底删除

对暂存的已删除的模型,支持彻底删除,彻底删除后,系统不再存储任何关于此模型的信息,删除后不可恢复。

37

模型恢复

暂存已删除的模型,支持对指定模型进行恢复,恢复后,模型在模型仓库展示,可以对模型进行操作修改、发布等动作。

38

已删除模型列表展现

对存放在模型回收箱里的暂时删除的模型,支持模糊搜索、分类搜索等功能。

39

模型批量恢复

对存放在模型回收箱里的暂时删除的模型,进行批量恢复,恢复后的模型在模型仓库可见。

40

模型批量销毁

对存放在模型回收箱里的暂时删除的模型,进行批量彻底删除,删除后的模型不可恢复。

41

调度系统

手动运行

基于人工触发的方式,对指定模型进行手动全量调度运行、对指定节点运行;指定某条业务流,从头运行;指定某条业务流,运行至尾部等。

42

定时调度

模型发布时,可以开启自动调度开关,并填写相关参数,对此类的模型可以进行定时调度运行。

44

固化算子开发

新建固化模型

新建固化模型

支持新建固化模型,通过固化模型 (略) 就行抽象形成复用率较高的固化算子,丰富系统的算子库。

45

可视化固化开发

可视化固化开发

提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。

46

固化树状显示

固化树状显示

支持固化算子开发树状展现。

47

固化模糊搜索

固化模糊搜索

支持固化算子开发的模糊搜索。

48

固化配置

固化配置

支持多样化配置,包括:基本信息配置、设置输入参数、设置输出字段。

49

片段模型固化

片段模型固化

支持将选定的特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子。

50

算子库

搜索

算子名称模糊搜索

支持根据算子的名称、属性关键字进行模糊搜索。

51

算子基本属性

上游算子详情

显示上游算子的详情,包括:表信息、表结构、运行结果。

52

运行结果

算子正常运行完成后,支持可以以表格的形式抽样展现当前节点的运行结果。

53

参数说明

对算子相关参数进行详细的解析说明。

54

文件输入

本地文件输入

上传本地的excel、txt等文件作为数据资源。

55

本地历史文件快捷选择

显示历史上传的文件列表,方面用户快捷选择。

56

SFTP数据输入

支持远程SFTP文件输入成本地数据资源。

57

同名文件输入

支持远程某目录下的同名文件自动输入为本地数据资源。

58

最新文件输入

支持远程某目录下的最新文件自动输入为本地数据资源。

59

文件信息预览

支持对输入的文件按文件名名称、文件大小、 (略) 径、上传人、上传时间进行展现。

60

文件结构呈现

支持对上传的文件的文件格式进行解析,展现文件结构。

61

文件内容展现

支持对文件内容进行格式解析展现。

62

数据库输入算子

外库数据源接入

支持将外库的数据表作为数据源接入到本系统,形成本系统的数据源。

63

数据源表选择

支持按数据源和数据表选择,数据表支持模糊搜索。

64

过滤

支持常规过滤和高级过滤对数据库表进行业务过滤。

65

字段选择

支持对关注的字段进行选择。

66

结果输出

数据源基本信息

支持数据源基本信息展现,包括:数据源、表名、分区信息。

67

数据源详情

支持展现数据源的详情信息、样例数据信息的展现。

68

数据输出到本地库

支持将加工后的数据输出到本库。

69

数据输出到外库

支持将加工后的数据输出到外库。

70

数据输出到本地文件

支持将加工后的数据输出到本地文件。

71

数据输出到SFTP

支持将加工后的数据输出到远程SFTP文件。

72

字段映射

确定字段映射,提供同名映射、同行映射、取消映射。

73

注册为种子

注册种子

支持将数据可视化的分析结果注册成为数据种子资源,丰富数据种子库。

74

分区、调度增量更新

支持注册为种子的 (略) 存储、定时调度、增量更新。

75

创建表

创建新表

支持本库创建新表。

76

数据源

支持按数据源的项目模块创建表。

77

表名

支持自定义表名。

78

生命周期

支持表的生命周期设置。

79

分区信息

支持 (略) 管理。

80

表结构定义

支持表结构自定义。

81

样例算子

自定义数据样例

提供可视化方法支持构造业务场景的样例数据,包括:字段类型、字段描述、字段名称。

82

数据过滤

数据常规过滤

支持对某个字段进行单值或多值过滤。

83

数据高级过滤

支持对多个字段分别进行多种运算的组合过滤。

84

过滤值的输入

支持多种过滤值的输入方式,包括:自定义、字段、常量。

85

高级过滤算法

支持多种数据过滤算法,包括:等于、不等于、大于、大于等于、小于等于、包含、不包含、模糊匹配、前模糊、后模糊、非前模糊、非后模糊、非空、空。

86

(略) 理

字段合并

支持对前置节点的结果表进行按字段和分隔符合并,输出成新字段。

87

位置字段拆分

支持对某个字段按位置进行字段分割,并新增字段存储。

88

分隔符字段拆分

支持对某个字段按分隔符进行字段分割,并新增字段存储。

89

字符插 (略) 理

支持对单字段进行基于插入位置的字符插入操作,并新增字段存储。

90

字符替 (略) 理

支持对单字段进行基于某个字符的字符替换操作,并新增字段存储。

91

字符正则替 (略) 理

支持对单字段进行基于正则表达式的字符替换操作,并新增字段存储。

92

字段转换

支持对指定字段进行格式转换,包括:整形、绝对值、日期、时间戳。

93

字段运算

支持对单字段或两字段进行字段运算,包括:加减乘除。

94

字段翻译

支持对指定字段进行多样化运算条件的翻译,支持单字段、多字段等。

95

字段长度

支持对特定字段进行字段长度计算。

96

字段转换大小写

支持对特定字段进行大小写转换操作。

97

字段重命名

支持对输出个字段进行重命名输出。

98

数据去重

数据去重

支持按单字段、多字段对数据进行去重。

99

数据统计

数据分组统计

支持对表数据进行分组统计。

100

数据个数统计

支持对表数据相应字段进行个数统计。

101

数据次数统计

支持对表数据相应字段进行次数统计。

102

数据最大值统计

支持对表数据相应字段进行最大值统计。

103

数据最小值统计

支持对表数据相应字段进行最小值统计。

104

数据平均值统计

支持对表数据相应字段进行平均值统计。

105

数据求和

支持对表数据相应字段进行求和值统计。

106

数据开窗统计

支持对表数据相应字段进行开窗统计。

107

关键词提取

手机号提取

支持对指定数据列的内容,提取内容中的手机号。

108

邮箱提取

支持对指定数据列的内容,提取内容中的电子邮箱。

109

身份证提取

支持对指定数据列的内容,提取内容中的身份证号。

110

自定义提取

支持对指定数据列的内容,按自定义的规则进行提取。

111

数据排序(TOPN)

基本功能

支持对前置组件结果各字段进行排序。

112

升序降序

支持升序和降序。

113

分组

支持对字段进行分组排序。

114

topN

支持结果取topN获取。

115

字段聚合拼接

聚合拼接

支持对单表指定聚合字段,对单个指定字段按分隔符进行拼接形成新的字段。

116

排序去重

支持去重、排序功能。

118

列转行

多列转多行

支持对表中的指定列转成多行。

119

列值分割转多行

支持对指定列,按指定的分隔符对列值进行拆分转多行。

120

风险输出

风险描述

支持对自定义风险描述和个业务字段结果,编辑生成基于表数据的业务描述。

121

风险项设置

支持自定义设置多级的风险项。

122

风险级别

支持根据个字段的值,定义基于业务的风险项报告。

123

内连接

基本功能

支持2~5个前置节点,基于字段选择的内连接操作。

124

输出字段选择

支持基于预期结果的输出字段的选择。

125

左连接

左连接

支持基于主表的字段扩展功能,包括:主字段选择、扩展字段选择、结果字段选择等。

126

逻辑差

逻辑差

支持两表基于主字段的集合减法运算,包括:被减表数据选择、减表数据选择、结果输出字段选择等。

127

逻辑并

逻辑并

支持两个表做集合合并运算,包括:选择主表、确定两表的一个或多个运算参数、是否输出字段等功能。

128

逻辑交统计

逻辑交统计

支持2~5个前置节点,基于字段选择的逻辑交统计操作,包括:关联度填写、逻辑交个关联字段选择。

129

结果统计

支持结果清单统计,包括:关联度、总次数、在各个表中出现的次数。

130

内连接(维表碰撞)

文本关键词分析

支持文本关键词分析。

131

关键词维表分析

支持对表中的某列文本字段以及关键词表中相应一个或多个关键词字段进行关键词多运算条件的匹配分析。

132

号证合规算子

国内号码合规

支持根据输入的表字段,对国内号码进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

133

国外号码合规

支持根据输入的表字段,对国外号码进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

134

国内固话合规

支持根据输入的表字段,对国内固话进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

135

身份证合规

支持根据输入的表字段,对国内身份证进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

136

车牌合规

支持根据输入的表字段,对国内车牌进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

139

透视表

透视表分析

支持基于单列的,列行透视分析,包括:行选择、列选择、排序、列表签上限选择。

140

九宫格算子

S2九宫格算子

支持对输入的表字段,将S2字段扩展。

141

geohash九宫格算子

支持对输入的表字段,将geohash字段扩展,包括:9宫格扩展、25宫格扩展、字段选择。

142

空间算子

经纬度转geohash

支持对前置算子结果的经纬度字段,转换成geohash字段。

143

geohash转经纬度

支持对前置算子结果的geohash字段,转换成经纬度字段。

144

经纬度转S2

支持对前置算子结果的经纬度字段,转换成S2字段。

145

S2转经纬度

支持对前置算子结果的S2字段,转换成经纬度字段。

146

距离算子

距离计算

支持对两个前置算子结果的经纬度字段,遍历计算目标与目标之间的距离,包括:主表选择、经纬度字段选择、输出字段选择。

162

自定义SQL算子

运行sql

运行单条sql。

163

终止sql

终止运行sql。

164

撤销sql

对编辑的sql进行撤销编辑。

165

恢复sql

对sql进行恢复编辑。

166

查找替换sql

支持对sql代码进行查找。

167

格式化sql

对sql代码进行统 (略) 理。

168

快捷生成sql

支持快捷输入sql操作,包括:selectfrom、inner join、left join、right join、group by、order by、distict、map join、union、union all。

169

sql日志详情

支持查看sql执行的日志信息。

170

sql样例数据

支持查看sql执行结果的样例数据。

171

积分配置

sigmoid积分

支持sigmoid算法积分,包括:运算规则、参数字段X、分值最大限制。

172

对数多项积分

支持对数多项算法积分,包括:参数字段X、初始字段α、基数参数β、分值最大限制。

173

组合条件积分

支持组合条件算法积分,包括:各字段的字段运算,多条件的输入。

174

单位阶跃积分

支持单位阶跃算法积分,包括:参数字段X、初始字段α、基数参数β、分值最大限制。

175

MR算子

MR编辑

支持命令行界面,快捷编辑MR代码。

176

MR运行

支持发起一个MR的运行。

177

MR终止

支持终止一个MR的运行。

178

MR撤销

支持撤销一次MR的的编辑。

179

MR恢复

支持恢复一次MR的的编辑。

180

MR查找替换

支持模糊查找一个MR。

181

日志详情

支持查看MR的运行日志。

182

样例数据显示

支持查看MR运行结果样例数据。

183

数据源

支持选择MR运行的数据源。

184

表名

支持选择MR运行需要的表资源。

185

函数算子

基本功能

支持系统注册的函数,能够以可视化的方式提供给用户使用,不写代码的情况下使用自定义函数。

186

函数参数选择

支持对自定义函数的参数进行自主配置。

187

输出结果自定义选择

支持对函数执行结果,进行字段选配。

188

种子库

分类

按用户分类

根据用户权限,展示有权限和无权限的的数据资源。

189

按资源分类

按多种分类形式,对数据资源进行分类展示。

190

按关注分类

对用户已经标注关注的数据资源,按关注汇总分类。

191

搜索

模糊搜索

支持按种子数据模糊搜索。

192

筛选

支持按多种类别筛选。

193

种子注册

种子注册

提供可视化界面支持单个种子注册功能,注册支持种子基本信息填写、语义标注等功能。

194

种子资源属性

表信息

支持表名、项目名称、生命周期、物理存储量、 (略) 、 (略) 、表创建时间。

195

表结构

能够对表结构进行预览。

196

表数据

对表数据进行抽样展现。

197

过滤

提供常规过滤、高级过滤。

198

输出字段选择

提供对关注字段进行选择。

199

任务调度策略

提供是否依赖于种子变更的调度选择。

200

时间快捷过滤

对时间属性进行丰富的相对时间、单点时间、时间段进行过滤。

201

API库

基本信息

http类型选择

支持的http类型为get和post。

202

url填写

填写http协议的URL。

203

header

支持key、value、describtion的填写。

204

body

支持填写http请求的包体。

205

测试

基本测试

测试基本的接口调用是否畅通

206

结果展现

响应结果解析展现

支持应答结果的解析,字段包括:字段属性、字段名属性、字段描述属性、数据集属性。

207

快捷功能

文件库搜索

模糊搜索

支持按文件名名模糊搜索。

208

文件上传

文件上传

支持本地excel文件上传。

209

刷新

文件库刷新

支持文件库刷新。

210

基本功能

共享资源使用

支持共享资源如同本地种子、算子一样可视化使用。

213

共享资源

分类管理

协同分类管理。

214

模糊搜索

支持按共享资源模糊搜索。

215

共享资源刷新

支持共享资源刷新。

216

最近使用

最近使用

显示最近使用的种子信息,方面查找。

217

协同计算

数据协同

基本功能

以共享结果的方式实现跨数据中心的协同计算,支持对端以类似于本地种子的操作方式使用协同资源。

218

基本信息

支持基本信息填写,包括资源名称、资源说明等配置项。

219

(略) 选择

支持 (略) , (略) 选择,支持将工坊联盟里面注册的成员作为协同目标。

220

输出字段

支持输出字段的自定义,通过输出字段选择,支持客户自由选择可以开放给协同对端的字段个数。

221

生命周期

支持生命周期的自定义,通过修改生命周期,改变数据结果的存储时间。

222

结果跨集群协同

通过数据协同功能,提供一种在数据层面跨数据中心的协同计算能力,在数据资产拥有方来看,既能保护数据的安全性,又能满足数据使用方的需求,实现数据按需最小化使用,改变了原来全量数据交换的方式,减少了各数据中心的全量数据交换, (略) 的资源,同时各数据中心能够更安全的运维自己的数据资产。

223

模型协同

基本功能

以共享模型的方式实现跨数据中心的协同计算。

224

基本信息

支持基本信息填写,包括资源名称、资源说明。

225

(略) 选择

支持 (略) 的自定义。

226

输入参数

支持数据参数的选择和确定。

227

输出字段

支持输出字段的自定义。

228

模型跨集群协同

通过模型协同功能,提供一种在大数据建模层面的跨数据中心模型和算力的协同计算,服务方能够通过本系统跨数据中心,向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享,从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方,可以灵活的以无参或有参的方式,基于事件触发随时调用其服务方的协同模型。

229

API协同

基本功能

以API的方式实现跨数据中心的协同计算。

230

基本信息

支持基本信息填写,包括资源名称、资源说明、协同服务模式、协同控制参数等。

231

(略) 选择

支持 (略) 的自定义。

232

输入参数

支持数据参数的选择和确定。

233

输出字段

支持输出字段的自定义。

234

模型跨集群协同

通过API协同功能,提供一种以接口形式跨数据中心协同查询能力,服务方通过API协同技术,可以将本地的模型服务、数据服务封装成API接口,以协同算子的形式服务于另一个数据中心的查询或分析应用。

235

统一资源访问引擎

离线数据库对接

离线数据库对接

(略) 的查询分析接口,将可视化的分析视图转换成为查询、 (略) 租户的 (略) ,将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。
以下二选一:
1) ODPS对接服务, (略) 对接服务。
2) Hive对接服务,支持对hive数据库对接。

238

系统管理

平台管理

常量信息查看

支持系统新增的常量信息显示。

239

新增常量

支持新增常量信息,包括名称、标识、排序、描述。

240

编辑常量

支持编辑常量信息,包括名称、标识、父标识、排序、描述。

241

常量名称模糊搜索

支持对已经增加的常量进行按名称模糊搜搜。

242

删除常量

支持对已经增加的常量进行删除。

243

常量树状浏览

支持对已经增加的常量,进行树状浏览。

244

资源管理

新增数据源

支持数据源新增。

245

编辑数据源

支持对已经增加的数据源进行编辑修改,包括:名称、用户名、密码、端口等。

246

删除数据源

支持对已经添加的数据源进行删除。

247

数据源名称、标识模糊搜索

支持对已经添加的数据源进行名称、标识模糊搜索。

248

数据源类别搜索

支持对已经添加的数据源进行类别搜索。

249

数据源状态搜索

支持对已经添加的数据源进行状态搜索。

250

数据源回收箱信息

支持对已经删除的数据源进行展现。

251

按名称、表名、描述模糊搜索

支持对已经删除的数据源进行按名称、表名、描述模糊搜索。

252

按数据源类型过滤

支持对已经删除的数据源进行按数据源类型过滤。

253

按数据源状态过滤

支持对已经删除的数据源进行按数据源状态过滤。

254

平台信息

(略) 的列表展现,包括:平台名称、平台代码、平台地址、共享资源、最近访问时间、操作。

255

(略)

(略) ,包括:平台名称、平台代码、平台地址等。

256

(略)

(略) 进行参数编辑。

257

(略)

(略) 进行删除。

258

平台名称模糊搜索

(略) 模糊搜索。

259

算子信息

支持系统算子信息列表展现,包括:名称、目录、上游输入、下游适配、应用范围、状态、操作。

260

算子上下游配置

支持对算子进行编辑,包括:名称、目录、上游最大个数、排序、应用范围、下游适配范围。

261

算子查询功能

支持按算子名称模糊查询。

262

算子删除功能

支持对算子进行删除。

263

sftp远程管理信息

支持系统SFTP信息列表展现,包括:名称、主机、端口、用户名、密码、路径、状态、编码、操作。

264

新增sftp远程管理

支持系统SFTP信息新增,包括:名称、主机、端口、用户名、密码、路径。

265

编辑sftp远程管理

支持系统SFTP信息编辑,包括:名称、主机、端口、用户名、密码、路径。

266

删除sftp远程管理

支持对已经新建的sftp远程管理进行删除。

267

sftp远程管理名称模糊搜索

支持对已经新建的sftp远程管理名称模糊搜索。

268

sftp连通测试

支持对已经新建的sftp远程管理进行连通测试。

269

用户管理

用户信息展现

支持用户信息列表展现,包括:姓名、单位、注册时间、最近登录时间、状态、操作。

270

新增用户

支持新增用户信息,包括:姓名、密码、身份证号码、单位、角色。

271

编辑用户

支持对已经增加的用户进行编辑,包括:姓名、密码、身份证号码、单位、角色。

272

删除用户

支持对已经增加的用户进行删除。

273

姓名模糊搜索

支持对已经增加的用户进行姓名模糊搜索。

274

类别搜索

支持对已经增加的用户进行类别搜索。

275

状态搜索

支持对已经增加的用户进行状态搜索。

276

新增单位

新增单位目录。

277

编辑单位

对已经增加单位进行编辑。

278

查询单位

按单位名称查询。

279

删除单位

对已经增加单位进行删除。

280

单位树状展现浏览

支持单位展现浏览。

281

角色信息

支持角色信息列表展现,包括:角色名、角色组、描述、最近修改时间、操作。

282

新增角色

支持角色新增,包括:角色名、角色组、描述。

283

编辑角色

支持角色编辑,包括:角色名、角色组、描述。

284

查询角色

支持角色名称模糊搜索。

285

删除角色

支持已经增加的角色删除。

286

角色功能授权

支持对角色进行按功能菜单授权。

287

角色数据资源授权

支持对角色进行数据资源授权。

288

角色数据资源查看

支持对角色已经授权的数据源进行列表展现。

289

角色数据资源搜索

支持对角色已经授权的数据源按数据源、表名进行查找。

290

菜单信息

支持列表显示菜单信息,包括:资源名称、资源标识、描述、资源组、创建时间、操作。

291

新增菜单

支持对系统菜单信息进行新增,包括:资源名称、资源标识、描述、资源组。

292

编辑菜单

支持对系统菜单信息进行修改,包括:资源名称、资源标识、描述、资源组。

293

删除菜单

支持对系统菜单信息进行删除。

294

菜单树状展现浏览

支持菜单树状展现浏览。

295

菜单资源名称搜索

支持菜单按名称模糊搜索。

296

功能信息

支持展现系统的可分配的功能列表。

297

新增功能

支持对可分配功能进行增加,包括:资源名称、资源标识、描述、资源组。

298

编辑功能

支持对系统可分配功能信息进行修改,包括:资源名称、资源标识、描述、资源组。

299

删除功能

支持对系统可分配功能信息进行删除。

300

功能树状展现浏览

支持可分配功能树状展现浏览。

301

功能资源名称搜索

支持可分配功能按名称模糊搜索。

302

开发管理

函数信息展现

支持对函数进行浏览,包括:按平台、系统函数等进行分类浏览。

303

新增函数

支持为系统新增函数,包括:数据源类型、目录、名称、命令格式、参数说明、应用实例、用途、返回值。

304

编辑函数

支持对已经增加的函数进行各种参数编辑,包括:数据源类型、命令格式、参数说明等。

305

查询函数

支持函数名称、用途模糊查询。

306

删除函数

支持对已经增加的函数进行删除。

307

MR信息

支持已经上传MR包信息列表展现,包括:报名、包路径。

308

新增MR

支持新增MR包信息,包括:包名、包路径、应用实例。

309

编辑MR

支持编辑MR包信息,包括:包名、包路径、应用实例。

310

删除MR

支持对已经添加的MR包信息进行删除。

311

MR树状展现浏览

支持对已经上传的MR包信息进行树状浏览查询。

312

MR名称、包路径模糊搜索

支持按名称、包路径等进行模糊查询。

313

运维管理

(略)

支持系统调度可视化管理,包括以下功能模块:
运行报表:对任务数量、调度次数、执行器数量进行统计,并对日期分布进行可视化展现,运行结果进行饼状图展现。
任务管理:对任务进行列表展现,包括任务描述、运行模式生效日期、失效日期、状态等。
调度日志:对调度日志进行列表展现,包括任务描述、调度时间、结果、执行时间等。
执行器管理:对执行器进行列表展现,包括AppName、名称等。

314

公告管理

支持系统进行公告广播,例如:系统运维提前通知、建模比赛通知等。

315

日志管理

日志信息

系统日志信息列表展现,包括:操作人,操作时间,IP地址,应用模块,操作内容。

316

查询日志

支持按名称模糊搜索,按应用模块、时间段进行过滤。

317

名称模糊搜索

支持按名称模糊搜索。

318

应用模块搜索

支持按应用模块搜索。

319

应用类型搜索

支持按应用类型搜索。

320

时间段搜索

支持按日志时间段搜索。

321

一台单向隔离光闸

、技术参数及要求4.1需求分析

4.1.1可视化数据分析、建模型需求

实现低代码、可视化数据分析、建模,建立种子工厂、模型工厂、固化算子开发、算子库、种子库、API库等几大应用模块。支持五大类算子:数据输入/输出、 (略) 理、数据碰撞、业务算子、自定义算子。 (略) 进行业务算子的自我定制、扩充、丰富算子库,实现算子库的自我迭代。同时通过在本系统内进行种子的定制、扩充,实现种子库的自我迭代,从而使能系统自我完善、健全。

4.1.2协同计算需求

产 (略) 络、跨异构数据中心协同计算能力, (略) 、 (略) ,跨警种数据中心建设提供全新的技术方案。具体上需 (略) 同构、跨网同构、同网异构、跨网异构几种模式的协同计算。

4.1.3统一资源访问引擎

统一资源访问引擎 (略) 组件实现技术对接, (略) 的计算和数据能力, (略) 能力进行封装,接收可视化建模和协同计算引擎的分析任务。

4.1.4系统管理

(略) 形成整体的管理控制能力, (略) 管理、资源管理、用户管理、开发管理、运维管理、日志管理几大管理模块,支持系统稳定、安全运行。

4.1.5系统对接

为了融合到现有或即将建设的数据中心项目,需要按数据中心规划内容,实现与已经建设或规划建设的系统实现无缝对接,需要支持门户系统对接。

4.1.6性能需求

在满足本项目部署所需要的软硬件配置要求的前提下,性能指标如下:

1、系统支持静态用户数:100+。

2、系统支持并发用户数:50+。

3、单画布支撑的节点数:200+。

4、系统支持最大模型数:200+。

4.1.7安全需求

从系统安全角度,除按要求对接现有基础设施之外,系统还需支持以下安全控制点:

1、系统用户进行系统管理、安全审计、安全保密的分角色授权管理。

2、对注册的数据源进行授权管理。

3、对系统功能项进行授权管理。

4、对登记的数据中心进行授权管理。

5、对系统内协同资源进行授权。

6、系统操作日志留痕。

4.2产品总体设计

4.2.1总体架构设计

(略) 属于SAAS层服务,向下, (略) 接口,以租 (略) 提交任务;向上,以可视化建模、协同能力服务于特色应用。平台内包含统一资源访问引擎模块、种子工厂模块、模型工厂模块、协同计算模块、系统管理模块。

图 1系统架构图

统一资源访问引擎

数据工坊对外通过“统一资源访问引擎” (略) ,当前支持引擎包括:离线引擎、在线引擎以及协同计算引擎。

种子工厂

系统通过种子工厂进行数据管理,将数据以种子的形态向系统提供服务。

模型工厂

在模型工厂,通过建立模型画布,将算子、种子利用有向箭头连接,形成业务视图,构建可视化建模能力,支撑上层业务应用和微应用。系统提供丰富的算子库,具体有五大类算子:数据输入/输出、 (略) 理、数据碰撞、业务算子、自定义算子。

协同计算

(略) 的协同计算能力助力全警种进行跨数据中心数据分析和建模。

系统管理

为使系统安全高效运行, (略) 管理、资源管理、用户管理、开发管理、运维管理、日志管理功能。

4.2.2 (略) 络设计

数据工 (略) (略) 络互通, (略) 须向数据工坊开放租户, (略) 络内数据工坊以租户的 (略) (略) 提交任务。用户 (略) 络设备与数据工坊服务互联。

协同方案部署时,需要根据协同方的数量,部署相应的数据工坊,工坊之间需要通过标准边界设备套件进行“互联”。

图 2网络设计图

4.3系统功能/功能设计

4.3.1总体功能设计

本系统是一个支持零代码、可视化数据分析、建模工具,同时支持基于模型级别的协同计算能力。系统包括可视化建模、协同计算、统一资源访问引擎、系统管理、系统对接几大模块。其中可视化建模通过种子工厂、模型工厂、算子库、种子库、API库等实现可视化建模的能力;协同计算模块通过数据协同、模型协同、API协 (略) 络、跨数据中心的协同计算能力;统一 (略) (略) 对接,面 (略) 技术差异; (略) 的安全、管理、维护的角度实现整体管理能力;系统与现有门户的对接服务。

图 3功能全景图

4.3.2可视化建模

可视化建模模块包括种子工厂、模型工厂、固化算子开发、算子库、种子库、API库、快捷功能等子模块。

4.3.2.1种子工厂

种子工厂用于对注册到 (略) 表资源进行管理,包含种子仓库和种子回收箱。

1、种子仓库

种子仓库是对可用种子进行管理的系统模块,包括如下内容:

(1)种子注册、展现。

(2)对种子分类过滤、模糊搜索。

(3)对种子编辑、删除。

(4)查看种子基本信息、表信息。

2、种子回收箱

暂存已删除的种子,支持删除、恢复、模糊搜索、分类搜索等功能。

4.3.2.2模型工厂

模型工厂是建模和 (略) ,提供整套的可视化建模、分析操作界面,主要分为:模型仓库、模型生产、模型回收箱、模型任务调度几大模块。

1、模型仓库

模型仓库提供了已发布模型的展示和操作能力,对已经发布的模型在此提供全景展现,并提供搜索和人工运维干预功能。

(1)模型导入

支 (略) 的模型 (略) 。

(2)模型导出

(略) 的优秀模型批量导出。 (略) 模型复用。

(3)模型搜索、过滤、状态统计

支持对模型仓库内的模型进行多条件搜索功能。

(4)模型下次运行信息

支持对已经发布调度的模型,查看下次运行时间,以方便模型运维。

(5)补录数据

支持对指定的模型进行数据的补录功能,方便系统故障时,对失败的模型进行重新运行,以维护数据的完整性。

(6)取消发布

支持对已经发布的模型进行取消发布设置。

(7)开启调度

支持对已经发布并且暂停调度的模型,进行调度开启设置。

(8)停止调度

支持对已经发布并且开启调度的模型,进行调度停止设置。

(9)注销模型

支持对指定模型进行注销,注销后的模型会进入到模型回收箱暂存。

(10)模型分享

当一个模型有多人轮流开发时,支持对指定模型分享给其他用户,其他用户可以在此基础上进行开发。

(11)模型克隆

当对一个 (略) 进行重新迭代,而又想留存现有模型的情况下,支持模型克隆操作,对克隆出来的模型进行迭代修改验证。

(12)模型详情

支持对模型维度进行全景展示,包括模型的基本信息、开发视图、结果信息、依赖模型等功能。

2、模型生产

在种子工厂对数据按业务进行高价值提取基础上,模型工厂提供给用户一个可视化建模的研发环境,降低建模门槛。

(1)我的模型、模型模糊搜索。

(2)模型画布、可视化建模。

(3)模型保存、发布、排列、运行、暂停、停止、删除。

(4)节点结果预览。

3、模型回收箱

暂存已删除的模型,支持删除、恢复、模糊搜索、分类搜索等功能。

(1)模型彻底删除

对暂存的已删除的模型,支持彻底删除,彻底删除后,系统不再存储任何关于此模型的信息,删除后不可恢复。

(2)模型恢复

暂存已删除的模型,支持对指定模型进行恢复,恢复后,模型在模型仓库展示,可以对模型进行操作修改、发布等动作。

(3)已删除模型列表展现

对存放在模型回收箱里的暂时删除的模型,支持模糊搜索、分类搜索等功能。

(4)模型批量恢复

对存放在模型回收箱里的暂时删除的模型,进行批量恢复,恢复后的模型在模型仓库可见。

(5)模型批量销毁

对存放在模型回收箱里的暂时删除的模型,进行批量彻底删除,删除后的模型不可恢复。

4、模型任务调度

(1)手动运行

基于人工触发的方式,对指定模型进行手动全量调度运行、对指定节点运行;指定某条业务流,从头运行;指定某条业务流,运行至尾部等。

(2)定时调度

模型发布时,可以开启自动调度开关,并填写相关参数,对此类的模型可以进行定时调度运行。

4.3.2.3固化算子开发

提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。具体功能包括新建固化模型、可视化固化开发、固化模型展现、固化配置等几大功能模块。

(1)新建固化模型

支持新建固化模型,通过固化模型 (略) 就行抽象形成复用率较高的固化算子,丰富系统的算子库。

(2)可视化固化开发

提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。

(3)固化树状显示

支持固化算子开发树状展现。

(4)固化模糊搜索

支持固化算子开发的模糊搜索。

(5)固化配置

支持多样化配置,包括:基本信息配置、设置输入参数、设置输出字段。

(6)片段模型固化

支持将选定的特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子。

4.3.2.4算子库

系统支持搜索、算子基本属性查看以及几类算子,例如:数据输入/输出、 (略) 理、数据碰撞、业务算子、自定义算子。通过模型算子化进行算子的自我定制、扩充、丰富算子库;通过模型结果种子化,在系统内进行种子的定制、扩充,使能系统自我完善健全。

4.3.2.4.1搜索

支持根据算子的名称、属性关键字进行模糊搜索。

4.3.2.4.2算子基本属性

(1)上游算子详情

显示上游算子的详情,包括:表信息、表结构、运行结果。

(2)运行结果

算子正常运行完成后,支持可以以表格的形式抽样展现当前节点的运行结果。

(3)参数说明

对算子相关参数进行详细的解析说明。

4.3.2.4.3数据输入/输出类

通过数据输入类算子, (略) 以外的数据,通过输入类 (略) 参与数据分析建模。例如,文件输入、数据库输入。通过数据输出类算子,将数据分析、模型运行的 (略) 。例如,通过结果输出算子将结果输出到业务库或下载到客户端本地。

4.3.2.4.3.1文件输入

文件输入算子,用于将系统外部的依 (略) 参与运算,一般是业务库,例如:特定目标、 (略) 域等。

1、文件上传,已上传文件搜索。

2、文件基本信息、文件结构、文件内容预览。

4.3.2.4.3.2数据库输入算子

支持将外库的数据表作为数据源接入到本系统,形成本系统的数据源。

4.3.2.4.3.3结果输出

对模型结果数据输出到本地或其他数据库。

1、数据去向配置

本地:指与数据来源同库。

外部:指与数据来源不同库,选择数据源,新建或者选择现有的表,选择导入模式、导入规则,填写错误记录条数。

2、选择字段配置

数据去向配置完后,在字段映射配置中,可以选择字段映射方式或者手动连线方式进行字段映射。

4.3.2.4.3.4注册为种子算子

将数据分析、建模的结果数据,注册成种子,方便数据共享和业务库积累。

4.3.2.4.3.5创建表算子

通过算子的可视化配置, (略) 系统内创建一个物理表。

4.3.2.4.3.6样例算子

提供可视化方法支持构造业务场景的样例数据,包括:字段类型、字段描述、字段名称。

4.3.2.4.4 (略) 理类

通 (略) 理类算子,支持对数据表中数据按照字段进行分析,例如,对某个字段按规则进行多种过滤运算;对字段进行合并、拆分、转换、值运算、时间运算、翻译等运算。

4.3.2.4.4.1数据过滤

数据过滤算子,用于对前置算子结果进行按字段进行过滤,分为常规过滤、高级过滤。

1、常规过滤:对前置算子按字段进行单值或多值进行过滤。

2、高级过滤:对前置算子按字段进行14种运算条件、3种值输入方式、2种逻辑运算条件进行过滤。

4.3.2.4.4.2 (略) 理

(略) 理算子,用于将前置算子的结果按字段进行自由组合、 (略) 理,例如:字段合并、字段拆分、 (略) 理、字段转换、字段运算、字段翻译。

1、字段合并,对前置算子进行多字段合并。

2、2种字段拆分方式。

3、3 (略) 理方式。

4、4种字段类型转换。

5、4种字段算数运算。

6、10种以上的字段翻译方式。

7、字段值长度运算。

4.3.2.4.4.3数据去重

对前置算子结果按多个字段进行去重。

4.3.2.4.4.4数据统计

对前置算子结果各个字段进行个数、次数、最大值、最小值、平均值、求和等维度的统计。

4.3.2.4.4.5关键词提取

对一张表中的文本内容字段,支持按手机号码、身份证等规则进行内容提取。

4.3.2.4.4.6数据排序(TOPN)

对前置算子结果各个字段进行排序,topN展现。

4.3.2.4.4.7字段聚合拼接

对某个前置算子的几个字段进行聚合,针对聚合结果,对单个字段进行合并操作。

4.3.2.4.4.8列转行算子

支持对特定种子进行的行和列进行转换,方便进行特定场景的数据分析。

4.3.2.4.4.9风险输出算子

风险输出算子,将可视化分析的结果用用户自定义的格式输出出来。典型的场景,例如:将分析结果编辑成文本,方便通过app或短信发通知。

4.3.2.4.5数据碰撞

对表数据进行多表的数据碰撞分析。例如,对多表数据按某个关键字段进行共性的提取;对多张表按关键字段进行表合并;对多张表进行字段扩充。

4.3.2.4.5.1内连接

通过将多个前置算子集合,按照各自的指定字段进行交运算,并对运算结果后的集合进行字段关联扩展。

4.3.2.4.5.2左连接

通过将两个前置算子进行关联,对其中一个前置算子的字段进行关联扩展。

4.3.2.4.5.3逻辑差

对两个前置算子按某几个列进行逻辑差运算。

4.3.2.4.5.4逻辑并

通过将两个前置算子按某几个列进行逻辑并运算。

4.3.2.4.5.5逻辑交统计

在多个目标集合内,根据各集合的关联字段,按关联度进行逻辑交运算,并按关联度和次数进行统计。

4.3.2.4.5.6关键词维表分析

支持对表中的某列文本字段以及关键词表中相应关键词字段进行关键词多运算条件的匹配分析。

4.3.2.4.6业务算子类

将业务建模、数据分析的成果进行封装,形成通用的满足某一业务场景的算子。

4.3.2.4.6.1号证合规

对数据种子的特定字段进行合规验证,包括:国外号码、国内手机、身份证等,并能对异常数据进行过滤提取。

4.3.2.4.6.2透视表

对已知表数据进行指定行列的统计分析。

4.3.2.4.6.3九宫格算子

将前置算子结果集中的geohash字段和S2字段进行范 (略) 理,外扩层级1层、2层。

4.3.2.4.6.4空间算子

通过将经纬度与geohash(5、6、7)、S2(11、12、13、14)进行互转。

4.3.2.4.6.5距离算子

通过两个前置算子的经纬度字段进行运算,计算目标之间的距离。

4.3.2.4.7自定义类算子

自定义算子是面向高技能用户提供的,以一种友好的代码开发界面开放给用户,用户可以通过“自定义sql算子”编辑sql代码,也可以通过“python算子”编辑python代码,类似的也可以支持shell、MR类的代码编辑功能。同时,提供通用类的“IF判断”、“FOR循环”等常用的判断类开发算子。

4.3.2.4.7.1自定义sql算子

基础算子的丰富性很重要,但算子很难满足一切业务场景。另外,虽然基于算子建模降低了建模的门槛,但对技术人员来讲,灵活性受限。 (略) 提供自定义SQL算子,支持用户可以通过SQL算子编写SQL脚本,扩展了系统的建模能力。提供运行sql、终止sql、撤销sql、恢复sql、查找替换sql、格式化sql、快捷生成sql、sql日志详情、sql样例数据。

4.3.2.4.7.2积分配置

提供基于特征的打分算子。支持将是和否的特征刻画提升为对特征量化打分,提供特征量化指标。提供sigmoid积分对数多项积分、组合条件积分、单位阶跃积分算子。

sigmoid积分算子。算子提供对积分值进行sigmoid函数转换,得到转换后的特征积分打分,增加特征积分的平滑性,减少原始积分值偏差。

对数多项积分算子。算子提供对建模过程中的多项积分值进行对数转换,增加特征积分的平滑性,减少原始积分值偏差。

组合条件积分算子。算子提供对建模过程中的积分值进行条件组合,最终得到组合运算的积分值。

单位阶跃积分算子。算子提供对积分值进行单位阶跃函数转换,得到转换后的特征积分打分,增加特征积分的平滑性,减少原始积分值偏差。

4.3.2.4.7.3MR算子

MR算子即MapReduce算子。对于复杂的大规模并行运算,通过基础算子的组合很难实现,系统提供脚本编写MapReduce程 (略) ,生成MR算子,以MR算子的形式向用户提供大规模数据并行分析能力。MR算子提供MR编辑、MR运行、MR终止、MR撤销、MR恢复、MR查找替换、日志运行详情、样例数据显示等功能。

4.3.2.4.7.4函数算子

函 (略) 层面提供的基本函数包装成算子能力, (略) 上注册成为函数算子, (略) 以基本函数算子的形式提供给用户进行数据加工。提供基本功能、函数参数选择、输出结果自定义选择等功能。

4.3.2.5种子库

按用户、资源、关注情况,对种子进行分类展现,支持模糊搜索。支持种子注册功能。支持表名、项目名称、生命周期、物理存储量、 (略) 、 (略) 、表创建时间的种子资源信息查看。支持表结构的查看,表抽样数据展现。

(1)按用户分类

根据用户权限,展示有权限和无权限的的数据资源。

(2)按资源分类

按多种分类形式,对数据资源进行分类展示。

(3)按关注分类

对用户已经标注关注的数据资源,按关注汇总分类。

(4)模糊搜索

支持按种子数据模糊搜索。

(5)筛选

支持按多种类别筛选。

(6)种子注册

提供可视化界面支持单个种子注册功能,注册支持种子基本信息填写、语义标注等功能。

(7)种子资源属性

支持表信息、表结构、表数据、过滤、输出字段选择、任务调度策略、时间快捷过滤功能。

4.3.2.6API库

(略) 络内的开放接口,注册到API库中, (略) 维护一个可用的接口查询列表。 (略) 提供基于http接口的查询能力。主要包含两部分功能:一个是API的注册功能;另一个是面向建模、分析场景的API可视化应用。

1、API注册

支持将外部系统的http接口注册到本系统,包括get、post等。

2、API算子化应用

支持将注册的API算子,以可视化拖拽的形式参与建模或数据分析。

【注】:客户现场必须有需要注册使用的http接口。

4.3.2.7快捷功能

1、文件库

支持本地excel、txt文件上传,文件名名模糊搜索、刷新功能。

2、共享资源

支持共享资源如同本地种子、算子一样可视化使用,并进行分类管理,支持资源的模糊搜索。

3、最近使用

支持最近使用种子的便捷查找、便捷使用。

4.3.3协同计算

根据公安单位当前的实际业务需要和业务协作趋势,通过协同计算引擎的能力, (略) 协同、多警种协同体系,在 (略) 资源、数据的协同共享及应用,在纵向上实 (略) 两级的数据共享、资源调用和模型协作服务,形成合作共赢的协同体系。通过可视化搭建协同模型的形式共享数据服务、模型服务和API服务的方式,提供一种在大数据建模层面跨数据中心的协同计算的能力。

图 4跨警种协同架构图

4.3.3.1技术形态

从技术形态上,分为数据协同、模型协同、API协同。

4.3.3.1.1数据协同

通过数据协同功能,提供一种在数据层面跨数据中心的协同计算能力,在数据资产拥有方来看,既能保护数据的安全性,又能满足数据使用方的需求,实现数据按需最小化使用,改变了原来全量数据交换的方式,减少了各数据中心的全量数据交换, (略) 的资源,同时各数据中心能够更安全的运维自己的数据资产。

4.3.3.1.2模型协同

通过模型协同功能,提供一种在大数据建模层面的跨数据中心模型和算力的协同计算,服务方能够通过本系统跨数据中心,向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享,从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方,可以灵活的以无参或有参的方式,基于事件触发随时调用其服务方的协同模型。

4.3.3.1.3API协同

通过API协同功能,提供一种以接口形式跨数据中心协同查询能力,服务方通过API协同技术,可以将本地的模型服务、数据服务封装成API接口,以协同算子的形式服务于另一个数据中心的查询或分析应用。

4.3.3.2业务场景

根据 (略) 的类型,以 (略) 络情况,协同场景分为如下四种:

4.3.3.2.1同网同构

数据中心A和数据 (略) 于同 (略) 络,两个数据中心之间物理和逻辑都是连通的,两个协同系统之间可以以接口的形式相互提供服务,两个数据中心属于 (略) ,两个系统的执行代码可不加修改在两个数据中心无差别运行。

图 (略) 同构图

4.3.3.2.2跨网同构

数据中心A和数据 (略) 于不 (略) 络,两个数据中心之间由于数据安全等原因相互不能互联,物理上是隔离的,两个数据中心属于 (略) ,两个协同系统的执行代码可不加修改在两个数据中心无差别运行。

跨网方面,从解决方案上, (略) 单向传输设备,以及围绕设备形成了文件接口映射服务套件,从逻辑上“打通”了两个 (略) 络,将两个数据中心的系统结合成 (略) 协同计算解决方案。

图 (略) 同构图

4.3.3.2.3同网异构

数据中心A和数据 (略) 于同 (略) 络,两个数据中心之间物理和逻辑都是连通的,两个协同系统之间可以以接口的形式相互提供服务,两个数据中心属于不同 (略) ,两个系统的执行代码由于数据中心的差异需要代码的解析、翻译后,重 (略) 。

跨平台方面,技术上, (略) 上做了技术、平台抽象, (略) 服务层,以SAAS的 (略) 差异。将两个数据中心从业务逻辑、解决方案上形成一个整体。

图 (略) 异构图

4.3.3.2.4跨网异构

数据中心A和数据 (略) 于不 (略) 络,两个数据中心之间由于数据安全等原因相互不能互联,物理上是隔离的,两个数据中心属于不同 (略) ,两个协同系统的执行代码由于数据中心的差异需要代码的解析、翻译后,重 (略) 。

跨网方面,从解决方案上, (略) 单向传输设备,以及围绕设备形成了文件接口映射服务套件,从逻辑上“打通”了两个 (略) 络,将两个数据中心的系统结合成 (略) 协同计算解决方案。

跨平台方面,技术上, (略) 上做了技术、平台抽象, (略) 服务层,以SAAS的 (略) 差异。将两个数据中心从业务逻辑、解决方案上形成一个整体。

图 (略) 异构图

4.3.3.3协同能力开放共赢

为了避免重复建设,充分发挥历史建设项目的使用价值,同时本着拥抱开放、合作共赢的思想,数据工坊从架构设计层面已 (略) 对接的框架和能力,并且已经有了多个友商的对接案例。

4.3.3.3.1系统设计

图 (略) 同构图

4.3.3.3.2注册/更新协同资源

服务方调用此接口,注册/更新服务方的协同资源服务

4.3.3.3.3删除协同资源

服务方调用此接口,删除服务方的协同资源服务

4.3.3.3.4获取有权限访问的协同资源

消费方调用此接口,获取有权限访问的协同资源清单

4.3.3.3.5调用协同资源

消费方调用此接口,发起协同资源调用请求

4.3.3.3.6中断协同资源

消费方调用此接口,中断消费方的协同资源调用

4.3.3.3.7获取协同资源运行状态

消费方调用此接口,获取服务方的协同资源运行状态

4.3.3.3.8获取协同资源结果数据

消费方调用此接口,获取服务方的协同资源结果数据

4.3.4统一资源访问引擎

统一资源访问引擎 (略) 组件实现技术对接, (略) 的计算和数据能力, (略) 能力进行封装,接收可视化建模和协同计算引擎的分析任务。本系统支持与以下大数据组件对接:

1、 离线数据库对接服务

(略) 的查询分析接口,将可视化的分析视图转换成为查询、 (略) 租户的 (略) ,将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。

4.3.5系统管理

系统管理在本系统中提供整体的管理能力,其中包括: (略) 的管理、对接的数据源的管理、对用户权限的管理、面向系统技术参数的开发管理以及日志管理。

1、 平台管理

对数据工坊依赖的常量进行增删改查,以及常量的树状浏览展现、模糊搜索。

支持工坊联盟的管理, (略) 的列表展现、编辑、查询,展现信息包括:平台名称、平台类型、平台代码、平台种类、平台地址、共享/协同资源、最近访问时间、操作。

2、 资源管理

支持对数据工坊使用的数据源进行管理,例如:ODPS、hive、sck、oracle、mysql数据源的增删改查,以及销毁、恢复、数据源的过滤、模糊搜索。

支持对数据中心进行管理,支持新增、修改配置、删除数据中心资源。

支持对系统依赖的FTP/SFTP进行新建、编辑、删除,以及测试连接情况等。

3、 用户管理

对系统用户、角色、菜单功能进行管理,包括:用户基本信息增加、角色的建立和赋权、菜单功能的新增、数据源授权。

4、 开发管理

支持对资源包进行管理,对研发的资源包进行上传、下载、编辑等。

函数管理,支持对依赖函数进行注册管理,包括函数信息展现、编辑、查询、删除。

MR管理,支持MR算子相关的配置管理,包括:支持已经上传MR包信息列表展现,包括:包名、包路径等,MR新增,编辑,删除,树状展现,模糊搜索。

5、 运维管理

1) (略)

支持系统调度可视化管理,包括以下功能模块:

运行报表:对任务数量、调度次数、执行器数量进行统计,并对日期分布进行可视化展现,运行结果进行饼状图展现。

任务管理:对任务进行列表展现,包括任务描述、运行模式生效日期、失效日期、状态等。

调度日志:对调度日志进行列表展现,包括任务描述、调度时间、结果、执行时间等。

执行器管理:对执行器进行列表展现,包括AppName、名称等。

2) 公告管理

支持系统进行公告广播,例如:系统运维提前通知、建模比赛通知等。

6、 日志管理

系统日志信息列表展现,包括:操作人,操作时间,类型,IP地址,应用模块,操作内容,并支持多样化的搜索方式。

4.3.6系统对接

为了融合到现有或即将建设的数据中心项目,需要按数据中心规划内容,实现与已经建设或规划建设的系统实现无缝对接,支持门户系统对接。

4.4服务器部署及软硬件配置

4.4.1服务器部署规划

(略) 是弱耦合关系,数据工坊作为SAAS层工具, (略) 租 (略) 提交分析任务。

(略) 上直接部署使用,本次项目国产服务器利旧。

图 10单个节点部署规划图

4.4.2软硬件配置建议

建议使用物理机,支队级别内存128G以上,具体情况根据用户数量、模型调度频率、个数等做调整。

数据库按照要求,使用国产主流数据库。

4.5系统 (略) 线

4.5.1数据不动计算动

(略) 安全可控、逻辑统一、全网贯通的多级数据中心,解决跨域、跨平台的技术难题,实现海量数据不可汇聚的场景下,多级数据中心的分析、专题建模等核心业务应用创新。

4.5.2全警资源统一调度

通过“统一资源访问引擎”的构建, (略) ,形成统一调度、精准服务、安全 (略) 资源统一调度体系,为充分挖掘各地数据资源潜能,通过规范数据资源目录、打通调度渠道、统一服务接口,实现跨层级、跨地域、跨数据中心、跨数据源的协同管理和服务提供基础。

4.5.3数据分仓统

为充分利用各警种已经建设的数据中心成果,实现数据分仓建设,协同能力统一管理,本系统通过集成“ (略) ”实现数据分级分类管理、授权,实现数据资源精细化的合规管理,按需使用。同时,系统的协同能力通过发布至“算子资源”,实现算子的流程化、精细化的申请、审批管理机制。

4.5.4模型算子化、算子协同化

首先,以可视化建模技术,促进实战业务模型搭建;其次,将实战模型通用化改造,实现模型算子化;再次,从提高跨警种的协作能力角度,以业务导向实现算子按需、依规协同。最终实现源数据不出云,能力受限出 (略) 径。

、项目说明

1.付款人: (略) (略)

2.付款方式:通过国库集中支付

3、服务时间:2025年1月31日完成

4.服务地点:采购人指定地点

5.验收方式:采购人自行组织验收

6.支付方式:合同签订后支付总价金额的30%,验收合格后付65%,服务期满一年后无问题支付余下的5%,实际付款金额以审计结算为准。

注:在协商过程中,采购文件可能发生实质性变动的技术、服务要求以及合同草案条款,请在可能变动的条款旁予以文字注明,并将采购文件可能变动的内容在协商须知前附表中明确。

二、相关标准

详见功能及要求

三、技术规格

详见功能及要求

四、交付时间和地点

详见功能及要求

五、服务标准

详见功能及要求

六、验收标准

详见功能及要求

七、其他要求

详见功能及要求

采购需求仅供参考,相关内容以采购文件为准。
一、功能及要求:一、采购项目名称:数据工坊建模工具采购项目、项目预算:*元、采购内容

序号

软件名称

功能模块

子功能模块

三级功能模块

功能描述

1

数据工坊

可视化建模

种子工厂

种子仓库

种子批量注册

(略) 表批量注册为种子。

2

种子仓库展现

模型分类过滤、模糊搜索、列表展现。

3

种子分类展现

支持按资源库、标签库、原始库、专题库等目录展现。

4

种子编辑

支持种子编辑,例如:表名、项目名、名称等基本信息。

5

种子删除

支持种子删除。

6

种子详情

对种子基本信息进行展现,例如:表名、项目名、名称,以及表抽样、表结构、表信息等基本信息。

7

种子回收箱

种子彻底删除

暂存已删除的种子,支持单条彻底删除。

8

种子恢复

暂存已删除的种子,支持单条恢复。

9

已删除种子列表展现

模糊搜索、分类搜索等功能,按主题、表名等列表展现。

10

种子批量恢复

支持批量删除的种子恢复。

11

种子批量销毁

支持批量删除的种子彻底删除。

13

模型工厂

模型仓库

模型仓库

模型简况、缩略图、列表展现。

14

模型导入

支 (略) 的模型 (略) 。

15

模型导出

(略) 的优秀模型批量导出。 (略) 模型复用。

16

模型搜索、过滤、状态统计

支持对模型仓库内的模型进行多条件搜索功能。

17

模型下次运行信息

支持对已经发布调度的模型,查看下次运行时间,以方便模型运维。

18

补录数据

支持对指定的模型进行数据的补录功能,方便系统故障时,对失败的模型进行重新运行,以维护数据的完整性。

19

取消发布

支持对已经发布的模型进行取消发布设置。

20

开启调度

支持对已经发布并且暂停调度的模型,进行调度开启设置。

21

停止调度

支持对已经发布并且开启调度的模型,进行调度停止设置。

22

注销模型

支持对指定模型进行注销,注销后的模型会进入到模型回收箱暂存。

23

模型分享

当一个模型有多人轮流开发时,支持对指定模型分享给其他用户,其他用户可以在此基础上进行开发。

24

模型克隆

当对一个 (略) 进行重新迭代,而又想留存现有模型的情况下,支持模型克隆操作,对克隆出来的模型进行迭代修改验证。

25

模型详情

支持对模型维度进行全景展示,包括模型的基本信息、开发视图、结果信息、依赖模型等功能。

26

模型生产

开发模型展现

支持我的模型、他人分享的模型分类树状图展现。

27

模型搜索

支持模型模糊搜索。

28

模型可视化画布

模型画布、可视化建模。

29

模型快捷操作

模型运行、停止、撤销、重做、删除、框选、横向对齐、纵向对齐、放大、缩小、适应画布、实际尺寸、保存为图片、刷新、快捷键帮助、保存、发布。

30

可视化模型预览

节点结果缩略图预览。

31

基本信息

模型基本信息查看,包括:版本、名称、最近更新时间、创建时间、更新人、生效日期、失效日期。

32

调度参数信息

显示模型的调度参数,包括:设置调度参数,引用参数算子。

33

版本信息

显示模型的版本信息,包括编辑人、编辑时间、编辑版本、发布状态、操作。

34

模型多tab展示

支持画布同时显示多个tab页,每个tab页一个模型。

35

新建模型

支持模型或分析任务新增,包括:模型名称、目录、描述信息。

36

模型回收箱

模型彻底删除

对暂存的已删除的模型,支持彻底删除,彻底删除后,系统不再存储任何关于此模型的信息,删除后不可恢复。

37

模型恢复

暂存已删除的模型,支持对指定模型进行恢复,恢复后,模型在模型仓库展示,可以对模型进行操作修改、发布等动作。

38

已删除模型列表展现

对存放在模型回收箱里的暂时删除的模型,支持模糊搜索、分类搜索等功能。

39

模型批量恢复

对存放在模型回收箱里的暂时删除的模型,进行批量恢复,恢复后的模型在模型仓库可见。

40

模型批量销毁

对存放在模型回收箱里的暂时删除的模型,进行批量彻底删除,删除后的模型不可恢复。

41

调度系统

手动运行

基于人工触发的方式,对指定模型进行手动全量调度运行、对指定节点运行;指定某条业务流,从头运行;指定某条业务流,运行至尾部等。

42

定时调度

模型发布时,可以开启自动调度开关,并填写相关参数,对此类的模型可以进行定时调度运行。

44

固化算子开发

新建固化模型

新建固化模型

支持新建固化模型,通过固化模型 (略) 就行抽象形成复用率较高的固化算子,丰富系统的算子库。

45

可视化固化开发

可视化固化开发

提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。

46

固化树状显示

固化树状显示

支持固化算子开发树状展现。

47

固化模糊搜索

固化模糊搜索

支持固化算子开发的模糊搜索。

48

固化配置

固化配置

支持多样化配置,包括:基本信息配置、设置输入参数、设置输出字段。

49

片段模型固化

片段模型固化

支持将选定的特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子。

50

算子库

搜索

算子名称模糊搜索

支持根据算子的名称、属性关键字进行模糊搜索。

51

算子基本属性

上游算子详情

显示上游算子的详情,包括:表信息、表结构、运行结果。

52

运行结果

算子正常运行完成后,支持可以以表格的形式抽样展现当前节点的运行结果。

53

参数说明

对算子相关参数进行详细的解析说明。

54

文件输入

本地文件输入

上传本地的excel、txt等文件作为数据资源。

55

本地历史文件快捷选择

显示历史上传的文件列表,方面用户快捷选择。

56

SFTP数据输入

支持远程SFTP文件输入成本地数据资源。

57

同名文件输入

支持远程某目录下的同名文件自动输入为本地数据资源。

58

最新文件输入

支持远程某目录下的最新文件自动输入为本地数据资源。

59

文件信息预览

支持对输入的文件按文件名名称、文件大小、 (略) 径、上传人、上传时间进行展现。

60

文件结构呈现

支持对上传的文件的文件格式进行解析,展现文件结构。

61

文件内容展现

支持对文件内容进行格式解析展现。

62

数据库输入算子

外库数据源接入

支持将外库的数据表作为数据源接入到本系统,形成本系统的数据源。

63

数据源表选择

支持按数据源和数据表选择,数据表支持模糊搜索。

64

过滤

支持常规过滤和高级过滤对数据库表进行业务过滤。

65

字段选择

支持对关注的字段进行选择。

66

结果输出

数据源基本信息

支持数据源基本信息展现,包括:数据源、表名、分区信息。

67

数据源详情

支持展现数据源的详情信息、样例数据信息的展现。

68

数据输出到本地库

支持将加工后的数据输出到本库。

69

数据输出到外库

支持将加工后的数据输出到外库。

70

数据输出到本地文件

支持将加工后的数据输出到本地文件。

71

数据输出到SFTP

支持将加工后的数据输出到远程SFTP文件。

72

字段映射

确定字段映射,提供同名映射、同行映射、取消映射。

73

注册为种子

注册种子

支持将数据可视化的分析结果注册成为数据种子资源,丰富数据种子库。

74

分区、调度增量更新

支持注册为种子的 (略) 存储、定时调度、增量更新。

75

创建表

创建新表

支持本库创建新表。

76

数据源

支持按数据源的项目模块创建表。

77

表名

支持自定义表名。

78

生命周期

支持表的生命周期设置。

79

分区信息

支持 (略) 管理。

80

表结构定义

支持表结构自定义。

81

样例算子

自定义数据样例

提供可视化方法支持构造业务场景的样例数据,包括:字段类型、字段描述、字段名称。

82

数据过滤

数据常规过滤

支持对某个字段进行单值或多值过滤。

83

数据高级过滤

支持对多个字段分别进行多种运算的组合过滤。

84

过滤值的输入

支持多种过滤值的输入方式,包括:自定义、字段、常量。

85

高级过滤算法

支持多种数据过滤算法,包括:等于、不等于、大于、大于等于、小于等于、包含、不包含、模糊匹配、前模糊、后模糊、非前模糊、非后模糊、非空、空。

86

(略) 理

字段合并

支持对前置节点的结果表进行按字段和分隔符合并,输出成新字段。

87

位置字段拆分

支持对某个字段按位置进行字段分割,并新增字段存储。

88

分隔符字段拆分

支持对某个字段按分隔符进行字段分割,并新增字段存储。

89

字符插 (略) 理

支持对单字段进行基于插入位置的字符插入操作,并新增字段存储。

90

字符替 (略) 理

支持对单字段进行基于某个字符的字符替换操作,并新增字段存储。

91

字符正则替 (略) 理

支持对单字段进行基于正则表达式的字符替换操作,并新增字段存储。

92

字段转换

支持对指定字段进行格式转换,包括:整形、绝对值、日期、时间戳。

93

字段运算

支持对单字段或两字段进行字段运算,包括:加减乘除。

94

字段翻译

支持对指定字段进行多样化运算条件的翻译,支持单字段、多字段等。

95

字段长度

支持对特定字段进行字段长度计算。

96

字段转换大小写

支持对特定字段进行大小写转换操作。

97

字段重命名

支持对输出个字段进行重命名输出。

98

数据去重

数据去重

支持按单字段、多字段对数据进行去重。

99

数据统计

数据分组统计

支持对表数据进行分组统计。

100

数据个数统计

支持对表数据相应字段进行个数统计。

101

数据次数统计

支持对表数据相应字段进行次数统计。

102

数据最大值统计

支持对表数据相应字段进行最大值统计。

103

数据最小值统计

支持对表数据相应字段进行最小值统计。

104

数据平均值统计

支持对表数据相应字段进行平均值统计。

105

数据求和

支持对表数据相应字段进行求和值统计。

106

数据开窗统计

支持对表数据相应字段进行开窗统计。

107

关键词提取

手机号提取

支持对指定数据列的内容,提取内容中的手机号。

108

邮箱提取

支持对指定数据列的内容,提取内容中的电子邮箱。

109

身份证提取

支持对指定数据列的内容,提取内容中的身份证号。

110

自定义提取

支持对指定数据列的内容,按自定义的规则进行提取。

111

数据排序(TOPN)

基本功能

支持对前置组件结果各字段进行排序。

112

升序降序

支持升序和降序。

113

分组

支持对字段进行分组排序。

114

topN

支持结果取topN获取。

115

字段聚合拼接

聚合拼接

支持对单表指定聚合字段,对单个指定字段按分隔符进行拼接形成新的字段。

116

排序去重

支持去重、排序功能。

118

列转行

多列转多行

支持对表中的指定列转成多行。

119

列值分割转多行

支持对指定列,按指定的分隔符对列值进行拆分转多行。

120

风险输出

风险描述

支持对自定义风险描述和个业务字段结果,编辑生成基于表数据的业务描述。

121

风险项设置

支持自定义设置多级的风险项。

122

风险级别

支持根据个字段的值,定义基于业务的风险项报告。

123

内连接

基本功能

支持2~5个前置节点,基于字段选择的内连接操作。

124

输出字段选择

支持基于预期结果的输出字段的选择。

125

左连接

左连接

支持基于主表的字段扩展功能,包括:主字段选择、扩展字段选择、结果字段选择等。

126

逻辑差

逻辑差

支持两表基于主字段的集合减法运算,包括:被减表数据选择、减表数据选择、结果输出字段选择等。

127

逻辑并

逻辑并

支持两个表做集合合并运算,包括:选择主表、确定两表的一个或多个运算参数、是否输出字段等功能。

128

逻辑交统计

逻辑交统计

支持2~5个前置节点,基于字段选择的逻辑交统计操作,包括:关联度填写、逻辑交个关联字段选择。

129

结果统计

支持结果清单统计,包括:关联度、总次数、在各个表中出现的次数。

130

内连接(维表碰撞)

文本关键词分析

支持文本关键词分析。

131

关键词维表分析

支持对表中的某列文本字段以及关键词表中相应一个或多个关键词字段进行关键词多运算条件的匹配分析。

132

号证合规算子

国内号码合规

支持根据输入的表字段,对国内号码进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

133

国外号码合规

支持根据输入的表字段,对国外号码进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

134

国内固话合规

支持根据输入的表字段,对国内固话进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

135

身份证合规

支持根据输入的表字段,对国内身份证进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

136

车牌合规

支持根据输入的表字段,对国内车牌进行合规检查,并支持异常数据是否过滤、选择输出字段功能。

139

透视表

透视表分析

支持基于单列的,列行透视分析,包括:行选择、列选择、排序、列表签上限选择。

140

九宫格算子

S2九宫格算子

支持对输入的表字段,将S2字段扩展。

141

geohash九宫格算子

支持对输入的表字段,将geohash字段扩展,包括:9宫格扩展、25宫格扩展、字段选择。

142

空间算子

经纬度转geohash

支持对前置算子结果的经纬度字段,转换成geohash字段。

143

geohash转经纬度

支持对前置算子结果的geohash字段,转换成经纬度字段。

144

经纬度转S2

支持对前置算子结果的经纬度字段,转换成S2字段。

145

S2转经纬度

支持对前置算子结果的S2字段,转换成经纬度字段。

146

距离算子

距离计算

支持对两个前置算子结果的经纬度字段,遍历计算目标与目标之间的距离,包括:主表选择、经纬度字段选择、输出字段选择。

162

自定义SQL算子

运行sql

运行单条sql。

163

终止sql

终止运行sql。

164

撤销sql

对编辑的sql进行撤销编辑。

165

恢复sql

对sql进行恢复编辑。

166

查找替换sql

支持对sql代码进行查找。

167

格式化sql

对sql代码进行统 (略) 理。

168

快捷生成sql

支持快捷输入sql操作,包括:selectfrom、inner join、left join、right join、group by、order by、distict、map join、union、union all。

169

sql日志详情

支持查看sql执行的日志信息。

170

sql样例数据

支持查看sql执行结果的样例数据。

171

积分配置

sigmoid积分

支持sigmoid算法积分,包括:运算规则、参数字段X、分值最大限制。

172

对数多项积分

支持对数多项算法积分,包括:参数字段X、初始字段α、基数参数β、分值最大限制。

173

组合条件积分

支持组合条件算法积分,包括:各字段的字段运算,多条件的输入。

174

单位阶跃积分

支持单位阶跃算法积分,包括:参数字段X、初始字段α、基数参数β、分值最大限制。

175

MR算子

MR编辑

支持命令行界面,快捷编辑MR代码。

176

MR运行

支持发起一个MR的运行。

177

MR终止

支持终止一个MR的运行。

178

MR撤销

支持撤销一次MR的的编辑。

179

MR恢复

支持恢复一次MR的的编辑。

180

MR查找替换

支持模糊查找一个MR。

181

日志详情

支持查看MR的运行日志。

182

样例数据显示

支持查看MR运行结果样例数据。

183

数据源

支持选择MR运行的数据源。

184

表名

支持选择MR运行需要的表资源。

185

函数算子

基本功能

支持系统注册的函数,能够以可视化的方式提供给用户使用,不写代码的情况下使用自定义函数。

186

函数参数选择

支持对自定义函数的参数进行自主配置。

187

输出结果自定义选择

支持对函数执行结果,进行字段选配。

188

种子库

分类

按用户分类

根据用户权限,展示有权限和无权限的的数据资源。

189

按资源分类

按多种分类形式,对数据资源进行分类展示。

190

按关注分类

对用户已经标注关注的数据资源,按关注汇总分类。

191

搜索

模糊搜索

支持按种子数据模糊搜索。

192

筛选

支持按多种类别筛选。

193

种子注册

种子注册

提供可视化界面支持单个种子注册功能,注册支持种子基本信息填写、语义标注等功能。

194

种子资源属性

表信息

支持表名、项目名称、生命周期、物理存储量、 (略) 、 (略) 、表创建时间。

195

表结构

能够对表结构进行预览。

196

表数据

对表数据进行抽样展现。

197

过滤

提供常规过滤、高级过滤。

198

输出字段选择

提供对关注字段进行选择。

199

任务调度策略

提供是否依赖于种子变更的调度选择。

200

时间快捷过滤

对时间属性进行丰富的相对时间、单点时间、时间段进行过滤。

201

API库

基本信息

http类型选择

支持的http类型为get和post。

202

url填写

填写http协议的URL。

203

header

支持key、value、describtion的填写。

204

body

支持填写http请求的包体。

205

测试

基本测试

测试基本的接口调用是否畅通

206

结果展现

响应结果解析展现

支持应答结果的解析,字段包括:字段属性、字段名属性、字段描述属性、数据集属性。

207

快捷功能

文件库搜索

模糊搜索

支持按文件名名模糊搜索。

208

文件上传

文件上传

支持本地excel文件上传。

209

刷新

文件库刷新

支持文件库刷新。

210

基本功能

共享资源使用

支持共享资源如同本地种子、算子一样可视化使用。

213

共享资源

分类管理

协同分类管理。

214

模糊搜索

支持按共享资源模糊搜索。

215

共享资源刷新

支持共享资源刷新。

216

最近使用

最近使用

显示最近使用的种子信息,方面查找。

217

协同计算

数据协同

基本功能

以共享结果的方式实现跨数据中心的协同计算,支持对端以类似于本地种子的操作方式使用协同资源。

218

基本信息

支持基本信息填写,包括资源名称、资源说明等配置项。

219

(略) 选择

支持 (略) , (略) 选择,支持将工坊联盟里面注册的成员作为协同目标。

220

输出字段

支持输出字段的自定义,通过输出字段选择,支持客户自由选择可以开放给协同对端的字段个数。

221

生命周期

支持生命周期的自定义,通过修改生命周期,改变数据结果的存储时间。

222

结果跨集群协同

通过数据协同功能,提供一种在数据层面跨数据中心的协同计算能力,在数据资产拥有方来看,既能保护数据的安全性,又能满足数据使用方的需求,实现数据按需最小化使用,改变了原来全量数据交换的方式,减少了各数据中心的全量数据交换, (略) 的资源,同时各数据中心能够更安全的运维自己的数据资产。

223

模型协同

基本功能

以共享模型的方式实现跨数据中心的协同计算。

224

基本信息

支持基本信息填写,包括资源名称、资源说明。

225

(略) 选择

支持 (略) 的自定义。

226

输入参数

支持数据参数的选择和确定。

227

输出字段

支持输出字段的自定义。

228

模型跨集群协同

通过模型协同功能,提供一种在大数据建模层面的跨数据中心模型和算力的协同计算,服务方能够通过本系统跨数据中心,向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享,从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方,可以灵活的以无参或有参的方式,基于事件触发随时调用其服务方的协同模型。

229

API协同

基本功能

以API的方式实现跨数据中心的协同计算。

230

基本信息

支持基本信息填写,包括资源名称、资源说明、协同服务模式、协同控制参数等。

231

(略) 选择

支持 (略) 的自定义。

232

输入参数

支持数据参数的选择和确定。

233

输出字段

支持输出字段的自定义。

234

模型跨集群协同

通过API协同功能,提供一种以接口形式跨数据中心协同查询能力,服务方通过API协同技术,可以将本地的模型服务、数据服务封装成API接口,以协同算子的形式服务于另一个数据中心的查询或分析应用。

235

统一资源访问引擎

离线数据库对接

离线数据库对接

(略) 的查询分析接口,将可视化的分析视图转换成为查询、 (略) 租户的 (略) ,将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。
以下二选一:
1) ODPS对接服务, (略) 对接服务。
2) Hive对接服务,支持对hive数据库对接。

238

系统管理

平台管理

常量信息查看

支持系统新增的常量信息显示。

239

新增常量

支持新增常量信息,包括名称、标识、排序、描述。

240

编辑常量

支持编辑常量信息,包括名称、标识、父标识、排序、描述。

241

常量名称模糊搜索

支持对已经增加的常量进行按名称模糊搜搜。

242

删除常量

支持对已经增加的常量进行删除。

243

常量树状浏览

支持对已经增加的常量,进行树状浏览。

244

资源管理

新增数据源

支持数据源新增。

245

编辑数据源

支持对已经增加的数据源进行编辑修改,包括:名称、用户名、密码、端口等。

246

删除数据源

支持对已经添加的数据源进行删除。

247

数据源名称、标识模糊搜索

支持对已经添加的数据源进行名称、标识模糊搜索。

248

数据源类别搜索

支持对已经添加的数据源进行类别搜索。

249

数据源状态搜索

支持对已经添加的数据源进行状态搜索。

250

数据源回收箱信息

支持对已经删除的数据源进行展现。

251

按名称、表名、描述模糊搜索

支持对已经删除的数据源进行按名称、表名、描述模糊搜索。

252

按数据源类型过滤

支持对已经删除的数据源进行按数据源类型过滤。

253

按数据源状态过滤

支持对已经删除的数据源进行按数据源状态过滤。

254

平台信息

(略) 的列表展现,包括:平台名称、平台代码、平台地址、共享资源、最近访问时间、操作。

255

(略)

(略) ,包括:平台名称、平台代码、平台地址等。

256

(略)

(略) 进行参数编辑。

257

(略)

(略) 进行删除。

258

平台名称模糊搜索

(略) 模糊搜索。

259

算子信息

支持系统算子信息列表展现,包括:名称、目录、上游输入、下游适配、应用范围、状态、操作。

260

算子上下游配置

支持对算子进行编辑,包括:名称、目录、上游最大个数、排序、应用范围、下游适配范围。

261

算子查询功能

支持按算子名称模糊查询。

262

算子删除功能

支持对算子进行删除。

263

sftp远程管理信息

支持系统SFTP信息列表展现,包括:名称、主机、端口、用户名、密码、路径、状态、编码、操作。

264

新增sftp远程管理

支持系统SFTP信息新增,包括:名称、主机、端口、用户名、密码、路径。

265

编辑sftp远程管理

支持系统SFTP信息编辑,包括:名称、主机、端口、用户名、密码、路径。

266

删除sftp远程管理

支持对已经新建的sftp远程管理进行删除。

267

sftp远程管理名称模糊搜索

支持对已经新建的sftp远程管理名称模糊搜索。

268

sftp连通测试

支持对已经新建的sftp远程管理进行连通测试。

269

用户管理

用户信息展现

支持用户信息列表展现,包括:姓名、单位、注册时间、最近登录时间、状态、操作。

270

新增用户

支持新增用户信息,包括:姓名、密码、身份证号码、单位、角色。

271

编辑用户

支持对已经增加的用户进行编辑,包括:姓名、密码、身份证号码、单位、角色。

272

删除用户

支持对已经增加的用户进行删除。

273

姓名模糊搜索

支持对已经增加的用户进行姓名模糊搜索。

274

类别搜索

支持对已经增加的用户进行类别搜索。

275

状态搜索

支持对已经增加的用户进行状态搜索。

276

新增单位

新增单位目录。

277

编辑单位

对已经增加单位进行编辑。

278

查询单位

按单位名称查询。

279

删除单位

对已经增加单位进行删除。

280

单位树状展现浏览

支持单位展现浏览。

281

角色信息

支持角色信息列表展现,包括:角色名、角色组、描述、最近修改时间、操作。

282

新增角色

支持角色新增,包括:角色名、角色组、描述。

283

编辑角色

支持角色编辑,包括:角色名、角色组、描述。

284

查询角色

支持角色名称模糊搜索。

285

删除角色

支持已经增加的角色删除。

286

角色功能授权

支持对角色进行按功能菜单授权。

287

角色数据资源授权

支持对角色进行数据资源授权。

288

角色数据资源查看

支持对角色已经授权的数据源进行列表展现。

289

角色数据资源搜索

支持对角色已经授权的数据源按数据源、表名进行查找。

290

菜单信息

支持列表显示菜单信息,包括:资源名称、资源标识、描述、资源组、创建时间、操作。

291

新增菜单

支持对系统菜单信息进行新增,包括:资源名称、资源标识、描述、资源组。

292

编辑菜单

支持对系统菜单信息进行修改,包括:资源名称、资源标识、描述、资源组。

293

删除菜单

支持对系统菜单信息进行删除。

294

菜单树状展现浏览

支持菜单树状展现浏览。

295

菜单资源名称搜索

支持菜单按名称模糊搜索。

296

功能信息

支持展现系统的可分配的功能列表。

297

新增功能

支持对可分配功能进行增加,包括:资源名称、资源标识、描述、资源组。

298

编辑功能

支持对系统可分配功能信息进行修改,包括:资源名称、资源标识、描述、资源组。

299

删除功能

支持对系统可分配功能信息进行删除。

300

功能树状展现浏览

支持可分配功能树状展现浏览。

301

功能资源名称搜索

支持可分配功能按名称模糊搜索。

302

开发管理

函数信息展现

支持对函数进行浏览,包括:按平台、系统函数等进行分类浏览。

303

新增函数

支持为系统新增函数,包括:数据源类型、目录、名称、命令格式、参数说明、应用实例、用途、返回值。

304

编辑函数

支持对已经增加的函数进行各种参数编辑,包括:数据源类型、命令格式、参数说明等。

305

查询函数

支持函数名称、用途模糊查询。

306

删除函数

支持对已经增加的函数进行删除。

307

MR信息

支持已经上传MR包信息列表展现,包括:报名、包路径。

308

新增MR

支持新增MR包信息,包括:包名、包路径、应用实例。

309

编辑MR

支持编辑MR包信息,包括:包名、包路径、应用实例。

310

删除MR

支持对已经添加的MR包信息进行删除。

311

MR树状展现浏览

支持对已经上传的MR包信息进行树状浏览查询。

312

MR名称、包路径模糊搜索

支持按名称、包路径等进行模糊查询。

313

运维管理

(略)

支持系统调度可视化管理,包括以下功能模块:
运行报表:对任务数量、调度次数、执行器数量进行统计,并对日期分布进行可视化展现,运行结果进行饼状图展现。
任务管理:对任务进行列表展现,包括任务描述、运行模式生效日期、失效日期、状态等。
调度日志:对调度日志进行列表展现,包括任务描述、调度时间、结果、执行时间等。
执行器管理:对执行器进行列表展现,包括AppName、名称等。

314

公告管理

支持系统进行公告广播,例如:系统运维提前通知、建模比赛通知等。

315

日志管理

日志信息

系统日志信息列表展现,包括:操作人,操作时间,IP地址,应用模块,操作内容。

316

查询日志

支持按名称模糊搜索,按应用模块、时间段进行过滤。

317

名称模糊搜索

支持按名称模糊搜索。

318

应用模块搜索

支持按应用模块搜索。

319

应用类型搜索

支持按应用类型搜索。

320

时间段搜索

支持按日志时间段搜索。

321

一台单向隔离光闸

、技术参数及要求4.1需求分析

4.1.1可视化数据分析、建模型需求

实现低代码、可视化数据分析、建模,建立种子工厂、模型工厂、固化算子开发、算子库、种子库、API库等几大应用模块。支持五大类算子:数据输入/输出、 (略) 理、数据碰撞、业务算子、自定义算子。 (略) 进行业务算子的自我定制、扩充、丰富算子库,实现算子库的自我迭代。同时通过在本系统内进行种子的定制、扩充,实现种子库的自我迭代,从而使能系统自我完善、健全。

4.1.2协同计算需求

产 (略) 络、跨异构数据中心协同计算能力, (略) 、 (略) ,跨警种数据中心建设提供全新的技术方案。具体上需 (略) 同构、跨网同构、同网异构、跨网异构几种模式的协同计算。

4.1.3统一资源访问引擎

统一资源访问引擎 (略) 组件实现技术对接, (略) 的计算和数据能力, (略) 能力进行封装,接收可视化建模和协同计算引擎的分析任务。

4.1.4系统管理

(略) 形成整体的管理控制能力, (略) 管理、资源管理、用户管理、开发管理、运维管理、日志管理几大管理模块,支持系统稳定、安全运行。

4.1.5系统对接

为了融合到现有或即将建设的数据中心项目,需要按数据中心规划内容,实现与已经建设或规划建设的系统实现无缝对接,需要支持门户系统对接。

4.1.6性能需求

在满足本项目部署所需要的软硬件配置要求的前提下,性能指标如下:

1、系统支持静态用户数:100+。

2、系统支持并发用户数:50+。

3、单画布支撑的节点数:200+。

4、系统支持最大模型数:200+。

4.1.7安全需求

从系统安全角度,除按要求对接现有基础设施之外,系统还需支持以下安全控制点:

1、系统用户进行系统管理、安全审计、安全保密的分角色授权管理。

2、对注册的数据源进行授权管理。

3、对系统功能项进行授权管理。

4、对登记的数据中心进行授权管理。

5、对系统内协同资源进行授权。

6、系统操作日志留痕。

4.2产品总体设计

4.2.1总体架构设计

(略) 属于SAAS层服务,向下, (略) 接口,以租 (略) 提交任务;向上,以可视化建模、协同能力服务于特色应用。平台内包含统一资源访问引擎模块、种子工厂模块、模型工厂模块、协同计算模块、系统管理模块。

图 1系统架构图

统一资源访问引擎

数据工坊对外通过“统一资源访问引擎” (略) ,当前支持引擎包括:离线引擎、在线引擎以及协同计算引擎。

种子工厂

系统通过种子工厂进行数据管理,将数据以种子的形态向系统提供服务。

模型工厂

在模型工厂,通过建立模型画布,将算子、种子利用有向箭头连接,形成业务视图,构建可视化建模能力,支撑上层业务应用和微应用。系统提供丰富的算子库,具体有五大类算子:数据输入/输出、 (略) 理、数据碰撞、业务算子、自定义算子。

协同计算

(略) 的协同计算能力助力全警种进行跨数据中心数据分析和建模。

系统管理

为使系统安全高效运行, (略) 管理、资源管理、用户管理、开发管理、运维管理、日志管理功能。

4.2.2 (略) 络设计

数据工 (略) (略) 络互通, (略) 须向数据工坊开放租户, (略) 络内数据工坊以租户的 (略) (略) 提交任务。用户 (略) 络设备与数据工坊服务互联。

协同方案部署时,需要根据协同方的数量,部署相应的数据工坊,工坊之间需要通过标准边界设备套件进行“互联”。

图 2网络设计图

4.3系统功能/功能设计

4.3.1总体功能设计

本系统是一个支持零代码、可视化数据分析、建模工具,同时支持基于模型级别的协同计算能力。系统包括可视化建模、协同计算、统一资源访问引擎、系统管理、系统对接几大模块。其中可视化建模通过种子工厂、模型工厂、算子库、种子库、API库等实现可视化建模的能力;协同计算模块通过数据协同、模型协同、API协 (略) 络、跨数据中心的协同计算能力;统一 (略) (略) 对接,面 (略) 技术差异; (略) 的安全、管理、维护的角度实现整体管理能力;系统与现有门户的对接服务。

图 3功能全景图

4.3.2可视化建模

可视化建模模块包括种子工厂、模型工厂、固化算子开发、算子库、种子库、API库、快捷功能等子模块。

4.3.2.1种子工厂

种子工厂用于对注册到 (略) 表资源进行管理,包含种子仓库和种子回收箱。

1、种子仓库

种子仓库是对可用种子进行管理的系统模块,包括如下内容:

(1)种子注册、展现。

(2)对种子分类过滤、模糊搜索。

(3)对种子编辑、删除。

(4)查看种子基本信息、表信息。

2、种子回收箱

暂存已删除的种子,支持删除、恢复、模糊搜索、分类搜索等功能。

4.3.2.2模型工厂

模型工厂是建模和 (略) ,提供整套的可视化建模、分析操作界面,主要分为:模型仓库、模型生产、模型回收箱、模型任务调度几大模块。

1、模型仓库

模型仓库提供了已发布模型的展示和操作能力,对已经发布的模型在此提供全景展现,并提供搜索和人工运维干预功能。

(1)模型导入

支 (略) 的模型 (略) 。

(2)模型导出

(略) 的优秀模型批量导出。 (略) 模型复用。

(3)模型搜索、过滤、状态统计

支持对模型仓库内的模型进行多条件搜索功能。

(4)模型下次运行信息

支持对已经发布调度的模型,查看下次运行时间,以方便模型运维。

(5)补录数据

支持对指定的模型进行数据的补录功能,方便系统故障时,对失败的模型进行重新运行,以维护数据的完整性。

(6)取消发布

支持对已经发布的模型进行取消发布设置。

(7)开启调度

支持对已经发布并且暂停调度的模型,进行调度开启设置。

(8)停止调度

支持对已经发布并且开启调度的模型,进行调度停止设置。

(9)注销模型

支持对指定模型进行注销,注销后的模型会进入到模型回收箱暂存。

(10)模型分享

当一个模型有多人轮流开发时,支持对指定模型分享给其他用户,其他用户可以在此基础上进行开发。

(11)模型克隆

当对一个 (略) 进行重新迭代,而又想留存现有模型的情况下,支持模型克隆操作,对克隆出来的模型进行迭代修改验证。

(12)模型详情

支持对模型维度进行全景展示,包括模型的基本信息、开发视图、结果信息、依赖模型等功能。

2、模型生产

在种子工厂对数据按业务进行高价值提取基础上,模型工厂提供给用户一个可视化建模的研发环境,降低建模门槛。

(1)我的模型、模型模糊搜索。

(2)模型画布、可视化建模。

(3)模型保存、发布、排列、运行、暂停、停止、删除。

(4)节点结果预览。

3、模型回收箱

暂存已删除的模型,支持删除、恢复、模糊搜索、分类搜索等功能。

(1)模型彻底删除

对暂存的已删除的模型,支持彻底删除,彻底删除后,系统不再存储任何关于此模型的信息,删除后不可恢复。

(2)模型恢复

暂存已删除的模型,支持对指定模型进行恢复,恢复后,模型在模型仓库展示,可以对模型进行操作修改、发布等动作。

(3)已删除模型列表展现

对存放在模型回收箱里的暂时删除的模型,支持模糊搜索、分类搜索等功能。

(4)模型批量恢复

对存放在模型回收箱里的暂时删除的模型,进行批量恢复,恢复后的模型在模型仓库可见。

(5)模型批量销毁

对存放在模型回收箱里的暂时删除的模型,进行批量彻底删除,删除后的模型不可恢复。

4、模型任务调度

(1)手动运行

基于人工触发的方式,对指定模型进行手动全量调度运行、对指定节点运行;指定某条业务流,从头运行;指定某条业务流,运行至尾部等。

(2)定时调度

模型发布时,可以开启自动调度开关,并填写相关参数,对此类的模型可以进行定时调度运行。

4.3.2.3固化算子开发

提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。具体功能包括新建固化模型、可视化固化开发、固化模型展现、固化配置等几大功能模块。

(1)新建固化模型

支持新建固化模型,通过固化模型 (略) 就行抽象形成复用率较高的固化算子,丰富系统的算子库。

(2)可视化固化开发

提供可视化开发界面,支持固化算子开发。是一个在系统内支持算子开发的工厂,用于将特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子,用于将常用的分析业务场景固化,易于进行算子库积累,支撑模型快捷搭建。

(3)固化树状显示

支持固化算子开发树状展现。

(4)固化模糊搜索

支持固化算子开发的模糊搜索。

(5)固化配置

支持多样化配置,包括:基本信息配置、设置输入参数、设置输出字段。

(6)片段模型固化

支持将选定的特定的数据分析逻辑,通过可视化操作固化成支持特定场景的实战应用算子。

4.3.2.4算子库

系统支持搜索、算子基本属性查看以及几类算子,例如:数据输入/输出、 (略) 理、数据碰撞、业务算子、自定义算子。通过模型算子化进行算子的自我定制、扩充、丰富算子库;通过模型结果种子化,在系统内进行种子的定制、扩充,使能系统自我完善健全。

4.3.2.4.1搜索

支持根据算子的名称、属性关键字进行模糊搜索。

4.3.2.4.2算子基本属性

(1)上游算子详情

显示上游算子的详情,包括:表信息、表结构、运行结果。

(2)运行结果

算子正常运行完成后,支持可以以表格的形式抽样展现当前节点的运行结果。

(3)参数说明

对算子相关参数进行详细的解析说明。

4.3.2.4.3数据输入/输出类

通过数据输入类算子, (略) 以外的数据,通过输入类 (略) 参与数据分析建模。例如,文件输入、数据库输入。通过数据输出类算子,将数据分析、模型运行的 (略) 。例如,通过结果输出算子将结果输出到业务库或下载到客户端本地。

4.3.2.4.3.1文件输入

文件输入算子,用于将系统外部的依 (略) 参与运算,一般是业务库,例如:特定目标、 (略) 域等。

1、文件上传,已上传文件搜索。

2、文件基本信息、文件结构、文件内容预览。

4.3.2.4.3.2数据库输入算子

支持将外库的数据表作为数据源接入到本系统,形成本系统的数据源。

4.3.2.4.3.3结果输出

对模型结果数据输出到本地或其他数据库。

1、数据去向配置

本地:指与数据来源同库。

外部:指与数据来源不同库,选择数据源,新建或者选择现有的表,选择导入模式、导入规则,填写错误记录条数。

2、选择字段配置

数据去向配置完后,在字段映射配置中,可以选择字段映射方式或者手动连线方式进行字段映射。

4.3.2.4.3.4注册为种子算子

将数据分析、建模的结果数据,注册成种子,方便数据共享和业务库积累。

4.3.2.4.3.5创建表算子

通过算子的可视化配置, (略) 系统内创建一个物理表。

4.3.2.4.3.6样例算子

提供可视化方法支持构造业务场景的样例数据,包括:字段类型、字段描述、字段名称。

4.3.2.4.4 (略) 理类

通 (略) 理类算子,支持对数据表中数据按照字段进行分析,例如,对某个字段按规则进行多种过滤运算;对字段进行合并、拆分、转换、值运算、时间运算、翻译等运算。

4.3.2.4.4.1数据过滤

数据过滤算子,用于对前置算子结果进行按字段进行过滤,分为常规过滤、高级过滤。

1、常规过滤:对前置算子按字段进行单值或多值进行过滤。

2、高级过滤:对前置算子按字段进行14种运算条件、3种值输入方式、2种逻辑运算条件进行过滤。

4.3.2.4.4.2 (略) 理

(略) 理算子,用于将前置算子的结果按字段进行自由组合、 (略) 理,例如:字段合并、字段拆分、 (略) 理、字段转换、字段运算、字段翻译。

1、字段合并,对前置算子进行多字段合并。

2、2种字段拆分方式。

3、3 (略) 理方式。

4、4种字段类型转换。

5、4种字段算数运算。

6、10种以上的字段翻译方式。

7、字段值长度运算。

4.3.2.4.4.3数据去重

对前置算子结果按多个字段进行去重。

4.3.2.4.4.4数据统计

对前置算子结果各个字段进行个数、次数、最大值、最小值、平均值、求和等维度的统计。

4.3.2.4.4.5关键词提取

对一张表中的文本内容字段,支持按手机号码、身份证等规则进行内容提取。

4.3.2.4.4.6数据排序(TOPN)

对前置算子结果各个字段进行排序,topN展现。

4.3.2.4.4.7字段聚合拼接

对某个前置算子的几个字段进行聚合,针对聚合结果,对单个字段进行合并操作。

4.3.2.4.4.8列转行算子

支持对特定种子进行的行和列进行转换,方便进行特定场景的数据分析。

4.3.2.4.4.9风险输出算子

风险输出算子,将可视化分析的结果用用户自定义的格式输出出来。典型的场景,例如:将分析结果编辑成文本,方便通过app或短信发通知。

4.3.2.4.5数据碰撞

对表数据进行多表的数据碰撞分析。例如,对多表数据按某个关键字段进行共性的提取;对多张表按关键字段进行表合并;对多张表进行字段扩充。

4.3.2.4.5.1内连接

通过将多个前置算子集合,按照各自的指定字段进行交运算,并对运算结果后的集合进行字段关联扩展。

4.3.2.4.5.2左连接

通过将两个前置算子进行关联,对其中一个前置算子的字段进行关联扩展。

4.3.2.4.5.3逻辑差

对两个前置算子按某几个列进行逻辑差运算。

4.3.2.4.5.4逻辑并

通过将两个前置算子按某几个列进行逻辑并运算。

4.3.2.4.5.5逻辑交统计

在多个目标集合内,根据各集合的关联字段,按关联度进行逻辑交运算,并按关联度和次数进行统计。

4.3.2.4.5.6关键词维表分析

支持对表中的某列文本字段以及关键词表中相应关键词字段进行关键词多运算条件的匹配分析。

4.3.2.4.6业务算子类

将业务建模、数据分析的成果进行封装,形成通用的满足某一业务场景的算子。

4.3.2.4.6.1号证合规

对数据种子的特定字段进行合规验证,包括:国外号码、国内手机、身份证等,并能对异常数据进行过滤提取。

4.3.2.4.6.2透视表

对已知表数据进行指定行列的统计分析。

4.3.2.4.6.3九宫格算子

将前置算子结果集中的geohash字段和S2字段进行范 (略) 理,外扩层级1层、2层。

4.3.2.4.6.4空间算子

通过将经纬度与geohash(5、6、7)、S2(11、12、13、14)进行互转。

4.3.2.4.6.5距离算子

通过两个前置算子的经纬度字段进行运算,计算目标之间的距离。

4.3.2.4.7自定义类算子

自定义算子是面向高技能用户提供的,以一种友好的代码开发界面开放给用户,用户可以通过“自定义sql算子”编辑sql代码,也可以通过“python算子”编辑python代码,类似的也可以支持shell、MR类的代码编辑功能。同时,提供通用类的“IF判断”、“FOR循环”等常用的判断类开发算子。

4.3.2.4.7.1自定义sql算子

基础算子的丰富性很重要,但算子很难满足一切业务场景。另外,虽然基于算子建模降低了建模的门槛,但对技术人员来讲,灵活性受限。 (略) 提供自定义SQL算子,支持用户可以通过SQL算子编写SQL脚本,扩展了系统的建模能力。提供运行sql、终止sql、撤销sql、恢复sql、查找替换sql、格式化sql、快捷生成sql、sql日志详情、sql样例数据。

4.3.2.4.7.2积分配置

提供基于特征的打分算子。支持将是和否的特征刻画提升为对特征量化打分,提供特征量化指标。提供sigmoid积分对数多项积分、组合条件积分、单位阶跃积分算子。

sigmoid积分算子。算子提供对积分值进行sigmoid函数转换,得到转换后的特征积分打分,增加特征积分的平滑性,减少原始积分值偏差。

对数多项积分算子。算子提供对建模过程中的多项积分值进行对数转换,增加特征积分的平滑性,减少原始积分值偏差。

组合条件积分算子。算子提供对建模过程中的积分值进行条件组合,最终得到组合运算的积分值。

单位阶跃积分算子。算子提供对积分值进行单位阶跃函数转换,得到转换后的特征积分打分,增加特征积分的平滑性,减少原始积分值偏差。

4.3.2.4.7.3MR算子

MR算子即MapReduce算子。对于复杂的大规模并行运算,通过基础算子的组合很难实现,系统提供脚本编写MapReduce程 (略) ,生成MR算子,以MR算子的形式向用户提供大规模数据并行分析能力。MR算子提供MR编辑、MR运行、MR终止、MR撤销、MR恢复、MR查找替换、日志运行详情、样例数据显示等功能。

4.3.2.4.7.4函数算子

函 (略) 层面提供的基本函数包装成算子能力, (略) 上注册成为函数算子, (略) 以基本函数算子的形式提供给用户进行数据加工。提供基本功能、函数参数选择、输出结果自定义选择等功能。

4.3.2.5种子库

按用户、资源、关注情况,对种子进行分类展现,支持模糊搜索。支持种子注册功能。支持表名、项目名称、生命周期、物理存储量、 (略) 、 (略) 、表创建时间的种子资源信息查看。支持表结构的查看,表抽样数据展现。

(1)按用户分类

根据用户权限,展示有权限和无权限的的数据资源。

(2)按资源分类

按多种分类形式,对数据资源进行分类展示。

(3)按关注分类

对用户已经标注关注的数据资源,按关注汇总分类。

(4)模糊搜索

支持按种子数据模糊搜索。

(5)筛选

支持按多种类别筛选。

(6)种子注册

提供可视化界面支持单个种子注册功能,注册支持种子基本信息填写、语义标注等功能。

(7)种子资源属性

支持表信息、表结构、表数据、过滤、输出字段选择、任务调度策略、时间快捷过滤功能。

4.3.2.6API库

(略) 络内的开放接口,注册到API库中, (略) 维护一个可用的接口查询列表。 (略) 提供基于http接口的查询能力。主要包含两部分功能:一个是API的注册功能;另一个是面向建模、分析场景的API可视化应用。

1、API注册

支持将外部系统的http接口注册到本系统,包括get、post等。

2、API算子化应用

支持将注册的API算子,以可视化拖拽的形式参与建模或数据分析。

【注】:客户现场必须有需要注册使用的http接口。

4.3.2.7快捷功能

1、文件库

支持本地excel、txt文件上传,文件名名模糊搜索、刷新功能。

2、共享资源

支持共享资源如同本地种子、算子一样可视化使用,并进行分类管理,支持资源的模糊搜索。

3、最近使用

支持最近使用种子的便捷查找、便捷使用。

4.3.3协同计算

根据公安单位当前的实际业务需要和业务协作趋势,通过协同计算引擎的能力, (略) 协同、多警种协同体系,在 (略) 资源、数据的协同共享及应用,在纵向上实 (略) 两级的数据共享、资源调用和模型协作服务,形成合作共赢的协同体系。通过可视化搭建协同模型的形式共享数据服务、模型服务和API服务的方式,提供一种在大数据建模层面跨数据中心的协同计算的能力。

图 4跨警种协同架构图

4.3.3.1技术形态

从技术形态上,分为数据协同、模型协同、API协同。

4.3.3.1.1数据协同

通过数据协同功能,提供一种在数据层面跨数据中心的协同计算能力,在数据资产拥有方来看,既能保护数据的安全性,又能满足数据使用方的需求,实现数据按需最小化使用,改变了原来全量数据交换的方式,减少了各数据中心的全量数据交换, (略) 的资源,同时各数据中心能够更安全的运维自己的数据资产。

4.3.3.1.2模型协同

通过模型协同功能,提供一种在大数据建模层面的跨数据中心模型和算力的协同计算,服务方能够通过本系统跨数据中心,向数据中心外以模型的形式协同算力。本数据中心可以将搭建的模型以白盒或黑盒的形式向其他数据中心协同共享,从而实现不向外输出原始数据的同时仍可达到同样的服务水准和能力。在协同模型消费方,可以灵活的以无参或有参的方式,基于事件触发随时调用其服务方的协同模型。

4.3.3.1.3API协同

通过API协同功能,提供一种以接口形式跨数据中心协同查询能力,服务方通过API协同技术,可以将本地的模型服务、数据服务封装成API接口,以协同算子的形式服务于另一个数据中心的查询或分析应用。

4.3.3.2业务场景

根据 (略) 的类型,以 (略) 络情况,协同场景分为如下四种:

4.3.3.2.1同网同构

数据中心A和数据 (略) 于同 (略) 络,两个数据中心之间物理和逻辑都是连通的,两个协同系统之间可以以接口的形式相互提供服务,两个数据中心属于 (略) ,两个系统的执行代码可不加修改在两个数据中心无差别运行。

图 (略) 同构图

4.3.3.2.2跨网同构

数据中心A和数据 (略) 于不 (略) 络,两个数据中心之间由于数据安全等原因相互不能互联,物理上是隔离的,两个数据中心属于 (略) ,两个协同系统的执行代码可不加修改在两个数据中心无差别运行。

跨网方面,从解决方案上, (略) 单向传输设备,以及围绕设备形成了文件接口映射服务套件,从逻辑上“打通”了两个 (略) 络,将两个数据中心的系统结合成 (略) 协同计算解决方案。

图 (略) 同构图

4.3.3.2.3同网异构

数据中心A和数据 (略) 于同 (略) 络,两个数据中心之间物理和逻辑都是连通的,两个协同系统之间可以以接口的形式相互提供服务,两个数据中心属于不同 (略) ,两个系统的执行代码由于数据中心的差异需要代码的解析、翻译后,重 (略) 。

跨平台方面,技术上, (略) 上做了技术、平台抽象, (略) 服务层,以SAAS的 (略) 差异。将两个数据中心从业务逻辑、解决方案上形成一个整体。

图 (略) 异构图

4.3.3.2.4跨网异构

数据中心A和数据 (略) 于不 (略) 络,两个数据中心之间由于数据安全等原因相互不能互联,物理上是隔离的,两个数据中心属于不同 (略) ,两个协同系统的执行代码由于数据中心的差异需要代码的解析、翻译后,重 (略) 。

跨网方面,从解决方案上, (略) 单向传输设备,以及围绕设备形成了文件接口映射服务套件,从逻辑上“打通”了两个 (略) 络,将两个数据中心的系统结合成 (略) 协同计算解决方案。

跨平台方面,技术上, (略) 上做了技术、平台抽象, (略) 服务层,以SAAS的 (略) 差异。将两个数据中心从业务逻辑、解决方案上形成一个整体。

图 (略) 异构图

4.3.3.3协同能力开放共赢

为了避免重复建设,充分发挥历史建设项目的使用价值,同时本着拥抱开放、合作共赢的思想,数据工坊从架构设计层面已 (略) 对接的框架和能力,并且已经有了多个友商的对接案例。

4.3.3.3.1系统设计

图 (略) 同构图

4.3.3.3.2注册/更新协同资源

服务方调用此接口,注册/更新服务方的协同资源服务

4.3.3.3.3删除协同资源

服务方调用此接口,删除服务方的协同资源服务

4.3.3.3.4获取有权限访问的协同资源

消费方调用此接口,获取有权限访问的协同资源清单

4.3.3.3.5调用协同资源

消费方调用此接口,发起协同资源调用请求

4.3.3.3.6中断协同资源

消费方调用此接口,中断消费方的协同资源调用

4.3.3.3.7获取协同资源运行状态

消费方调用此接口,获取服务方的协同资源运行状态

4.3.3.3.8获取协同资源结果数据

消费方调用此接口,获取服务方的协同资源结果数据

4.3.4统一资源访问引擎

统一资源访问引擎 (略) 组件实现技术对接, (略) 的计算和数据能力, (略) 能力进行封装,接收可视化建模和协同计算引擎的分析任务。本系统支持与以下大数据组件对接:

1、 离线数据库对接服务

(略) 的查询分析接口,将可视化的分析视图转换成为查询、 (略) 租户的 (略) ,将查询、分析任务的运行结果进行解析、校验并以可视化的方式呈现到开发视图界面。

4.3.5系统管理

系统管理在本系统中提供整体的管理能力,其中包括: (略) 的管理、对接的数据源的管理、对用户权限的管理、面向系统技术参数的开发管理以及日志管理。

1、 平台管理

对数据工坊依赖的常量进行增删改查,以及常量的树状浏览展现、模糊搜索。

支持工坊联盟的管理, (略) 的列表展现、编辑、查询,展现信息包括:平台名称、平台类型、平台代码、平台种类、平台地址、共享/协同资源、最近访问时间、操作。

2、 资源管理

支持对数据工坊使用的数据源进行管理,例如:ODPS、hive、sck、oracle、mysql数据源的增删改查,以及销毁、恢复、数据源的过滤、模糊搜索。

支持对数据中心进行管理,支持新增、修改配置、删除数据中心资源。

支持对系统依赖的FTP/SFTP进行新建、编辑、删除,以及测试连接情况等。

3、 用户管理

对系统用户、角色、菜单功能进行管理,包括:用户基本信息增加、角色的建立和赋权、菜单功能的新增、数据源授权。

4、 开发管理

支持对资源包进行管理,对研发的资源包进行上传、下载、编辑等。

函数管理,支持对依赖函数进行注册管理,包括函数信息展现、编辑、查询、删除。

MR管理,支持MR算子相关的配置管理,包括:支持已经上传MR包信息列表展现,包括:包名、包路径等,MR新增,编辑,删除,树状展现,模糊搜索。

5、 运维管理

1) (略)

支持系统调度可视化管理,包括以下功能模块:

运行报表:对任务数量、调度次数、执行器数量进行统计,并对日期分布进行可视化展现,运行结果进行饼状图展现。

任务管理:对任务进行列表展现,包括任务描述、运行模式生效日期、失效日期、状态等。

调度日志:对调度日志进行列表展现,包括任务描述、调度时间、结果、执行时间等。

执行器管理:对执行器进行列表展现,包括AppName、名称等。

2) 公告管理

支持系统进行公告广播,例如:系统运维提前通知、建模比赛通知等。

6、 日志管理

系统日志信息列表展现,包括:操作人,操作时间,类型,IP地址,应用模块,操作内容,并支持多样化的搜索方式。

4.3.6系统对接

为了融合到现有或即将建设的数据中心项目,需要按数据中心规划内容,实现与已经建设或规划建设的系统实现无缝对接,支持门户系统对接。

4.4服务器部署及软硬件配置

4.4.1服务器部署规划

(略) 是弱耦合关系,数据工坊作为SAAS层工具, (略) 租 (略) 提交分析任务。

(略) 上直接部署使用,本次项目国产服务器利旧。

图 10单个节点部署规划图

4.4.2软硬件配置建议

建议使用物理机,支队级别内存128G以上,具体情况根据用户数量、模型调度频率、个数等做调整。

数据库按照要求,使用国产主流数据库。

4.5系统 (略) 线

4.5.1数据不动计算动

(略) 安全可控、逻辑统一、全网贯通的多级数据中心,解决跨域、跨平台的技术难题,实现海量数据不可汇聚的场景下,多级数据中心的分析、专题建模等核心业务应用创新。

4.5.2全警资源统一调度

通过“统一资源访问引擎”的构建, (略) ,形成统一调度、精准服务、安全 (略) 资源统一调度体系,为充分挖掘各地数据资源潜能,通过规范数据资源目录、打通调度渠道、统一服务接口,实现跨层级、跨地域、跨数据中心、跨数据源的协同管理和服务提供基础。

4.5.3数据分仓统

为充分利用各警种已经建设的数据中心成果,实现数据分仓建设,协同能力统一管理,本系统通过集成“ (略) ”实现数据分级分类管理、授权,实现数据资源精细化的合规管理,按需使用。同时,系统的协同能力通过发布至“算子资源”,实现算子的流程化、精细化的申请、审批管理机制。

4.5.4模型算子化、算子协同化

首先,以可视化建模技术,促进实战业务模型搭建;其次,将实战模型通用化改造,实现模型算子化;再次,从提高跨警种的协作能力角度,以业务导向实现算子按需、依规协同。最终实现源数据不出云,能力受限出 (略) 径。

、项目说明

1.付款人: (略) (略)

2.付款方式:通过国库集中支付

3、服务时间:2025年1月31日完成

4.服务地点:采购人指定地点

5.验收方式:采购人自行组织验收

6.支付方式:合同签订后支付总价金额的30%,验收合格后付65%,服务期满一年后无问题支付余下的5%,实际付款金额以审计结算为准。

注:在协商过程中,采购文件可能发生实质性变动的技术、服务要求以及合同草案条款,请在可能变动的条款旁予以文字注明,并将采购文件可能变动的内容在协商须知前附表中明确。

二、相关标准

详见功能及要求

三、技术规格

详见功能及要求

四、交付时间和地点

详见功能及要求

五、服务标准

详见功能及要求

六、验收标准

详见功能及要求

七、其他要求

详见功能及要求

采购需求仅供参考,相关内容以采购文件为准。
    
查看详情》
相关推荐
 

招投标大数据

查看详情

收藏

首页

最近搜索

热门搜索