[公开招标]延边大学朝汉书面语双语平行语料库系统采购项目更正公告
[公开招标]延边大学朝汉书面语双语平行语料库系统采购项目更正公告
原公告的采购项目编号: 点击查看>> GNJLHWGK *
原公告的采购项目名称: (略)
首次公告日期: * 日
更正事项:招标文件
更正内容:原招标文件中第 * 页“第 * 章服务需求” (略) 内容变更如下:
* 、朝 (略) 语料库检索系统
1系统总体技术要求
系统的建设应采用先进的设计思想和主流的技术路线,必须符合业界当前的发展趋势, (略) 业的相关技术标准。系统技术架构需要达到以下要求:
(1)采用Java语言开发, (略) 署,基于分布式架构,可灵活扩容提升性能。
(2)系统要具备良好的浏览器兼容性,能在谷歌、火狐等主流 (略) 所有的功能操作。
(3)采用基于服务的设计理念,支持中间件技术,提高系统的可维护性和软件代码的重用性, (略) 对IT资源的投资。
(4)采用基于面向对象的组件开发技术,构建可重用的业务组件, (略) 业务变更,搭建新应用。
(5)信息标准要求:系统的开发必须严 (略) 的 (略) 业标准, (略) 要求的相关信息标准。
(6)可靠性、稳定性要求:具 (略) 保障体系,提供完善的存储、备份手段,提供故障恢复手段,确保系统的稳定性;
(7)界面 (略) 性要求:操作流程清晰简洁,用户界面美观大方,给用户提供良好的操作体验。
(8)安全性和保密性要求:系统设计时必须考虑整体的安全性,从数据访问操作、用户认证、数据加密等 (略) 安全性设计,提高系统的安全性。系统应分别针对不同的应用和不同的环境,采取不同的措施,包括系统安全机制、数据存取权限控制和数据存储加密机制。
(9)可管理性要求:系统的设计必须有很好的可管理性,业务流程清晰,权限划分合理,提供便捷的搜索功能和工作流控制功能。
( * ) (略) 署要求:支 (略) 部署。
2系统性能要求
系统性能也是衡量系统建设成败的 * 个关键指标,本项目系统的具体性能指标要求如下:
指标类型 | 指标要求 |
查询 | 十万级数据量下单条记录本地查询的响应时间≤ * ms; 百万级数据量下单条记录本地查询的响应时间≤ * ms; 千万级数据量下单条记录本地查询的响应时间≤1.5秒; |
数据量 | 可支撑上亿句对规模的朝汉双语语料数据检索,支持TB级文件存储、检索与导出 |
并发量 | 支持百人规模日常在线使用 |
3功能要求(主体模块)
3.1 朝汉书 (略) 语料数据库
3.1.1 数据存储
数据 (略) 的基础,用于存储项目相关文档文件;用 (略) 包含的句对;按行业(领域)不同储存相关句对、词典、术语。
支持对资源文件(txt, doc等)和结 (略) 存储和关联,提供开放接口可对接第 * 方平台或原有系统,降低新平台建设的数据迁移成本,提供本地上传、远程数据上传和数据映射等数据入口快速接入数据。
3.1.2 (略) 语料智能检索的基础架构服务
为搜索引擎提供相关数据支持,提高检索速度。索引服务使用Elasticsearch作为搜索引擎,建立索引数据库,可以便捷 (略) 扩容操作;为分词操作提供数据支持。支持通用的数据抽取(采集、清洗、转换或同步)方法,生成需要的数据。
3.1.3 备份服务
支持原始数据灾备,支持数据库灾备。支持两个或 (略) 数据库组建集群提供高可用数据服务。
3.1.4 数据清洗与标注服务
通过机器辅助人工,对现有非结 (略) 转换清洗,转换为结构化数据,并储存至数据库。对 (略) 清洗标注,为按领域以及智能查询提供数据基础。
数据标注服务:
1、 (略)
1.1 团队管理
1) (略) 管理: (略) 信息、创建/ (略) 成员、 (略) 成员信息、剔除成员
2) (略) 管理: (略) 信息、 (略) 、 (略) 管理员
1.2 勋章管理:进行翻译标注之前的测试,勋章测试通过后可正式参与翻译任务
导入勋章测试数据、设置勋章通过率
2、 (略)
2.1 个人主页:上传头像、个人资料完善、做任务概况、我的勋章信息、 (略) 信息、公告消息
2.2 我的任务:标注、检查、质检任务
1)未完成任务:自检、放弃、提交任务
2)已完成:查看标注结果
2.3 我的勋章:继续认证勋章、重新认证勋章、通过勋章信息查看
3、批次管理
3.1 添加批次:数据导入、批次信息、配置标签、设置质检环节
3.2 批次列表:
1)分配任务:搜索标客、选择分配对象、设置分配数量、设置与取消免检
分配进度查看
2)查看批次进度:回收、转移、分配、查看标客文件、搜索
3)查看批次详情:已标注文件详情、文件查询
4)其它功能:暂停/启动批次、修改标签、数据导出、搜索查询批次
4、数据标注任务大厅
4.1 登录、修改密码、退出
4. (略)
4.3 平台首页:推荐任务(优先级高的任务设置)、用户做 (略) 榜
4.4 任务大厅:查看发布的任务,领取任务
后期规划(不在本期项目中):
任务积分结算、数据统计功能、公告发布、消息发布、广告发布、常见问题答疑等
3.2 朝汉书 (略) 语料查询及检索平台
3.2.1 全字符匹配查询
可以通过全字符匹配精确查询语料,展示该句的来源,领域等。
3.2.2 关键词查询
(略) 有包含关键词的语料信息,包括术语,句对。
3.2.3 全词查询
支持输入词组或短句,查询包含词组与短句相关语料信息。
3.2.4 分词查询
支持输入词组或短句通过智能分词后查询包含词组、 (略) 包含的词汇的语料信息。
3.2.5 智能查询
查询单句或单词,智能拓展查询与该词相关词汇或与该句相关词汇的双语资料以及词汇信息。
3.2.6 专有领域查询
建立专有领域查询方案,只查询 * 个或多个指定领域内的数据。包括领域内的术语、句对。
3.2.7 词典查询
查询词典内指定词汇的翻译与解释。
3.2.8 双语查询
输入单语词汇,获取该语种词汇信息以及对应译文词汇信息。词汇信息包括双语句对与词典解释。
3.2.9 多模式阅读
支持多模式阅读双语语料:左右阅读模式与上下阅读模式。
3.2. * 语料对齐
支持docx、txt等常用文本格式语料自动化对齐。生成tmx或EXCEL句对。
3.2. * 数据建模
系统支持自定义数据建模,通过预设的自定义属性,可对某 * 领域或类 (略) 建模,并可根据 (略) 精确检索、模糊检索和组合检索,支持模型样例的上传与下载。
3.2. * 模型检索
支持在模型下对具 (略) 自定义属性标记和编辑,支持自定义属性的精确检索、模糊检索和组合检索。
3.2. * 全库检索
支 (略) 匹配检索,并可 (略) 统计展示
* 、服务器:
1、应用服务器( * 台)
2U机架式服务器
CPU:Intel Xeon E5- * v4,2颗
内存:DDR4 RDIMM内存- * GB,4条
硬盘: * G SSD,M2接口, 2个
* G HDD * r/ * 0r, 2个
2、数据库及文件服务器( * 台)
2U机架式服务器
CPU:Intel Xeon E5- * v4 @ 2. * GHz,2颗
内存: DDR4 RDIMM内存- * GB, 8条
硬盘:2T SSD,M2接口, 1个
2T HDD * r/ * 0r raid 5, 5个
* 、软硬件清单
(略) 分 | 名称 | 概述 | 子项 |
朝汉书面语双语数据库 | 储存 * 万句对以上规模的朝 (略) 语料库,包含文档数据,双语数据。该语料库应包含:1、已公开出版原著和译著的现代 (略) 语料库,其规模应不低于 * 万句对;2、日常交流对话等 (略) 语料库,其规模应不低于 * 万句对。 注:应向 * 方提供上述原始数据库,已公开出版的原著和译著作品产权 (略) 有者拥有,供 * 方作为学术研究使用; (略) (略) 有, * 方享有使用权。 | 数据清洗 | |
数据格式转换 | |||
语料对齐 | |||
数据入库 | |||
数据标注模块 | |||
朝汉书面语双语数据检索系统 | 用于智能查询朝汉书面语资料,包括术语,句对。 | 全字符匹配查询 | |
关键词查询 | |||
全词查询 | |||
分词查询 | |||
智能查询 | |||
专有领域查询 | |||
词典查询 | |||
双语查询 | |||
多模式阅读 | |||
语料对齐 | |||
数据建模 | |||
模型检索 | |||
全库检索 | |||
(略) 分 | 名称 | 参数 | 数量 |
应用服务器 | 2U机架式服务器 CPU:Intel Xeon E5- * v4,2颗 内存:DDR4 RDIMM内存- * GB,4条 硬盘: * G SSD,M2接口, 2个 * G HDD * r/ * 0r, 2个 | 1台 | |
数据库及文件服务器 | 2U机架式服务器 CPU:Intel Xeon E5- * v4 @ 2. * GHz,2颗 内存: DDR4 RDIMM内存- * GB, 8条 硬盘:2T SSD,M2接口, 1个 2T HDD * r/ * 0r raid 5, 5个 | 1台 |
其他内容不变!
更正日期: * 日
采购人名称: (略)
地址: (略) 省 (略) 市
联 系 人:梁京成
联系方式: 点击查看>>
采购代理机构: (略)
地址: (略) 市净月区生态大街 * 号伟峰东樾 * 号楼 * 室
联系人:林叶、王丽艳
联系电话: 点击查看>> 、 点击查看>> 、 点击查看>>
3.项目联系方式项目联系人:林叶、王丽艳
电话: 点击查看>>
传真: 点击查看>>
原公告的采购项目编号: 点击查看>> GNJLHWGK *
原公告的采购项目名称: (略)
首次公告日期: * 日
更正事项:招标文件
更正内容:原招标文件中第 * 页“第 * 章服务需求” (略) 内容变更如下:
* 、朝 (略) 语料库检索系统
1系统总体技术要求
系统的建设应采用先进的设计思想和主流的技术路线,必须符合业界当前的发展趋势, (略) 业的相关技术标准。系统技术架构需要达到以下要求:
(1)采用Java语言开发, (略) 署,基于分布式架构,可灵活扩容提升性能。
(2)系统要具备良好的浏览器兼容性,能在谷歌、火狐等主流 (略) 所有的功能操作。
(3)采用基于服务的设计理念,支持中间件技术,提高系统的可维护性和软件代码的重用性, (略) 对IT资源的投资。
(4)采用基于面向对象的组件开发技术,构建可重用的业务组件, (略) 业务变更,搭建新应用。
(5)信息标准要求:系统的开发必须严 (略) 的 (略) 业标准, (略) 要求的相关信息标准。
(6)可靠性、稳定性要求:具 (略) 保障体系,提供完善的存储、备份手段,提供故障恢复手段,确保系统的稳定性;
(7)界面 (略) 性要求:操作流程清晰简洁,用户界面美观大方,给用户提供良好的操作体验。
(8)安全性和保密性要求:系统设计时必须考虑整体的安全性,从数据访问操作、用户认证、数据加密等 (略) 安全性设计,提高系统的安全性。系统应分别针对不同的应用和不同的环境,采取不同的措施,包括系统安全机制、数据存取权限控制和数据存储加密机制。
(9)可管理性要求:系统的设计必须有很好的可管理性,业务流程清晰,权限划分合理,提供便捷的搜索功能和工作流控制功能。
( * ) (略) 署要求:支 (略) 部署。
2系统性能要求
系统性能也是衡量系统建设成败的 * 个关键指标,本项目系统的具体性能指标要求如下:
指标类型 | 指标要求 |
查询 | 十万级数据量下单条记录本地查询的响应时间≤ * ms; 百万级数据量下单条记录本地查询的响应时间≤ * ms; 千万级数据量下单条记录本地查询的响应时间≤1.5秒; |
数据量 | 可支撑上亿句对规模的朝汉双语语料数据检索,支持TB级文件存储、检索与导出 |
并发量 | 支持百人规模日常在线使用 |
3功能要求(主体模块)
3.1 朝汉书 (略) 语料数据库
3.1.1 数据存储
数据 (略) 的基础,用于存储项目相关文档文件;用 (略) 包含的句对;按行业(领域)不同储存相关句对、词典、术语。
支持对资源文件(txt, doc等)和结 (略) 存储和关联,提供开放接口可对接第 * 方平台或原有系统,降低新平台建设的数据迁移成本,提供本地上传、远程数据上传和数据映射等数据入口快速接入数据。
3.1.2 (略) 语料智能检索的基础架构服务
为搜索引擎提供相关数据支持,提高检索速度。索引服务使用Elasticsearch作为搜索引擎,建立索引数据库,可以便捷 (略) 扩容操作;为分词操作提供数据支持。支持通用的数据抽取(采集、清洗、转换或同步)方法,生成需要的数据。
3.1.3 备份服务
支持原始数据灾备,支持数据库灾备。支持两个或 (略) 数据库组建集群提供高可用数据服务。
3.1.4 数据清洗与标注服务
通过机器辅助人工,对现有非结 (略) 转换清洗,转换为结构化数据,并储存至数据库。对 (略) 清洗标注,为按领域以及智能查询提供数据基础。
数据标注服务:
1、 (略)
1.1 团队管理
1) (略) 管理: (略) 信息、创建/ (略) 成员、 (略) 成员信息、剔除成员
2) (略) 管理: (略) 信息、 (略) 、 (略) 管理员
1.2 勋章管理:进行翻译标注之前的测试,勋章测试通过后可正式参与翻译任务
导入勋章测试数据、设置勋章通过率
2、 (略)
2.1 个人主页:上传头像、个人资料完善、做任务概况、我的勋章信息、 (略) 信息、公告消息
2.2 我的任务:标注、检查、质检任务
1)未完成任务:自检、放弃、提交任务
2)已完成:查看标注结果
2.3 我的勋章:继续认证勋章、重新认证勋章、通过勋章信息查看
3、批次管理
3.1 添加批次:数据导入、批次信息、配置标签、设置质检环节
3.2 批次列表:
1)分配任务:搜索标客、选择分配对象、设置分配数量、设置与取消免检
分配进度查看
2)查看批次进度:回收、转移、分配、查看标客文件、搜索
3)查看批次详情:已标注文件详情、文件查询
4)其它功能:暂停/启动批次、修改标签、数据导出、搜索查询批次
4、数据标注任务大厅
4.1 登录、修改密码、退出
4. (略)
4.3 平台首页:推荐任务(优先级高的任务设置)、用户做 (略) 榜
4.4 任务大厅:查看发布的任务,领取任务
后期规划(不在本期项目中):
任务积分结算、数据统计功能、公告发布、消息发布、广告发布、常见问题答疑等
3.2 朝汉书 (略) 语料查询及检索平台
3.2.1 全字符匹配查询
可以通过全字符匹配精确查询语料,展示该句的来源,领域等。
3.2.2 关键词查询
(略) 有包含关键词的语料信息,包括术语,句对。
3.2.3 全词查询
支持输入词组或短句,查询包含词组与短句相关语料信息。
3.2.4 分词查询
支持输入词组或短句通过智能分词后查询包含词组、 (略) 包含的词汇的语料信息。
3.2.5 智能查询
查询单句或单词,智能拓展查询与该词相关词汇或与该句相关词汇的双语资料以及词汇信息。
3.2.6 专有领域查询
建立专有领域查询方案,只查询 * 个或多个指定领域内的数据。包括领域内的术语、句对。
3.2.7 词典查询
查询词典内指定词汇的翻译与解释。
3.2.8 双语查询
输入单语词汇,获取该语种词汇信息以及对应译文词汇信息。词汇信息包括双语句对与词典解释。
3.2.9 多模式阅读
支持多模式阅读双语语料:左右阅读模式与上下阅读模式。
3.2. * 语料对齐
支持docx、txt等常用文本格式语料自动化对齐。生成tmx或EXCEL句对。
3.2. * 数据建模
系统支持自定义数据建模,通过预设的自定义属性,可对某 * 领域或类 (略) 建模,并可根据 (略) 精确检索、模糊检索和组合检索,支持模型样例的上传与下载。
3.2. * 模型检索
支持在模型下对具 (略) 自定义属性标记和编辑,支持自定义属性的精确检索、模糊检索和组合检索。
3.2. * 全库检索
支 (略) 匹配检索,并可 (略) 统计展示
* 、服务器:
1、应用服务器( * 台)
2U机架式服务器
CPU:Intel Xeon E5- * v4,2颗
内存:DDR4 RDIMM内存- * GB,4条
硬盘: * G SSD,M2接口, 2个
* G HDD * r/ * 0r, 2个
2、数据库及文件服务器( * 台)
2U机架式服务器
CPU:Intel Xeon E5- * v4 @ 2. * GHz,2颗
内存: DDR4 RDIMM内存- * GB, 8条
硬盘:2T SSD,M2接口, 1个
2T HDD * r/ * 0r raid 5, 5个
* 、软硬件清单
(略) 分 | 名称 | 概述 | 子项 |
朝汉书面语双语数据库 | 储存 * 万句对以上规模的朝 (略) 语料库,包含文档数据,双语数据。该语料库应包含:1、已公开出版原著和译著的现代 (略) 语料库,其规模应不低于 * 万句对;2、日常交流对话等 (略) 语料库,其规模应不低于 * 万句对。 注:应向 * 方提供上述原始数据库,已公开出版的原著和译著作品产权 (略) 有者拥有,供 * 方作为学术研究使用; (略) (略) 有, * 方享有使用权。 | 数据清洗 | |
数据格式转换 | |||
语料对齐 | |||
数据入库 | |||
数据标注模块 | |||
朝汉书面语双语数据检索系统 | 用于智能查询朝汉书面语资料,包括术语,句对。 | 全字符匹配查询 | |
关键词查询 | |||
全词查询 | |||
分词查询 | |||
智能查询 | |||
专有领域查询 | |||
词典查询 | |||
双语查询 | |||
多模式阅读 | |||
语料对齐 | |||
数据建模 | |||
模型检索 | |||
全库检索 | |||
(略) 分 | 名称 | 参数 | 数量 |
应用服务器 | 2U机架式服务器 CPU:Intel Xeon E5- * v4,2颗 内存:DDR4 RDIMM内存- * GB,4条 硬盘: * G SSD,M2接口, 2个 * G HDD * r/ * 0r, 2个 | 1台 | |
数据库及文件服务器 | 2U机架式服务器 CPU:Intel Xeon E5- * v4 @ 2. * GHz,2颗 内存: DDR4 RDIMM内存- * GB, 8条 硬盘:2T SSD,M2接口, 1个 2T HDD * r/ * 0r raid 5, 5个 | 1台 |
其他内容不变!
更正日期: * 日
采购人名称: (略)
地址: (略) 省 (略) 市
联 系 人:梁京成
联系方式: 点击查看>>
采购代理机构: (略)
地址: (略) 市净月区生态大街 * 号伟峰东樾 * 号楼 * 室
联系人:林叶、王丽艳
联系电话: 点击查看>> 、 点击查看>> 、 点击查看>>
3.项目联系方式项目联系人:林叶、王丽艳
电话: 点击查看>>
传真: 点击查看>>
最近搜索
无
热门搜索
无