智能辅助标密语料库预处理引擎意向公开第1包
智能辅助标密语料库预处理引擎意向公开第1包
序号 | 采购项目名称 | 需求概况 | 初步技术 | 预算金额 (万元) | 预计采购时间 | 备注 |
1 | 智能辅助标密语料库预处理引擎 | 科研文本预处理算法代码1套、基于大模型的pre-train算法代码2套、日志管理框架代码1套、配合部署测试服务0.5人月,计划完成部署的时间为11月1日。 | 智能辅助标密语料库预处理引擎包含预处理功能模块、pre-train功能模块、日志管理功能模块。 | 30万元 | 2023年 10月 | 无 |
(一)采购内容
拟采购的智能辅助标密语料库预处理引擎包含科研文本预处理算法代码1套、基于大模型的pre-train算法代码2套、日志管理框架代码1套、配合部署测试服务0.5人月。
科研文本预处理算法的输入是word、pdf等文件类型论文和专利,输出包括结构化存储的科研文本元属性数据、非结构化存储的科研文本正文数据;pre-train算法的输入是预处理后得到的结构化、非结构化数据,输出是结构化、非结构化数据的表示向量;日志管理框架的输出是每一次算法建模的样本记录、模型的参数记录。配合部署测试服务包括将全部代码部署到辅助定密系统网络架构中,确保全部代码正确运行,配合项目组算法团队已完成的定密模块在真实数据上进行测试,定密准确率需高于79%。
智能辅助标密语料库预处理引擎的功能模块主要包括科研文本预处理模块、pre-train模块和日志管理模块。
预处理功能模块包括文件读取功能、分区存储功能、间隔特征提取功能、离线使用功能、参数调整功能。pre-train功能模块包括多级别表示学习功能、重要参数调整功能、损失函数调整功能、中间结果存储功能、离线使用功能。日志管理功能模块包括文件样本管理功能、算法建模日志管理功能。
(二)技术要求
应满足的功能指标如下:
1. 预处理模块
(1)支持读取 doc、docx、pdf、txt 等4 种常用的文件类型,批量文件处理功能支持 zip、rar 等常用的压缩文件格式;
(2)支持将不同文件类型、不同模板、中文和英文文档中的科研文本转化为结构化、半结构化的数据存储在数据库中,其中pdf 文件为机器可自动提取文本内容格式;
a. 识别并存储的学位论文结构化数据至少包含以下元数据:标题、作者、作者单位、导师、发表时间、学位、密级、基金来源,不存在的元数据记为Null;
b. 识别并存储的学术论文结构化数据至少包含以下元数据:标题、全部作者、全部作者单位、国家地区、发表时间、密级、发表地,不存在的元数据记为Null;
c. 识别并存储的专利结构化数据至少包含以下元数据:标题、全部作者、全部作者单位、国家地区、申报时间、密级,不存在的元数据记为Null。
(3)支持保留句子、段落等文本间隔特征;
(4)支持文本抽取抗噪声功能,可有效排除词、句子、段落之间的空格、字符和特殊符号等噪声因素;
(5)支持离线使用,支持定期更新语料库和系统参数。
2. pre-train模块
(1)pre-train大模型至少包含Falcon-40B-Instruct、Vicuna两种算法;
(2)支持基于大模型的中文和英文科研文本的文档级表示学习;
(3)支持中文和英文科研文本的词级别、句子级别表示学习;
(4)支持语言模型重要参数调整,比如batch、epoch、表示向量维度等等;
(5)支持损失函数调整替换;
(6)支持保留分词、句法分析等中间结果;
(7)支持离线使用,支持定期更新语料库和系统参数。
3.日志管理模块
(1)支持文件样本管理;
(2)支持记录模型建模日志。
应满足的性能指标如下:
1. 预处理模块
(1)对于不同类型的文本文件,5万-8万字的文档,每1万个文档的预处理时长在12小时内;
(2)识别的结构化数据准确率高于80%;
(3)识别的科研文档正文数据中,句子、段落等文本间隔特征准确率高于95%;
(4)文本抽取抗噪声功能,特殊字符的排除准确率高于80%;
(5)算法参数调整接口应当用户友好。
2. pre-train模块
(1)任一pre-train大模型对于5万-8万字的中英文科研文档,每1万个文档的处理时长在12小时以内;
(2)任一pre-train大模型对于5万-8万字的中英文科研文档,每个文档的处理时长在10秒以内;
(3)任一pre-train大模型,配合项目组算法团队已完成的定密模块在真实数据上进行测试,定密准确率需高于79%。
(4)分词、句法分析等中间结果的准确率高于95%;
(5)输出的表示向量格式应当符合*方标准规范;
(6)算法参数调整接口应当用户友好。
3. 日志管理模块
(1)能够存储近期1万个科研文档;
(2)能够存储20次模型建模日志。
(三)经济要求
1.交付时间:合同生效后,成交方在半个月内完成系统调试、按照和部署。成交供应商提供系统的各项技术性能指标必须达到合同、询价文件和报价文件规定的要求。
2.交付地点: (略) (采购单位指定地点)
3.交付成果:采购智能辅助标密语料库预处理引擎1个,计划完成部署时间为11月1日。因项目数据和代码需要部署在保密服务器上,全部代码需能离线使用。考虑全部算法需进行开源认证,以满足大学的要求,*方需提供未封装的全部源码。
4.其他要求:配合驻场部署测试服务0.5人月。
(四)售后服务
1. 质量保证期:自交货验收完毕之日算起,所有产品质保 6 个月。在免费质保期内,出现产品质量问题,*方提出后,*方应当在24小时内响应,48小时内到达现场提供相关的维修、更换等服务。
2.售后服务:要求投标人在项目驻场开发所在地提供技术服务力量,能够根据需求提供技术支持,响应提交解决方案,投标人应具有7x24小时的服务支撑系统,24小时内响应用户维护和维修服务需求,72小时内解决问题。
(五)知识产权和保密要求
报价供应商应当保证采购单位在使用该物资或其任何一部分时,不受第三方侵权指控。同时,报价供应商不得向第三方泄露采购机构提供的技术文件等材料。
基于项目合同履行形成的知识产权和其他权益,其权属归采购单位所有,法律另有规定的除外。
(六)验收方式
合同*方组织成立验收小组,依据合同、谈判文件和报价文件等,采取现场测试等方式开展验收。
(七)意向公开时间
2023年10月19日-2023年11月3日。
联系人:谢翌
联系电话:*
序号 | 采购项目名称 | 需求概况 | 初步技术 | 预算金额 (万元) | 预计采购时间 | 备注 |
1 | 智能辅助标密语料库预处理引擎 | 科研文本预处理算法代码1套、基于大模型的pre-train算法代码2套、日志管理框架代码1套、配合部署测试服务0.5人月,计划完成部署的时间为11月1日。 | 智能辅助标密语料库预处理引擎包含预处理功能模块、pre-train功能模块、日志管理功能模块。 | 30万元 | 2023年 10月 | 无 |
(一)采购内容
拟采购的智能辅助标密语料库预处理引擎包含科研文本预处理算法代码1套、基于大模型的pre-train算法代码2套、日志管理框架代码1套、配合部署测试服务0.5人月。
科研文本预处理算法的输入是word、pdf等文件类型论文和专利,输出包括结构化存储的科研文本元属性数据、非结构化存储的科研文本正文数据;pre-train算法的输入是预处理后得到的结构化、非结构化数据,输出是结构化、非结构化数据的表示向量;日志管理框架的输出是每一次算法建模的样本记录、模型的参数记录。配合部署测试服务包括将全部代码部署到辅助定密系统网络架构中,确保全部代码正确运行,配合项目组算法团队已完成的定密模块在真实数据上进行测试,定密准确率需高于79%。
智能辅助标密语料库预处理引擎的功能模块主要包括科研文本预处理模块、pre-train模块和日志管理模块。
预处理功能模块包括文件读取功能、分区存储功能、间隔特征提取功能、离线使用功能、参数调整功能。pre-train功能模块包括多级别表示学习功能、重要参数调整功能、损失函数调整功能、中间结果存储功能、离线使用功能。日志管理功能模块包括文件样本管理功能、算法建模日志管理功能。
(二)技术要求
应满足的功能指标如下:
1. 预处理模块
(1)支持读取 doc、docx、pdf、txt 等4 种常用的文件类型,批量文件处理功能支持 zip、rar 等常用的压缩文件格式;
(2)支持将不同文件类型、不同模板、中文和英文文档中的科研文本转化为结构化、半结构化的数据存储在数据库中,其中pdf 文件为机器可自动提取文本内容格式;
a. 识别并存储的学位论文结构化数据至少包含以下元数据:标题、作者、作者单位、导师、发表时间、学位、密级、基金来源,不存在的元数据记为Null;
b. 识别并存储的学术论文结构化数据至少包含以下元数据:标题、全部作者、全部作者单位、国家地区、发表时间、密级、发表地,不存在的元数据记为Null;
c. 识别并存储的专利结构化数据至少包含以下元数据:标题、全部作者、全部作者单位、国家地区、申报时间、密级,不存在的元数据记为Null。
(3)支持保留句子、段落等文本间隔特征;
(4)支持文本抽取抗噪声功能,可有效排除词、句子、段落之间的空格、字符和特殊符号等噪声因素;
(5)支持离线使用,支持定期更新语料库和系统参数。
2. pre-train模块
(1)pre-train大模型至少包含Falcon-40B-Instruct、Vicuna两种算法;
(2)支持基于大模型的中文和英文科研文本的文档级表示学习;
(3)支持中文和英文科研文本的词级别、句子级别表示学习;
(4)支持语言模型重要参数调整,比如batch、epoch、表示向量维度等等;
(5)支持损失函数调整替换;
(6)支持保留分词、句法分析等中间结果;
(7)支持离线使用,支持定期更新语料库和系统参数。
3.日志管理模块
(1)支持文件样本管理;
(2)支持记录模型建模日志。
应满足的性能指标如下:
1. 预处理模块
(1)对于不同类型的文本文件,5万-8万字的文档,每1万个文档的预处理时长在12小时内;
(2)识别的结构化数据准确率高于80%;
(3)识别的科研文档正文数据中,句子、段落等文本间隔特征准确率高于95%;
(4)文本抽取抗噪声功能,特殊字符的排除准确率高于80%;
(5)算法参数调整接口应当用户友好。
2. pre-train模块
(1)任一pre-train大模型对于5万-8万字的中英文科研文档,每1万个文档的处理时长在12小时以内;
(2)任一pre-train大模型对于5万-8万字的中英文科研文档,每个文档的处理时长在10秒以内;
(3)任一pre-train大模型,配合项目组算法团队已完成的定密模块在真实数据上进行测试,定密准确率需高于79%。
(4)分词、句法分析等中间结果的准确率高于95%;
(5)输出的表示向量格式应当符合*方标准规范;
(6)算法参数调整接口应当用户友好。
3. 日志管理模块
(1)能够存储近期1万个科研文档;
(2)能够存储20次模型建模日志。
(三)经济要求
1.交付时间:合同生效后,成交方在半个月内完成系统调试、按照和部署。成交供应商提供系统的各项技术性能指标必须达到合同、询价文件和报价文件规定的要求。
2.交付地点: (略) (采购单位指定地点)
3.交付成果:采购智能辅助标密语料库预处理引擎1个,计划完成部署时间为11月1日。因项目数据和代码需要部署在保密服务器上,全部代码需能离线使用。考虑全部算法需进行开源认证,以满足大学的要求,*方需提供未封装的全部源码。
4.其他要求:配合驻场部署测试服务0.5人月。
(四)售后服务
1. 质量保证期:自交货验收完毕之日算起,所有产品质保 6 个月。在免费质保期内,出现产品质量问题,*方提出后,*方应当在24小时内响应,48小时内到达现场提供相关的维修、更换等服务。
2.售后服务:要求投标人在项目驻场开发所在地提供技术服务力量,能够根据需求提供技术支持,响应提交解决方案,投标人应具有7x24小时的服务支撑系统,24小时内响应用户维护和维修服务需求,72小时内解决问题。
(五)知识产权和保密要求
报价供应商应当保证采购单位在使用该物资或其任何一部分时,不受第三方侵权指控。同时,报价供应商不得向第三方泄露采购机构提供的技术文件等材料。
基于项目合同履行形成的知识产权和其他权益,其权属归采购单位所有,法律另有规定的除外。
(六)验收方式
合同*方组织成立验收小组,依据合同、谈判文件和报价文件等,采取现场测试等方式开展验收。
(七)意向公开时间
2023年10月19日-2023年11月3日。
联系人:谢翌
联系电话:*
最近搜索
无
热门搜索
无