试验数据文本信息分析技术外协询价公告
试验数据文本信息分析技术外协询价公告
试验数据文本信息分析技术外协询价公告
一、主要用途
试验数据文本信息分析相关技术以及验证优化等内容开展外协工作。
二、项目编号
2024-JLSXYB-S4010
三、专业领域
计算机与软件、网络通信、大数据、其他。
四、主要内容
(一) 技术研究部分1.试验数据文本摘要和关键词提取
试验数据具有来源渠道广泛、种类繁多、数据量大的特点,导致数据的关键信息不突出、利用率低的问题。为实现试验数据的高效利用,提取试验数据的文本摘要和关键词是文本分析的重要一环。为此,研究抽取式摘要生成技术。提出自监督预训练摘要生成模型,支持在试验数据上进行微调训练,通过训练可以实现对试验数据摘要和关键词的准确提取。
2.试验数据文本命名实体识别
试验数据中经常包含大量的技术术语、装备名称和实体信息,为获取这些信息,研究以下内容:
(1)研究基于深度学习的命名实体识别模型,有效地学习文本的语义特征,并且能够处理长距离依赖关系,用于提取试验文本信息中的具体实体和关键术语,为试验数据的分析和解释提供有力支持。模型能够适应不同的数据集。将该模型应用到试验数据文本命名实体识别中,能够提升数据分析处理的效率和准确性。
(2)研究命名实体识别模型在特定标注数据集的微调方法,以更好地适应指控通信装备试验文本信息分析任务。研究将试验专业领域的专有词表集成到模型中,以提高对特定实体的识别能力方法。
3.试验数据文本分类
试验数据种类繁多,采用文本分类技术对大量数据进行科学地组织和管理显得尤为重要。为此,本课题研究如下内容:
(1)试验数据文本分类相关技术。研究并提出词汇特征模型,研究基于词汇特征模型来进行具体的试验数据文本分类任务。
(2)针对装备试验知识图谱构建需求,设计自顶向下和自底向上相结合的知识图谱构建框架。
4.试验数据文本检索分析方法
(1)研究基于知识图谱的试验文档检索分析方法。构建从用户问题、检索条件到知识图谱检索语句的生成模型,将用户提出问题转化为结构化的检索语句,在知识图谱中进行语义检索和答案生成。
(2)研究试验文档联合检索和全文检索方法,研究并解决制约检索效率的关键问题,为数据辅助分析提供支撑。
(二) 验证软件开发部分在技术研究的基础上,编制相应的验证软件,验证技术研究相应算法,含数据录入和摘要提取、命名实体识别和数据分类、全文检索和统计分析等模块。
1.数据录入和摘要提取
(1)能够对文档文件进行录入、解析、存储、处理,文档文件支持XLS、TXT、PDF、DOC、WPS等格式。
(2)在上传数据时支持添加通用标签,如录入人员、所属单位、录入时间、数据分类、主题词、专业类别、存储地址等内容;支持根据数据具体情况设置专有标签。支持标签的增加、删除、编辑。标签更改后,原标签自动同步更新。
(3)对系统中试验数据的文本内容进行分析,包括中文分词、文本摘要及关键词的提取、实体抽取、文档自动分类等,知识目录支持根据不同的分类原则进行分类,支持自定义分类
(4)对文档文本进行抽取,支持手动进行关联标注,然后将抽取的数据存入数据库,建立查询索引支持查询。
2.实体识别和数据分类
(1)通过读入训练数据、构造配置字典、构建特征空间、循环迭代更新参数这四个步骤实现实体识别。
(2)支持术语识别、特定装备及事件识别和实体关系抽取。
(3)支持重点实体发现,根据用户指定的重点话题关键词,从试验数据文本中找出包含该关键词的短语或句子;从该短语或句子中发现命名实体,所发现的命名实体作为重点实体,在数据库中标记其属性为“重点实体”。
(4)提供数据导航功能,通过实体、事件、专业等多个角度对信息进行综合展现,从而为用户提供一个灵活、高效的数据导航分类浏览方式。
3.全文检索和统计分析
(1)文本展现:支持对导入系统的文本进行展现,支持DOC、XLS、PDF、WPS等常用办公文档预览功能,能够保持文本中原有元素的格式等。
(2)为用户提供检索界面,支持全文检索、组合检索、模糊化查询检索。
(3)支持二次检索,根据用户输入的过滤条件,进一步缩小结果的范围,实现对检索结果的精准定位。
(4)在查询结果展示页面上给出每条检索结果的关键词、摘要、上传时间、名称、类型、时间、简要描述等基本信息介绍等基本信息,以及标题。在标题上附加有详情链接;用户点击该链接可以进入该文件的详情页面。
(5)统计分析:对系统中所有数据或查询结果数据进行分类统计,使用柱状图、饼状图、折线图等多种表现形式进行展示,支持对数据类别、上传时间、专业类别等的统计分析。
五、指标要求
1.文档文件支持XLS、TXT、PDF、DOC、WPS等格式。
2.验证软件组合检索支持不少于5个关键词的组合检索,检索时间响应≤3秒;检索到的文本资源按照与检索词的匹配度进行排序。
3.支持GB级数据的存储、处理和检索。
4.验证软件采用B/S架构,应能流畅运行在场区现有试验网计算机上。
5.至少研究三种命名实体识别方法,并通过验证软件模块的实例验证,实现并优化其中的一种方法。
6.所构建的知识图谱实体和关系覆盖率达到80%。
7.按照装备、任务、部门进行分类,文本分类准确率和正确率均不小于90%。
8.技术报告应内容详实,具备独创性,查重率应低于15%。引用他人的研究结果需明确标注。
六、成果形式
1.“试验数据文本信息分析技术研究”研究报告;
2.试验数据文本信息分析验证软件(含数据录入和摘要提取、实体识别和数据分类、全文检索和统计分析三个模块);
3.研究报告和验证软件需提交光盘1份,纸质报告一式3份。
七、资质要求
1.符合《中华人民共和国政府采购法》第二十二条资格
(1)具有独立承担民事责任的能力;
(2)具有良好的商业信誉和健全的财务会计制度;
(3)具有履行合同所必须的设备和专业技术能力;
(4)有依法缴纳税收和社会保障资金的良好记录;
(5)三年内在经营活动中没有重大违法记录;
(6)法律、行政法规规定的其他条件。
2.具有独立法人资格,非外资(含港澳台)独资企业或外资控股企业;
3.未被中国政府采购网列入政府采购严重违法失信行为记录名单;未在军队采购网军队采购暂停名单处罚范围内或军队采购失信名单禁入处罚期和处罚范围内;未被“信用中国”列入严重失信主体名单或国家企业信用信息公示系统列入严重违法失信名单;
4.具备三级以上(含三级)保密资质。
八、报名时间及报名方式
8.1报名时间:2024年12月10日-12月16日(8:00-12:00、15:00-17:00,北京时间)
8.2报名方式:联系负责人进行线下报名。
十、联系人及联系方式
地 址:陕西省渭南市华阴市50信箱80分箱
邮 编:******
联 系 人:涂老师
电 话:0913-*******,158*****340
传 真:0913-*******
招标
|
- 关注我们可获得更多采购需求 |
关注 |
最近搜索
无
热门搜索
无