组织机构代码管理中心信息检索系统查询优化开发招标公告
组织机构代码管理中心信息检索系统查询优化开发招标公告
全国组织机构代码管理中心信息检索系统查询优化开发采购项目(GDC-****************4) 网上竞价公告
项目名称: 全国组织机构代码管理中心信息检索系统查询优化开发采购项目
项目编号: GDC-****************4
中央国家机关政府采购中心受采购单位 全国组织机构代码管理中心 委托, 对下列货物及服务进行网上电子政府采购,现邀请合格投标人进行网上竞价。
采购项目信息
采购单位: 全国组织机构代码管理中心 开始日期: 2013-05-03 07:44:26
联系人: 孙泰 截止日期: 2013-05-08 07:44:26
联系电话: ******** 送货地点: 北京市西城区德外裕民路裕中西里46号东门
联系邮件: suntai0610@hotmail.com 到货时间: 采购结果公告后 3 天内
剩余时间: 4天23小时 备注信息: 一、 项目内容 代码管理中心提出通过建立词表商号信息库、全文索引库以及组织机构信息检索结果优化机制等为组织机构代码知识积累和提供准确、完整数据的服务平台。总体目标是构建符合代码中心特色的组织机构信息检索结果查询优化机制,为提供更精确的数据检索和服务结果提供有效的帮助。主要工作内容如下: (1) 现状与系统需求调研了解全国组织机构代码管理中心业务现状,分析正在使用的检索系统存在的问题,以及与现阶段对检索系统提出的更多需求,确定完整的需求与研究内容。 (2) 数据分析与数据预处理对全国法人单位基础数据库的法人数据进行分析,确定需要检索的字段以及检索结果呈现方式。按检索字段要求对法人数据进行抽取、分词,并按多索引文件形式存储。可能涉及到的主要字段信息包括:机构名称、机构地址、行政区划、主管机构、经济行业类别、经营范围等。 (3) 词表与组织机构名称简称信息库建设建立针对组织机构信息相关的词表、行业同义词词表以及法人代码行业词表;对组织机构名称信息进行详细分析,根据各组织机构简称的组成归纳其规则,然后按照规则生成各组织机构的简称。我们对全国组织结构代码管理中心提供的部分机构代码信息,对其中的组织机构名称及其简称进行了详细的分析,分析发现其简称的构成与全称之间存在如下关系: (1)简称是由全称中每个词的首字组成的,如: 北京师范大学——北师大; (2)如果在组织机构名称全称中出现某专有名词,则该专有名词即为该组织机构的简称,如:美国苹果公司——苹果; (3)如果某组织机构的全称是以地点开始的,则地点+其他词的首字组成该组织机构的简称,如:北京质量技术监督局——北京质监局; (4)以组织机构名称全称中除地点和机构后缀以外的词组成其简称,如:中国东方航空公司——东方航空; (5)以组织机构名称全称中除地点和机构后缀外的所有词的首字组成其简称, 如:中国东方航空公司——东航,中国国际航空股份有限公司——国航; (6)以组织机构名称全称除机构后缀外,由其他词的首字+机构后缀组成该机构名称的简称,如:中国农业银行总行——农行总行,交通银行总部——交行总部。由于组织机构名称简称非常不规范,没有固定的生成方法,根据上面的分析,我们得到了部分构成机构名称简称的一些特征,根据这些特征我们可以得到某组织机构名称的所有可能的简称的规则。 Rule1:各词汇首字(简称一般不超过3个字的情况) Rule2:仅专有名词(机构名称中出现专有名称尤其是音译名的情况,如苹果,耐克,) Rule3:机构名称中取除开头的地址词和机构名称常见后缀剩余的所有词组成(一般2-3个词) Rule4:机构名称中取除开头的地址词和机构名称常见后缀剩余的所有词的首字(一般2-3个字) Rule5:针对银行的简称,取除地址外银行前面几个词的首字+银行机构后缀的尾字(如中国农业银行,简称农行) Rule6:针对机构名称嵌套的情况,两次应用上述规则即可(如中国农业银行北京海淀东区支行,简称为中国农行海东支行,农行海东支行,农行北京海东支行)词表与组织机构简称在信息检索中有非常重要的应用,在检索时,用户往往会输入简称,而用户输入的这个简称往往是不规范的。所以,在建立索引时,为了提高检索的查全率和查准率,往往对代码信息库中的组织机构名称进行简称的生成,将其所有可能的简称都进行索引或作为词表中的词条,并建立其与全称之间的对应关系,这样,无论用户输入哪种简称都会被搜索引擎识别,都会得到用户需要的信息。 (4) 商号信息库建设根据企业法人名称组成特点,设定相关规则结合机器学习相关算法抽取机构名称中的商号信息,实现企业法人商号的识别、抽取与存储,并建立商号与企业法人数据之间的对应关系。商号信息在共享平台检索中有非常重要的应用,在用户检索时往往会输入与商号相关的机构信息,如肯德基、麦当劳、七匹狼、格力、奥克斯等。 (5) 组织机构信息检索结果优化机制设计,根据该机制可以实现该检索系统的结果排序功能,对检索结果按照相关性、组织机构的层次结构进行展示。第一、按内容相关性排序,这需要建立全文数据库排序规则,制定全文数据访问标准协议,对检索结果按照语义相关性进行组织,根据目标检索系统提供的排序规则对全文数据结果进行排序展示;第二、按组织机构之间的层次管理结构,对检索结果进行优化,这需要对代码数据库中的组织机构名称进行详细分析,设置相关的规则,按照组织机构的级别进行层次化,对连锁型的机构或集团化的机构都适合;第三、按照组织机构的分布区域或行政区划,对检索结果进行优化,按照从省到市到县区结构进行组织,对行政机构、事业单位都适合;第四、按照组织机构的主管机构对检索结果进行优化,按照机构管理之间的层次结构进行组织,对大型国有企业比较适合;第五、其他优化机制。通过对代码数据的详细分析,设计出相应优化方案,每种优化机制策略下都会设置相应的规则,且规则是可以穷举的。 (6)系统集成与功能完善,将相应的优化机制集成到目前的检索系统中,并对项目实现的功能、性能进行集成测试,在测试中进一步完善项目的功能,逐渐提高检索结果的准确率和召回率。
资质要求: 1.竞价公司须提供针对本项目的实施时间表及费用明细; 2.竞价公司须具备E-trans产品的原厂服务函;(说明: 该检索优化软件的开发是基于本单位原有共享平台进行的。而共享平台的数据传输是采用的ETRANS软件,因此,所有基于本平台的二次开发系统都需要ETRANS软件提供相应接口和开发支持,因此,在本次的竞价过程中,我们提出要求ETRANS产品厂商对相应的开发工作提供原厂技术支持。) 3.竞价公司在项目实施过程中需要安排相关研发人员在用户方现场工作,并确保按照用户方相关规定使用数据; 4.中标公司需要提供本产品的相关培训,并负责软件与用户方原有系统的集成工作,同时按照用户要求对其他应用的对接留有接口。
供应商在竞价时,须根据资质要求中的内容以附件形式上传相关资质证明。
需求附件: ********152*****517.rar
采购商品信息
商品分类 参考品牌 规格型号 单位 数量 基本描述
台 1
全国组织机构代码管理中心信息检索系统查询优化开发采购项目
GDC-****************4
商品名称:
参考品牌:
参考模型:
商品产地: 中国
数 量: 1
单 位: 台
服 务: 1.竞价公司须提供针对本项目的实施时间表及费用明细; 2.竞价公司须具备E-trans产品的原厂服务函; 3.竞价公司在项目实施过程中需要安排相关研发人员在用户方现场工作,并确保按照用户方相关规定使用数据; 4.中标公司需要提供本产品的相关培训,并负责软件与用户方原有系统的集成工作,同时按照用户要求对其他应用的对接留有接口。
备 注: 一、 项目内容 代码管理中心提出通过建立词表商号信息库、全文索引库以及组织机构信息检索结果优化机制等为组织机构代码知识积累和提供准确、完整数据的服务平台。 总体目标是构建符合代码中心特色的组织机构信息检索结果查询优化机制,为提供更精确的数据检索和服务结果提供有效的帮助。主要工作内容如下: (1) 现状与系统需求调研 了解全国组织机构代码管理中心业务现状,分析正在使用的检索系统存在的问题,以及与现阶段对检索系统提出的更多需求,确定完整的需求与研究内容。 (2) 数据分析与数据预处理 对全国法人单位基础数据库的法人数据进行分析,确定需要检索的字段以及检索结果呈现方式。 按检索字段要求对法人数据进行抽取、分词,并按多索引文件形式存储。 可能涉及到的主要字段信息包括:机构名称、机构地址、行政区划、主管机构、经济行业类别、经营范围等。 (3) 词表与组织机构名称简称信息库建设 建立针对组织机构信息相关的词表、行业同义词词表以及法人代码行业词表; 对组织机构名称信息进行详细分析,根据各组织机构简称的组成归纳其规则,然后按照规则生成各组织机构的简称。 我们对全国组织结构代码管理中心提供的部分机构代码信息,对其中的组织机构名称及其简称进行了详细的分析,分析发现其简称的构成与全称之间存在如下关系: (1)简称是由全称中每个词的首字组成的,如: 北京师范大学——北师大; (2)如果在组织机构名称全称中出现某专有名词,则该专有名词即为该组织机构的简称,如:美国苹果公司——苹果; (3)如果某组织机构的全称是以地点开始的,则地点+其他词的首字组成该组织机构的简称,如:北京质量技术监督局——北京质监局; (4)以组织机构名称全称中除地点和机构后缀以外的词组成其简称,如:中国东方航空公司——东方航空; (5)以组织机构名称全称中除地点和机构后缀外的所有词的首字组成其简称, 如:中国东方航空公司——东航,中国国际航空股份有限公司——国航; (6)以组织机构名称全称除机构后缀外,由其他词的首字+机构后缀组成该机构名称的简称,如:中国农业银行总行——农行总行,交通银行总部——交行总部。 由于组织机构名称简称非常不规范,没有固定的生成方法,根据上面的分析,我们得到了部分构成机构名称简称的一些特征,根据这些特征我们可以得到某组织机构名称的所有可能的简称的规则。 Rule1:各词汇首字(简称一般不超过3个字的情况) Rule2:仅专有名词(机构名称中出现专有名称尤其是音译名的情况,如苹果,耐克,) Rule3:机构名称中取除开头的地址词和机构名称常见后缀剩余的所有词组成(一般2-3个词) Rule4:机构名称中取除开头的地址词和机构名称常见后缀剩余的所有词的首字(一般2-3个字) Rule5:针对银行的简称,取除地址外银行前面几个词的首字+银行机构后缀的尾字(如中国农业银行,简称农行) Rule6:针对机构名称嵌套的情况,两次应用上述规则即可(如中国农业银行北京海淀东区支行,简称为中国农行海东支行,农行海东支行,农行北京海东支行) 词表与组织机构简称在信息检索中有非常重要的应用,在检索时,用户往往会输入简称,而用户输入的这个简称往往是不规范的。所以,在建立索引时,为了提高检索的查全率和查准率,往往对代码信息库中的组织机构名称进行简称的生成,将其所有可能的简称都进行索引或作为词表中的词条,并建立其与全称之间的对应关系,这样,无论用户输入哪种简称都会被搜索引擎识别,都会得到用户需要的信息。 (4) 商号信息库建设 根据企业法人名称组成特点,设定相关规则结合机器学习相关算法抽取机构名称中的商号信息,实现企业法人商号的识别、抽取与存储,并建立商号与企业法人数据之间的对应关系。 商号信息在共享平台检索中有非常重要的应用,在用户检索时往往会输入与商号相关的机构信息,如肯德基、麦当劳、七匹狼、格力、奥克斯等。 (5) 组织机构信息检索结果优化机制设计,根据该机制可以实现该检索系统的结果排序功能,对检索结果按照相关性、组织机构的层次结构进行展示。 第一、按内容相关性排序,这需要建立全文数据库排序规则,制定全文数据访问标准协议,对检索结果按照语义相关性进行组织,根据目标检索系统提供的排序规则对全文数据结果进行排序展示; 第二、按组织机构之间的层次管理结构,对检索结果进行优化,这需要对代码数据库中的组织机构名称进行详细分析,设置相关的规则,按照组织机构的级别进行层次化,对连锁型的机构或集团化的机构都适合; 第三、按照组织机构的分布区域或行政区划,对检索结果进行优化,按照从省到市到县区结构进行组织,对行政机构、事业单位都适合; 第四、按照组织机构的主管机构对检索结果进行优化,按照机构管理之间的层次结构进行组织,对大型国有企业比较适合; 第五、其他优化机制。 通过对代码数据的详细分析,设计出相应优化方案,每种优化机制策略下都会设置相应的规则,且规则是可以穷举的。 (6)系统集成与功能完善,将相应的优化机制集成到目前的检索系统中,并对项目实现的功能、性能进行集成测试,在测试中进一步完善项目的功能,逐渐提高检索结果的准确率和召回率。
标签:
0人觉得有用
招标
|
- 关注我们可获得更多采购需求 |
关注 |
最近搜索
无
热门搜索
无