福建省图书馆福建省图书馆2021年中央支持地方公共文化服务体系建设——基础数字文化资源细颗粒度建设和标签标引项目服务类采购项目标前更正公告
福建省图书馆福建省图书馆2021年中央支持地方公共文化服务体系建设——基础数字文化资源细颗粒度建设和标签标引项目服务类采购项目标前更正公告
公告信息: | |||
采购项目名称 | (略) (略) * 年中央支持地方公共文化服务体系建设——基础数字文化资源细颗粒度建设和标签标引项目服务类采购项目 | ||
品目 | |||
采购单位 | (略) | ||
行政区域 | (略) 省 | 公告时间 | * 日 * : * |
首次公告日期 | * 日 | 更正日期 | * 日 |
联系人及联系方式: | |||
项目联系人 | 吴先生 | ||
项目联系电话 | 点击查看>> | ||
采购单位 | (略) | ||
采购单位地址 | (略) 市湖东路 * 号 | ||
采购单位联系方式 | 点击查看>> | ||
代理机构名称 | (略) (略) 有限公司 | ||
代理机构地址 | (略) 市 (略) 区王庄街道珠宝路 (略) 1#楼B区第 * 层南侧 * -1 | ||
代理机构联系方式 | 点击查看>> |
* 、项目基本情况
原公告的采购项目编号:[ * ]GXGC[CS] 点击查看>>
原公告的采购项目名 称: (略) (略) * 年中央支持地方公共文化服务体系建设——基础数字文化资源细颗粒度建设和标签标引项目服务类采购项目
首次公告日期: *
* 、更正信息
合同包1
更正事项:采购文件
更正原因:招标文件内容调整
更正内容:
事项1:招标文件中“第 * 章 采购内容及要求”
* 、(根据本项目实际情况,填写“采购标的”或“项目概况”)
( * )本次采购为 (略) * 年公共数字文化资源建设服务类采购项目。
( * )利用人工智能识别、智能提取等技术,围绕 (略) 自有版权的地方文献、古籍、家谱等资源,进行细颗粒度内容标识、关键知识点的标签和标引建设,对 (略) 精细化、可视化揭示,实现资源的知识化、专题化服务。
* 、技术要求
1. 建设《馆藏地方特色文献及古籍颗粒度和标签标引(第 * 期)》,主题为《朱子文化》及《 (略) 茶文化》,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作2万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作,文献内容由 (略) 提供。
3. 与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计前端专题数据库揭示页面,对 (略) 可视化揭示。实现元数据和对象数据的关联检索调用、为读者提供相关知识发现服务。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.数字化地方文献,扫描分辨率不低于 * dpi, (略) 全文识别和颗粒度制作。包含文献扫描、整理归档、 (略) 理等。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《朱子文化》《 (略) 茶文化》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | classificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名 称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次数字化内容
本次数字化的地方文献扫描文件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
合同包2(金额 * 万元)
( * )采购内容:
1. 建设《馆藏 (略) 家谱颗粒度和标签标引(第 * 期)》,主题为《 (略) 名人家谱》《 (略) 涉侨家谱》《客家族谱》等相关家族谱,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作5万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 采购版权明晰的、 (略) (略) 藏的 (略) 与朱熹相关的家谱、 (略) 涉侨家谱数字化影印件不少于 * 页, (略) 全文识别和颗粒度制作。
3. 需与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计《 (略) 名人家谱》《 (略) 涉侨家谱》专题数据库前端揭示页面,对古籍家谱及人物 (略) 专题可视化揭示。实现关联检索,实现家谱文献原图与文字内容可视化对照揭示。
4. 本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,并能实现生成电子书和家谱树功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.本次采购的家谱数字化影印件分辨率不低于 * dpi,包含文献扫描、整理归档、 (略) 理等。提交数据格式为TIFF,JPG和PDF格式,分辨率不低于 * dpi。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《 (略) 名人家谱》《 (略) 涉侨家谱》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
4.本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,实现生成家谱树及全文电子书功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | classificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次采购内容
本次采购的的家谱数字化影印件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
* 、实施过程要求(包1和包2相同)
( * )合 作建设方式要求
1、建立项目合 作制度:采购人派 * 名专业技术人员全程参与项目建设。成交人负责项目的承建,采购人负责项目的联络及监管。同时,成交人也有义务尽自己的能力协助采购人更顺利的开展前期的联络工作。
2、在承建过程中,成交人必须根 (略) 拟定的任务内容 (略) (略) * ,如 (略) 变换,须通过采购方的认可,否则将构成违约。
3、建立项目调研制度:在项目开展前,成交人必须和采购人 * 同开展调研,根据调研结果修改前期方案。
( * )专家论证制度
1、成交人在项目建设初期需召开 * 次项目专家研讨会,提供建设方案,听取专家意见,并根据专家意见对项目建设 (略) 修改。研讨会的专家名单由成交人提供,由采购人确定。专家组成员不少于5名,包含内容专家3名、数据库专家1名、展览专家1名。
2、成交人推荐专家( (略) 专业1名、古籍文史专家1名)作为该项目的总顾问,经采购人确定后,在项目策划、设 计及实施过程中,成交人须全程与专家互动,听取专家意见。
3、若成交人未经专家论证就开始项目的制作,采购人有权终止合同。
( * )建立验收制度
1、建立验收制度:采购人专业技术人员全程对 (略) 监管和控制。在建设前期、中期、后期采取不定期抽查的方式, (略) 建设的内容等方面是否符合采购人的要求,验收合格,需经采购人专业技术人员签字确认。验收不合格,成交 (略) 整改, * 次不合格,终止合同,造成的损失由成交人负责。
2、成交人须配合采购人召开省内项目验收会,听取验收意见, (略) 修改,直至通过 (略) 省文旅厅 (略) 的审核。若成交人未按要求修改,采购人有权终止合同。
( * )验收要求
中 标方须 (略) 有档案材 (略) 分类明晰的整理,提交 (略) 验收。包括但不限于:
1.所有要求提交的项目成品内容。
2. (略) 产生的过程性文档和图片资料。
3. (略) 产生的宣传资料。
注:以上验收材料,电子版文件须存在硬盘中提交给采购人(硬盘不返还),纸质材料须分类整理存放于档案盒(附有目录页)提交给采购人。
( * )版权要求
中 标方须妥善 (略) 购买的古籍以及项目建设过程中使用的图片、视频、音频等素材的版权, (略) 版权声明,证明解决版权问题。确保 (略) 、公共数字文化工程在使用提交成品时,无任何版权纠纷,采购人无须再向其他机构或个人付费,若有侵权等法律责任由中 标方承担,与采购人无关。
( * )经费构成
该项目经费支出主要包括资源项目建设费、专家指导费、资料征集费、专家评审费、论证会费用(项目初期开 * 次论证会)、验收会费用(项目尾期开 * 次验收会)等与项目相关 (略) 有费用。
(略) (略) 核算成本并作出报价,如投标人中 标后发现未预见事宜,可能需要增 (略) 由中 (略) 解决,采购人将不再追加任何费用。
* 、资源质量保证及售后 服务
包1:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成2万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
包2:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成5万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
更正为
* 、(根据本项目实际情况,填写“采购标的”或“项目概况”)
( * )本次采购为 (略) * 年公共数字文化资源建设服务类采购项目。
( * )利用人工智能识别、智能提取等技术,围绕 (略) 自有版权的地方文献、古籍、家谱等资源,进行细颗粒度内容标识、关键知识点的标签和标引建设,对 (略) 精细化、可视化揭示,实现资源的知识化、专题化服务。
合同包1(金额 * 万元)
( * )采购内容:
1. 建设《馆藏 (略) 家谱颗粒度和标签标引(第 * 期)》,主题为《 (略) 名人家谱》《 (略) 涉侨家谱》《客家族谱》等相关家族谱,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作5万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 采购版权明晰的、 (略) (略) 藏的 (略) 与朱熹相关的家谱、 (略) 涉侨家谱数字化影印件不少于 * 页, (略) 全文识别和颗粒度制作。
3. 需与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计《 (略) 名人家谱》《 (略) 涉侨家谱》专题数据库前端揭示页面,对古籍家谱及人物 (略) 专题可视化揭示。实现关联检索,实现家谱文献原图与文字内容可视化对照揭示。
4. 本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,并能实现生成电子书和家谱树功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.本次采购的家谱数字化影印件分辨率不低于 * dpi,包含文献扫描、整理归档、 (略) 理等。提交数据格式为TIFF,JPG和PDF格式,分辨率不低于 * dpi。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《 (略) 名人家谱》《 (略) 涉侨家谱》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
4.本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,实现生成家谱树及全文电子书功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | classificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次采购内容
本次采购的的家谱数字化影印件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
合同包2( * 万元)
1. 建设《馆藏地方特色文献及古籍颗粒度和标签标引(第 * 期)》,主题为《朱子文化》及《 (略) 茶文化》,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作2万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作,文献内容由 (略) 提供。
3. 与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计前端专题数据库揭示页面,对 (略) 可视化揭示。实现元数据和对象数据的关联检索调用、为读者提供相关知识发现服务。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.数字化地方文献,扫描分辨率不低于 * dpi, (略) 全文识别和颗粒度制作。包含文献扫描、整理归档、 (略) 理等。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《朱子文化》《 (略) 茶文化》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | classificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | classificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名 称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次数字化内容
本次数字化的地方文献扫描文件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
* 、实施过程要求(包1和包2相同)
( * )合 作建设方式要求
1、建立项目合 作制度:采购人派 * 名专业技术人员全程参与项目建设。成交人负责项目的承建,采购人负责项目的联络及监管。同时,成交人也有义务尽自己的能力协助采购人更顺利的开展前期的联络工作。
2、在承建过程中,成交人必须根 (略) 拟定的任务内容 (略) (略) * ,如 (略) 变换,须通过采购方的认可,否则将构成违约。
3、建立项目调研制度:在项目开展前,成交人必须和采购人 * 同开展调研,根据调研结果修改前期方案。
( * )专家论证制度
1、成交人在项目建设初期需召开 * 次项目专家研讨会,提供建设方案,听取专家意见,并根据专家意见对项目建设 (略) 修改。研讨会的专家名单由成交人提供,由采购人确定。专家组成员不少于5名,包含内容专家3名、数据库专家1名、展览专家1名。
2、成交人推荐专家( (略) 专业1名、古籍文史专家1名)作为该项目的总顾问,经采购人确定后,在项目策划、设 计及实施过程中,成交人须全程与专家互动,听取专家意见。
3、若成交人未经专家论证就开始项目的制作,采购人有权终止合同。
( * )建立验收制度
1、建立验收制度:采购人专业技术人员全程对 (略) 监管和控制。在建设前期、中期、后期采取不定期抽查的方式, (略) 建设的内容等方面是否符合采购人的要求,验收合格,需经采购人专业技术人员签字确认。验收不合格,成交 (略) 整改, * 次不合格,终止合同,造成的损失由成交人负责。
2、成交人须配合采购人召开省内项目验收会,听取验收意见, (略) 修改,直至通过 (略) 省文旅厅 (略) 的审核。若成交人未按要求修改,采购人有权终止合同。
( * )验收要求
中 标方须 (略) 有档案材 (略) 分类明晰的整理,提交 (略) 验收。包括但不限于:
1.所有要求提交的项目成品内容。
2. (略) 产生的过程性文档和图片资料。
3. (略) 产生的宣传资料。
注:以上验收材料,电子版文件须存在硬盘中提交给采购人(硬盘不返还),纸质材料须分类整理存放于档案盒(附有目录页)提交给采购人。
( * )版权要求
中 标方须妥善 (略) 购买的古籍以及项目建设过程中使用的图片、视频、音频等素材的版权, (略) 版权声明,证明解决版权问题。确保 (略) 、公共数字文化工程在使用提交成品时,无任何版权纠纷,采购人无须再向其他机构或个人付费,若有侵权等法律责任由中 标方承担,与采购人无关。
( * )经费构成
该项目经费支出主要包括资源项目建设费、专家指导费、资料征集费、专家评审费、论证会费用(项目初期开 * 次论证会)、验收会费用(项目尾期开 * 次验收会)等与项目相关 (略) 有费用。
(略) (略) 核算成本并作出报价,如投标人中 标后发现未预见事宜,可能需要增 (略) 由中 (略) 解决,采购人将不再追加任何费用。
* 、资源质量保证及售后 服务
包1:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成5万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
包2:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成2万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
其他内容不变
更正日期: *
* 、其他补充事宜
/
* 、 (略) 内容提出询问,请按以下方式联系
1.采购人信息
名 称: (略)
地 址: (略) 市湖东路 * 号
联 系 人:吴先生
联系方式: 点击查看>>
2.采购代 理机构信息(如有)
名 称: (略) (略) 有限公司
地 址: (略) 市 (略) 区王庄街道珠宝路 (略) 1#楼B区第 * 层南侧 * -1
联 系 人:陈丽萍
联系方式: 点击查看>>
(略) (略) 有限公司
发布日期: *
公告信息: | |||
采购项目名称 | (略) (略) * 年中央支持地方公共文化服务体系建设——基础数字文化资源细颗粒度建设和标签标引项目服务类采购项目 | ||
品目 | |||
采购单位 | (略) | ||
行政区域 | (略) 省 | 公告时间 | * 日 * : * |
首次公告日期 | * 日 | 更正日期 | * 日 |
联系人及联系方式: | |||
项目联系人 | 吴先生 | ||
项目联系电话 | 点击查看>> | ||
采购单位 | (略) | ||
采购单位地址 | (略) 市湖东路 * 号 | ||
采购单位联系方式 | 点击查看>> | ||
代理机构名称 | (略) (略) 有限公司 | ||
代理机构地址 | (略) 市 (略) 区王庄街道珠宝路 (略) 1#楼B区第 * 层南侧 * -1 | ||
代理机构联系方式 | 点击查看>> |
* 、项目基本情况
原公告的采购项目编号:[ * ]GXGC[CS] 点击查看>>
原公告的采购项目名 称: (略) (略) * 年中央支持地方公共文化服务体系建设——基础数字文化资源细颗粒度建设和标签标引项目服务类采购项目
首次公告日期: *
* 、更正信息
合同包1
更正事项:采购文件
更正原因:招标文件内容调整
更正内容:
事项1:招标文件中“第 * 章 采购内容及要求”
* 、(根据本项目实际情况,填写“采购标的”或“项目概况”)
( * )本次采购为 (略) * 年公共数字文化资源建设服务类采购项目。
( * )利用人工智能识别、智能提取等技术,围绕 (略) 自有版权的地方文献、古籍、家谱等资源,进行细颗粒度内容标识、关键知识点的标签和标引建设,对 (略) 精细化、可视化揭示,实现资源的知识化、专题化服务。
* 、技术要求
1. 建设《馆藏地方特色文献及古籍颗粒度和标签标引(第 * 期)》,主题为《朱子文化》及《 (略) 茶文化》,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作2万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作,文献内容由 (略) 提供。
3. 与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计前端专题数据库揭示页面,对 (略) 可视化揭示。实现元数据和对象数据的关联检索调用、为读者提供相关知识发现服务。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.数字化地方文献,扫描分辨率不低于 * dpi, (略) 全文识别和颗粒度制作。包含文献扫描、整理归档、 (略) 理等。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《朱子文化》《 (略) 茶文化》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | ificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名 称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次数字化内容
本次数字化的地方文献扫描文件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
合同包2(金额 * 万元)
( * )采购内容:
1. 建设《馆藏 (略) 家谱颗粒度和标签标引(第 * 期)》,主题为《 (略) 名人家谱》《 (略) 涉侨家谱》《客家族谱》等相关家族谱,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作5万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 采购版权明晰的、 (略) (略) 藏的 (略) 与朱熹相关的家谱、 (略) 涉侨家谱数字化影印件不少于 * 页, (略) 全文识别和颗粒度制作。
3. 需与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计《 (略) 名人家谱》《 (略) 涉侨家谱》专题数据库前端揭示页面,对古籍家谱及人物 (略) 专题可视化揭示。实现关联检索,实现家谱文献原图与文字内容可视化对照揭示。
4. 本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,并能实现生成电子书和家谱树功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.本次采购的家谱数字化影印件分辨率不低于 * dpi,包含文献扫描、整理归档、 (略) 理等。提交数据格式为TIFF,JPG和PDF格式,分辨率不低于 * dpi。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《 (略) 名人家谱》《 (略) 涉侨家谱》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
4.本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,实现生成家谱树及全文电子书功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | ificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次采购内容
本次采购的的家谱数字化影印件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
* 、实施过程要求(包1和包2相同)
( * )合 作建设方式要求
1、建立项目合 作制度:采购人派 * 名专业技术人员全程参与项目建设。成交人负责项目的承建,采购人负责项目的联络及监管。同时,成交人也有义务尽自己的能力协助采购人更顺利的开展前期的联络工作。
2、在承建过程中,成交人必须根 (略) 拟定的任务内容 (略) (略) * ,如 (略) 变换,须通过采购方的认可,否则将构成违约。
3、建立项目调研制度:在项目开展前,成交人必须和采购人 * 同开展调研,根据调研结果修改前期方案。
( * )专家论证制度
1、成交人在项目建设初期需召开 * 次项目专家研讨会,提供建设方案,听取专家意见,并根据专家意见对项目建设 (略) 修改。研讨会的专家名单由成交人提供,由采购人确定。专家组成员不少于5名,包含内容专家3名、数据库专家1名、展览专家1名。
2、成交人推荐专家( (略) 专业1名、古籍文史专家1名)作为该项目的总顾问,经采购人确定后,在项目策划、设 计及实施过程中,成交人须全程与专家互动,听取专家意见。
3、若成交人未经专家论证就开始项目的制作,采购人有权终止合同。
( * )建立验收制度
1、建立验收制度:采购人专业技术人员全程对 (略) 监管和控制。在建设前期、中期、后期采取不定期抽查的方式, (略) 建设的内容等方面是否符合采购人的要求,验收合格,需经采购人专业技术人员签字确认。验收不合格,成交 (略) 整改, * 次不合格,终止合同,造成的损失由成交人负责。
2、成交人须配合采购人召开省内项目验收会,听取验收意见, (略) 修改,直至通过 (略) 省文旅厅 (略) 的审核。若成交人未按要求修改,采购人有权终止合同。
( * )验收要求
中 标方须 (略) 有档案材 (略) 分类明晰的整理,提交 (略) 验收。包括但不限于:
1.所有要求提交的项目成品内容。
2. (略) 产生的过程性文档和图片资料。
3. (略) 产生的宣传资料。
注:以上验收材料,电子版文件须存在硬盘中提交给采购人(硬盘不返还),纸质材料须分类整理存放于档案盒(附有目录页)提交给采购人。
( * )版权要求
中 标方须妥善 (略) 购买的古籍以及项目建设过程中使用的图片、视频、音频等素材的版权, (略) 版权声明,证明解决版权问题。确保 (略) 、公共数字文化工程在使用提交成品时,无任何版权纠纷,采购人无须再向其他机构或个人付费,若有侵权等法律责任由中 标方承担,与采购人无关。
( * )经费构成
该项目经费支出主要包括资源项目建设费、专家指导费、资料征集费、专家评审费、论证会费用(项目初期开 * 次论证会)、验收会费用(项目尾期开 * 次验收会)等与项目相关 (略) 有费用。
(略) (略) 核算成本并作出报价,如投标人中 标后发现未预见事宜,可能需要增 (略) 由中 (略) 解决,采购人将不再追加任何费用。
* 、资源质量保证及售后 服务
包1:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成2万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
包2:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成5万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
更正为
* 、(根据本项目实际情况,填写“采购标的”或“项目概况”)
( * )本次采购为 (略) * 年公共数字文化资源建设服务类采购项目。
( * )利用人工智能识别、智能提取等技术,围绕 (略) 自有版权的地方文献、古籍、家谱等资源,进行细颗粒度内容标识、关键知识点的标签和标引建设,对 (略) 精细化、可视化揭示,实现资源的知识化、专题化服务。
合同包1(金额 * 万元)
( * )采购内容:
1. 建设《馆藏 (略) 家谱颗粒度和标签标引(第 * 期)》,主题为《 (略) 名人家谱》《 (略) 涉侨家谱》《客家族谱》等相关家族谱,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作5万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 采购版权明晰的、 (略) (略) 藏的 (略) 与朱熹相关的家谱、 (略) 涉侨家谱数字化影印件不少于 * 页, (略) 全文识别和颗粒度制作。
3. 需与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计《 (略) 名人家谱》《 (略) 涉侨家谱》专题数据库前端揭示页面,对古籍家谱及人物 (略) 专题可视化揭示。实现关联检索,实现家谱文献原图与文字内容可视化对照揭示。
4. 本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,并能实现生成电子书和家谱树功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.本次采购的家谱数字化影印件分辨率不低于 * dpi,包含文献扫描、整理归档、 (略) 理等。提交数据格式为TIFF,JPG和PDF格式,分辨率不低于 * dpi。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《 (略) 名人家谱》《 (略) 涉侨家谱》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
4.本次古籍文献家谱OCR文本数据需要导入至“ (略) 家族谱体验系统”后台,实现生成家谱树及全文电子书功能,并在体验系统前端页面实现数据关联检索与家谱的可视化揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | ificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次采购内容
本次采购的的家谱数字化影印件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
合同包2( * 万元)
1. 建设《馆藏地方特色文献及古籍颗粒度和标签标引(第 * 期)》,主题为《朱子文化》及《 (略) 茶文化》,建设内容来源为 (略) 馆藏缩微胶片及数字化影像。按标准制作2万条细颗粒度数据,实现基于文献结构的文献著录及基于文献内容的知识标引。每个著录单元生成 * 条数据、每个标引单元生成 * 条数据,并按照建设指南规定提交相应数据格式。
2. 数字化不少于 * 页的相关主题的地方文献, (略) 全文识别及颗粒度制作,文献内容由 (略) 提供。
3. 与 (略) 的 (略) 公共文化供需对接平台对接,完成颗粒度元数据与对象数据的批量导入,并设 计前端专题数据库揭示页面,对 (略) 可视化揭示。实现元数据和对象数据的关联检索调用、为读者提供相关知识发现服务。
( * )技术要求
1.采用自动化抽取的方式开展精细化标引工作,加强自动化抽取规范和方法的研究应用。综合分析加工对象的文献形态、内容结构和服务需求,确定知识资源加工粒度和著录标引对象。根据文献实际情况,科学合理确定著录与标引内容,参照文献著录规则开展著录与标引。 (略) 包含的各类插图和表格必须 (略) 著录。
2.数字化地方文献,扫描分辨率不低于 * dpi, (略) 全文识别和颗粒度制作。包含文献扫描、整理归档、 (略) 理等。 (略) 必要的去图像黑边、 (略) 理,图像拼接后不得有明显的拼接痕迹。图像偏斜不超过1°,每种书扫描后每页影像尺寸大小相同,误差小于1%。图片提交格式为TIFF及JPG格式、文本数据提交格式为DOC、XLS及PDF、颗粒度数据制作标准及提交格式见下文。
3.制作《朱子文化》《 (略) 茶文化》两个专题数据库版块模板及页面美工设 计, (略) 、背景图、banner图、图标、数据库首页、 * 级页面和 * 级页面,页面需适配PC端、大屏端、手机端。元素专题数据库页面设 计需简洁大方并具备原创性,数据揭示逻辑应科学合理、揭示内容应有序全面。数据库揭示内容包括但不限于本次颗粒度数据的元数据与对象数据、相关图片、论文、图书、期刊等。与 (略) 的 (略) 公共文化供需对接平台技术对接,配合完成颗粒度元数据与对象数据的批量导入并揭示。
( * )细粒度标引单位要求
数字资源精细化标引 * 般以文献组成要素单元为加工单位。首先开展文献基础资源著录,其次开展细颗粒度文献著录。
对图书、期刊等类型数字资源,封面、前言、目录、正文篇章 (略) 分作为著录单元;对古籍数字资源,书衣、封面(内封)、牌记、序、凡例、目录、正文卷目、插图、跋、签条、夹纸、校勘、附录、封底 (略) 分作为著录单元。每个著录单元生成 * 条数据。
知识抽取数据是在本批精细化标引的基础文献范畴内,以文献中的人物、机构、地理名 称、事件或其他具有标目意义的关键词为标引单元。每个从文献中抽取出来的知识条目生成 * 条知识抽取数据。
( * )细粒度建设内容
1.基础资源著录
对图书、期刊、报纸、古籍类型的精细化标引数据的 (略) 元数据著录, * 般以文献“种”作为著录粒度。其中,记录标识号为必备字段,记录标识号编制方法见附件,其他著录字段和要求参 (略) 推广工程联合建设项目相关标准规范。
2.细粒度文献著录
对基础文献析出的各个 (略) 元数据著录, * 般以篇章(包括封面、目录等)、 (略) 著录粒度。
图书文献组成元素 * 般包括:封面(封 * 、封 * 、书脊)、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文各篇章、图表、参 考文献、附录、索引、插页、后记(跋)、封底(封 * 、封 * )等。各部分定义参 (略) 业标准《学术出版规范图书版式》(CY/T 点击查看>> )。
期刊文献组成要素 * 般包括:封面(封 * 、封 * 、书脊)、目次页、文章、总目次、索引、封底(封 * 、封 * )。各部分定义参照国家标准《期刊编排格式》(GB/T 点击查看>> )。
古籍文献参 考图书文献及其他相关文献加工规则确定著录单元。
本项目涉及的各类记录标识号编制方法如下:
(1)图书细粒度著录
表1图书细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录标识号,字段值取自基础文献元数据 identifier 字段,具体见附件。 |
起始页文件名 | startFileNam e | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只有 1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 |
结构类型 | type | 必备,不可重复 | 著录对象的结构类型,如:封面、书名页、版权页、凡例、目次、正文篇 章等 |
语种 | language | 必备,可重复 | 著录对象的文字语种 |
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分无标题则著录时可自拟标题 |
并列正题名 | parallelTitl eProper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的 题名 |
其他题名 | otherVariant Title | 有则必备,可重复 | 从属于正题名或并列题名的副题名或其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 |
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 |
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 |
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录入子 章节的内容,重复本字段。 |
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘 自或引自或原载于 |
页数 | extent | 必备,不可重复 | 著录对象总页数 |
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码 仅对正文篇章著录 |
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章 提要或文摘 |
分类号 | ificati on | 必备,可重复 | 《 (略) 分类法》分类号。仅对 正文篇章著录 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映 著录对象内容、主题或时空范围的词语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organization Name | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographical Name | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著 录在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据identifier 字段,具体见附件。 |
图表数量 | tableNumber | 有则必备,不可重 复 | 本加工项目中著录的图表数量 |
(2)期刊细粒度著录
表2期刊细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 | |||||
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 | |||||
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出著录对象的基础文献的记录 标识号,字段值取自基础文献元数据identifier字段,具体见附件。 | |||||
年卷期 | volume | 必备,不可重复 | 著录对象基础文献的出版年和卷期 号,出版年用 * 位数字表示,卷期号用两位数字表示,例如: * 年第 * 期 | |||||
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 | |||||
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名。如果著录对象只 有1页,则结束文件名同起始文件名。 | |||||
对象文件路径 | filePath | 必备,不可重复 | 对象数据文件存储的相对路径 | |||||
结构类型 | type | 必备,不可重复 | 如:封面、书名页、版权页、凡例、 目次、正文篇章等 | |||||
语种 | language | 必备,可重复 | 著录对象文字语种 | |||||
正题名 | title | 必备,可重复 | 著录对象的主要题名, (略) 分 无标题则著录时可自拟标题 | |||||
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 正题名的另外 * 种语言和/或文字的题名 | |||||
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副题名 或其他题名说明文字 | |||||
栏目名 称 | column | 有则必备,不可重复 | 著录对象从属的栏目 | |||||
责任者 | contributor | 有则必备,可重复 | 对著录对象负有主要责任的责任者 名 称 | |||||
责任方式 | role | 有则必备,可重复 | 责任者的责任方式,如著 | |||||
责任者单位 | institution | 有则必备,可重复 | 责任者工作单位 | |||||
责任者简介 | contributorDe scription | 有则必备,可重复 | 责任者简要介绍 | |||||
创作时间 | originDate | 有则必备,可重复 | 著录对象显示的文献撰写时间或投稿时间 | |||||
创作地点 | originPlace | 有则必备,可重复 | 著录对象显示的文献撰写地点 | |||||
内容 | content | 有则必备,可重复 | 著录对象的全文文本 内容为非结构式的,全部文字录入同 * 字段。内容为结构式时,则录 入子章节的内容,重复本字段。 | |||||
附注 | notes | 有则必备,可重复 | 著录对象位于文末或脚注信息,如摘自或引自或原载于、课题信息、 鸣谢等 | |||||
页数 | extent | 必备,不可重复 | 著录对象总页数 | |||||
页码 | pageNumber | 有则必备,可重复 | (略) 在页的起止页码或首页码仅对正文篇章著录 | |||||
摘要 | abstract | 必备,可重复 | 仅对正文篇章著录,著录内容为篇章提要或文摘 | |||||
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号。仅 对正文篇章著录 | |||||
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围 的词语 | |||||
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著 录在[ ]中 | |||||
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著 录在[ ]中 | |||||
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识 号著录在[ ]中 | |||||
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著 录在[ ]中 | |||||
参 考文献 | reference | 有则必备,可重复 | 正文篇章明确著录的参 考文献信息 | |||||
图表记录标识号 | tableID | 有则必备,可重复 | (略) 含图表的记录标识号,字段值取自图表元数据 identifier 字段,具体见附件。 | |||||
图表数量 | tableNumber | 有则必备,不可重复 | 本加工项目中著录的图表数量 |
(3)图表细粒度著录
表3图表细粒度著录内容
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指细粒度加工数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,不可重复 | 指析出图表的基础文献的记录标识号,字段值取自基础文献元数据 identifier字段,具体见附件。 |
起始页文件名 | startFileName | 必备,不可重复 | 对象数据文件名 |
结束页文件名 | endFileName | 必备,不可重复 | 对象数据文件名,如果图表只有1页,则结束文件名同起始文件名。 |
对象文件路径 | filePath | 必备,不可重复 | 图表对象数据文件存储的相对路径 |
图表类型 | type | 必备,不可重复 | 用词语标识图表类型 通用图表类型包括:插图、地图、照片、示意图、统计表、乐谱、谱系表、工程图等。 古籍图表类型包括:插图、肖像、地图、景物图、器物图、谱系表、航海 图、工程图、故事图、山石鸟兽图、神怪图、宗教图、乐谱等。 |
语种 | language | 必备,可重复 | 图表文字的语种 |
正题名 | title | 必备,可重复 | 图表的主要标题,如无标题则自拟 |
并列正题名 | parallelTitle Proper | 有则必备,可重复 | 图表正题名的另外 * 种语言和/或文 字的题名 |
其他题名 | otherVariantT itle | 有则必备,可重复 | 从属于正题名或并列题名的副标题或 其他题名说明文字 |
责任者 | contributor | 有则必备,可重复 | 图表的主要创建者名 称 |
责任方式 | role | 有则必备,可重复 | 图表主要创建者的责任方式 |
创作时间 | originDate | 有则必备,可重复 | 图表的撰写时间 |
创作地点 | originPlace | 有则必备,可重复 | 图表的创作地点 |
内容 | content | 有则必备,可重复 | 图表的非结构化全文文本内容为表格的, (略) 文字 内容为图片时,录入图片中有内容含 义的文字 |
附注 | notes | 有则必备,可重复 | 位于图表文末或脚注信息,如摘自或引自或原载于 |
页数 | fileNumber | 必备,不可重复 | 图表页数 |
分类号 | ificatio n | 必备,可重复 | 《 (略) 分类法》分类号 |
关键词 | keyword | 必备,可重复 | 仅对正文篇章著录,著录内容为反映著录对象内容、主题或时空范围的词 语 |
人物名 称 | personalName | 有则必备,可重复 | (略) 含的人物名 称。属于本项目知识抽取数据的人物,在人物名 称后将人物数据的记录标识号著录在 [ ]中 |
机构名 称 | organizationN ame | 有则必备,可重复 | (略) 含的机构名 称。属于本项目知识抽取数据的机构,在机构名 称后将机构数据的记录标识号著录在 [ ]中 |
地理名 称 | geographicalN ame | 有则必备,可重复 | (略) 含的地理名 称。属于本项目知识抽取数据的地理名 称,在地理名 称后将地理数据的记录标识号著录 在[ ]中 |
事件名 称 | eventName | 有则必备,可重复 | (略) 含的事件名 称。属于本项目知识抽取数据的事件,在事件名 称后将事件数据的记录标识号著录在 [ ]中 |
3.知识内容抽取
充分利用自动化手段分析文献内容,建立知识抽取模型,确定知识抽取方法,从文献中抽取人物、机构、事件、地理名 称以及其他具有标目意义的专题、实物等内容,开展知识标引工作,以形成基于文献知识内容的语料库。
从同 * 基础文献、不同内容位置抽取的同 * 个人物、机构、地理名 称、事件、专题等信息,原则上应合并为 * 条数据。
本项目涉及的各类记录标识号编制方法如下:
(1)人物标引
表4人物知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是 数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值取 自基础文献元数据identifier字段,具体见附件。 |
人物通用名 称 | personalName | 必备,不可重复 | |
人物异名 | variantPerso nalName | 有则必备,可重复 | 别名、字号、笔名等。 |
性别 | gender | 有则必备,不可重复 | |
时代 | period | 有则必备,不可重复 | |
出生年 | birthDate | 有则必备,可重复 | 公元纪年 |
卒年 | deathDate | 有则必备,可重复 | 公元纪年 |
国别 | nationality | 有则必备,可重复 | |
籍贯 | nativePlace | 有则必备,可重复 | |
民族 | ethnicGroup | 有则必备,不可重复 | |
亲属关系类别 | kinship | 有则必备,可重复 | |
亲属关系人物 | kinshipPerson | 有则必备,可重复 | 人名。属于本项目标引条目的人 物,可在人物名 称后将人物数据的记录标识号著录在[ ]中 |
非亲属关系类别 | nonKinship | 有则必备,可重复 | 人名。属于本项目标引条目的人物,可在人物名 称后将人物数据的 记录标识号著录在[ ]中 |
非亲属关系人物 | nonKinshipPe rson | 有则必备,可重复 | |
传略 | biography | 必备,不可重复 | 可直接摘录原文 |
任职机构 | institution | 有则必备,可重复 | |
职务名 称 | position | 有则必备,可重复 | |
任职时间段 | employTime | 有则必备,可重复 | |
著述 | writings | 有则必备,可重复 | 著述名 称、时间、出版信息等 |
附注 | notes | 有则必备,可重复 |
(2)机构标引
表5机构知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息基础,字段值 取自基础文献元数据identifier 字段,具体见附件 |
机构中文全称 | chiOrganizatio nName | 必备,不可重复 | |
机构英文全称 | engOrganizatio nName | 有则必备,不可重复 | |
机构简称 | abbreviatedOrg anizationName | 有则必备,可重复 | 包括机构别称 |
地址 | address | 有则必备,可重复 | |
前置机构 | previousOrgani zation | 有则必备,可重复 | |
后置机构 | nextOrganizati on | 有则必备,可重复 | |
存续起始时间 | startTime | 有则必备,可重复 | |
存续结束时间 | endTime | 有则必备,可重复 | |
行业类型 | type | 必备,可重复 | |
机构描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要事件 | event | 有则必备,可重复 | 可直接摘录原文。属于本项目知识抽取数据条目的事件,可在机构名 称后将事件数据的记录标识 号著录在[ ]中 |
重要成果 | achievement | 有则必备,可重复 | 著述成果以及文艺作品、建筑作 品等各类型作品 |
(3)事件标引
表6事件知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据 identifier 字段,具体见附件 |
事件中文全称 | chiEventName | 必备,不可重复 | |
事件英文全称 | engEventName | 有则必备,不可重复 | |
事件简称 | abbreviatedEve ntName | 有则必备,可重复 | |
事件起始时间 | startTime | 有则必备,可重复 | |
事件结束时间 | endTime | 有则必备,可重复 | |
地点 | place | 有则必备,可重复 | |
事件类型 | type | 必备,可重复 | |
事件描述 | description | 必备,可重复 | 可直接摘录原文 |
重要人物名 称 | personalName | 有则必备,可重复 | 通用名 称或规范名 称。属于本项目知识抽取数据条目的人物,可在人物名 称后将人物数据的记录 标识号著录在[ ]中 |
重要人物事迹 | personalDescri ption | 有则必备,可重复 | 可直接摘录原文 |
重要成果 | achievement | 有则必备,可重复 | 产生的著述成果以及文艺作品、 建筑作品等各类型作品 |
(4)地理名 称标引
表7地理名 称知识内容标引
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号,是数据的唯 * 标识符,具体见附 件 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
地名专名 | geographicalNa me | 必备,不可重复 | |
地名简称 | abbreviatedGeo graphicalName | 有则必备,可重复 | |
异名 | variantGeograp hicalName | 有则必备,可重复 | 地名别名、惯用地名、历史地名 等 |
行政层级 | administrative Level | 必备,不可重复 | 省、市、县、乡、村分别为 * 级至 * 级;古代地名根据当 (略) 政层级对应表, (略) 政层级。 |
起始年代 | startTime | 有则必备,可重复 | 地名建制时间 |
结束年代 | endTime | 有则必备,可重复 | 地名撤销时间 |
沿革事件类型 | evolutionEvent | 有则必备,可重复 | 分为地名设立、改名、行政层级调整、隶属调整、地理坐标调整、 注销、重设等类型。 |
时间 | evolutionTime | 有则必备,可重复 | 沿革事件发生的时间 |
说明 | notes | 有则必备,可重复 | 沿革事件说明,可直接摘录原文 |
规范性文件 | authorityDocum ent | 有则必备,可重复 | 确定沿革事件的规范性文件名 称 |
隶属 | underJurisdict ion | 有则必备,可重复 | 该 (略) 政单位名 称 |
辖区 | jurisdiction | 有则必备,可重复 | 该 (略) 政单位名 称 |
经纬度 | coordinate | 有则必备,可重复 | |
参 考方位 | azimuth | 有则必备,可重复 |
(5)专题标引
根据某 * 特定专题,从挖掘知识内涵明确标引内容,开展特色突出、内容丰富的专题标引。
表8专题知识内容标引示例
著录内容 | XML 标签 | 属性 | 说明 |
记录标识号 | identifier | 必备,不可重复 | 指知识抽取数据的记录标识号, 是数据的唯 * 标识符,具体见附件。 |
基础文献记录标识号 | sourceID | 必备,可重复 | 指本条数据的信息来源,字段值取自基础文献元数据identifier 字段,具体见附件 |
物产名 称 | productName | 必备,不可重复 | |
物产类型 | type | 必备,可重复 | |
产地 | originPlace | 必备,不可重复 | 属于本项目标引条目的地名,可 在产地名 称后将地理数据的记录标识号著录在[ ]中 |
物产描述 | description | 有则必备,可重复 | 可直接摘录原文 |
产量 | yield | 有则必备,可重复 | 可直接摘录原文 |
★( * )成果形式
成果文件命名规则和文件存储结构参见附件。
1.元数据
包括基础文献元数据、细粒度加工元数据、知识抽取数据,采用XML格式,遵照XML1.0规范,使用UTF-8编码方式、Unicode5.0字符集。
2.对象数据
基 (略) 对象数据,包括长期保存级、发 (略) 有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。
3.证明文件
项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。
4.数据说明文件
项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名 称、提交单位名 称、各类型资源数量、记录标识号段、存储介质情况以及特殊情况说明。数据加工过程中引用的此表、规范库等情况,也应在数据说 (略) 说明。
5.本次数字化内容
本次数字化的地方文献扫描文件(扫描分辨率不得低于 * dpi,输出格式为TIFF及JPG格式)及全文识别文本格式文件(需提交与页码相对应的全文识别可编辑文本以及以本为单位的全本全文识别可编辑文本)。文本数据提交格式为DOC、XLS及PDF。
* 、实施过程要求(包1和包2相同)
( * )合 作建设方式要求
1、建立项目合 作制度:采购人派 * 名专业技术人员全程参与项目建设。成交人负责项目的承建,采购人负责项目的联络及监管。同时,成交人也有义务尽自己的能力协助采购人更顺利的开展前期的联络工作。
2、在承建过程中,成交人必须根 (略) 拟定的任务内容 (略) (略) * ,如 (略) 变换,须通过采购方的认可,否则将构成违约。
3、建立项目调研制度:在项目开展前,成交人必须和采购人 * 同开展调研,根据调研结果修改前期方案。
( * )专家论证制度
1、成交人在项目建设初期需召开 * 次项目专家研讨会,提供建设方案,听取专家意见,并根据专家意见对项目建设 (略) 修改。研讨会的专家名单由成交人提供,由采购人确定。专家组成员不少于5名,包含内容专家3名、数据库专家1名、展览专家1名。
2、成交人推荐专家( (略) 专业1名、古籍文史专家1名)作为该项目的总顾问,经采购人确定后,在项目策划、设 计及实施过程中,成交人须全程与专家互动,听取专家意见。
3、若成交人未经专家论证就开始项目的制作,采购人有权终止合同。
( * )建立验收制度
1、建立验收制度:采购人专业技术人员全程对 (略) 监管和控制。在建设前期、中期、后期采取不定期抽查的方式, (略) 建设的内容等方面是否符合采购人的要求,验收合格,需经采购人专业技术人员签字确认。验收不合格,成交 (略) 整改, * 次不合格,终止合同,造成的损失由成交人负责。
2、成交人须配合采购人召开省内项目验收会,听取验收意见, (略) 修改,直至通过 (略) 省文旅厅 (略) 的审核。若成交人未按要求修改,采购人有权终止合同。
( * )验收要求
中 标方须 (略) 有档案材 (略) 分类明晰的整理,提交 (略) 验收。包括但不限于:
1.所有要求提交的项目成品内容。
2. (略) 产生的过程性文档和图片资料。
3. (略) 产生的宣传资料。
注:以上验收材料,电子版文件须存在硬盘中提交给采购人(硬盘不返还),纸质材料须分类整理存放于档案盒(附有目录页)提交给采购人。
( * )版权要求
中 标方须妥善 (略) 购买的古籍以及项目建设过程中使用的图片、视频、音频等素材的版权, (略) 版权声明,证明解决版权问题。确保 (略) 、公共数字文化工程在使用提交成品时,无任何版权纠纷,采购人无须再向其他机构或个人付费,若有侵权等法律责任由中 标方承担,与采购人无关。
( * )经费构成
该项目经费支出主要包括资源项目建设费、专家指导费、资料征集费、专家评审费、论证会费用(项目初期开 * 次论证会)、验收会费用(项目尾期开 * 次验收会)等与项目相关 (略) 有费用。
(略) (略) 核算成本并作出报价,如投标人中 标后发现未预见事宜,可能需要增 (略) 由中 (略) 解决,采购人将不再追加任何费用。
* 、资源质量保证及售后 服务
包1:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成5万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
包2:
★1.服务数量承诺
本次家谱文献资源细颗粒度建设和标注标引项目完成2万条数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★2.服务质量承诺
能够及时根 (略) 正式下达的标签标引数据格式要求,导出符合满 (略) 验收要求的数据内容,并通 (略) 验收。投标人须对 (略) 承诺,未承诺本项视为无效投标。
★3.数据安全承诺
全流程数据加工需要保证数据安全。在项目完成后,不得以任何形式、方法来使用、存储与项目相关的数据。投标人须对 (略) 承诺,未承诺本项视为无效投标。
其他内容不变
更正日期: *
* 、其他补充事宜
/
* 、 (略) 内容提出询问,请按以下方式联系
1.采购人信息
名 称: (略)
地 址: (略) 市湖东路 * 号
联 系 人:吴先生
联系方式: 点击查看>>
2.采购代 理机构信息(如有)
名 称: (略) (略) 有限公司
地 址: (略) 市 (略) 区王庄街道珠宝路 (略) 1#楼B区第 * 层南侧 * -1
联 系 人:陈丽萍
联系方式: 点击查看>>
(略) (略) 有限公司
发布日期: *
最近搜索
无
热门搜索
无