●数字化部分 对辽宁省图书馆收藏的辽宁工业史料(工厂企业志)相关图书进行数字化扫描并全文识别,扫描数量不少于20万页。 一、图像扫描要求 1.扫描前根据国际色彩协会(International Color Consortium,简称ICC)标准,做加工设备的基本色彩校正,及针对各类型文献进行色彩校正; 2.逐页扫描; 3.黑白页和灰度页用灰度方式扫描 Ø色彩位深:16 位 Ø分辨率:400 dpi; Ø档案典藏级格式:TIFF 不压缩 Ø发布服务级:PDF(经过 JPEG2000 压缩后,再做格式转换) 4.彩色页用彩色方式扫描 Ø色彩位深:24 位 Ø分辨率:400 dpi; Ø档案典藏级格式:TIFF 不压缩 Ø发布服务级格式:PDF(经过 JPEG2000 压缩后,再做格式转换) 5.纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯; 6.去污处理。对图像页面中出现的影响图像质量的杂质如黑边等进行去污处理; 7.图像拼接。若原文献幅面较大,无法整体采集的,可将原件分画幅采集(分画幅采集时,注意各拍摄区域边缘须留有一定的重复采集区域,以保证拼接完成后所有接缝处连贯完整),服务级文件进行拼接处理,合并为一个完整的图像,以保证数字文件的整体性(合并信息应在readme.txt进行说明)。 二、图像文件质量 1.图像文件(各种格式)放大到1:1状态,逐页检查。检查文件是否有彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像内容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描; 2.图像文件真实反映原件,同册图书的图像尺寸相同,不得有失真现象;不能有缺页、错页、数据内容缺失等现象(原件有缺失的除外); 3.档案典藏级图像,允许进行适当的纠偏,去污等处理,以不压缩标准格式存档。发布服务级的图像,为有损压缩图像格式,一页为一个PDF文件,在转换工作中应在图像轮廓清晰可读的前提下(可放大到实际尺寸检查判定),尽量减小数据量; 4.图像符合扫描规格要求和技术参数; 5.所有文件保存位置以及文件命名正确,同一流水号不得有跳号情况,可以有效打开和显示; 6.图像的综合错误率不超过1‰。 三、OCR技术要求 系统能实现对版面地智能分析、繁简体文字识别、模糊版面识别等要求,并对自动识别后的数据进行人工审校,文本转换数据的错误率不超过0.3‰,同时生成对应的双层PDF文件和TXT文件。 1.双层PDF标准 将处理完成后的图像进行报纸篇目文字识别校对。采用图在文上的模式进行双层PDF输出。 PDF文件根据图像尺寸、颜色、数据存储量、按JPEG2000有损压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩图像文件所占空间至最小。 2.PDF文件质量要求 (1)兼容adobe reader6.0及以上版本。 (2)在保持图像清晰可读的基础上尽可能减小存储量。 (3)PDF文字层所使用的字体以”已嵌入子集”方式嵌入PDF文件。 (4)双层PDF文件的图像层和文字层的文字对位准确,反显区域与文字区域相差1毫米以内。 (5)双层PDF错误率不超过0.3‰。 四、成果形式 1.元数据 包括基础文献元数据、细粒度加工元数据、知识抽取数据,均采用 XML 格式,遵照 XML1.0规范,使用 UTF-8编码方式、Unicode5.0字符集。 2.对象数据 基础文献的全部对象数据,包括长期保存级、发布服务级等所有加工级别的数据,例如:TIF文件、完成数字化识别的TXT文件、双层PDF文件等。 3.证明文件 项目涉及的版权证明文件等。版权证明文件包括:说明本项目加工文献的版权来源、授权范围、授权使用方式与对象、使用期限等内容的整体版权说明,各权利人或各资源的具体授权文件。 4.数据说明文件 项目提交各类数据的总体说明文件。总体说明文件内容包括:项目名称、提交单位名称、各类型资源数量、记录标识号号段、存储介质情况以及特殊情况说明。数据加工过程中引用的词 表、规范库等情况,也应在数据说明文件中进行说明。 五、文件命名规则 1.元数据文件命名 元数据文件名由 4 段组成,共 13 位数字:机构代码-资源类型-项目建设年-项目顺序号,各段之间不加任何连接符。其中: 1) 机构代码、资源类型、项目建设年使用规则见“记录标识号编制规则”。 2) 项目顺序号为 2 位数字,用于区分同一年度的不同项目。同一单位在同一年度如果只提交 1 个项目,则项目顺序号为 01;如果提交了多个项目,则顺序号从 01 开始顺序排列。 3) 同一项目加工的同类型资源(即资源类型代码相同),其全部元数据尽可能集合成一个元数据文件。由于元数据数量较多、容量较大等特殊情况可能导致全部元数据需要分为多个元数据文件存储的,元数据文件命名可在 13 位数字后增加 3 位文件顺序号(从001开始顺序排列),用下划线连接,例如:000*****02101_001 2.对象数据文件命名 各类对象数据文件名可根据建设单位和建设项目具体情况而确定,一般采用数字或者数字与英文字母组合的命名形式,命名的序号顺序应与基础文献页码、音视频资源及相关文件、新型数字资源的内容顺序一致。 1) 图书、报纸、期刊、古籍等图像类资源每页建立 一个对象数据。音视频类对象数据包括:音视频文件、字幕文件、责任者头像文件、音视频资源封面文件及与资源相关的 可下载文件。 2) 新型数字资源的对象数据区分发布成品与源文件。 3.证明文件命名 版权证明文件命名由 6 段组成,共 18 位数字:机构代码- 资源类型-项目建设年-项目顺序号-bq-3 位流水号,各段之间不加任何连接符。其中: 1) 项目顺序号与元数据文件命名项目顺序号保持一致; 2) 流水号从 001 开始顺序排列。 4.数据说明文件命名 数据说明文件命名由 6 段组成,共 18 位数字:机构代码- 资源类型-项目建设年-项目顺序号-sm-3 位流水号,各段之间不加任何连接符。其中: 1) 项目顺序号与元数据文件命名项目顺序号保持一致; 2) 流水号从 001 开始顺序排列。 六、文件存储结构 1.元数据存储 基础文献元数据文件存储路径为:根目录\机构代码\项目顺序号\metadata\ 项目顺序号与元数据命名中的项目顺序号保持一致,下同。 2.对象数据存储 对象数据文件存储路径为:根目录\机构代码\项目顺序号\object\对象数据格式\基础文献记录标识号\分册(集)号\ 其中: 1) 对象数据格式是指在这一层级按照对象数据的格式建立文件夹,以文件格式作为文件夹名称,如:TIF、PDF、JPG、TXT、MPG、MP4、WAV、MP3、SRT、PPT、DOC、CAD、PSD 等,存储对应格式的对象数据。 2) 精细化标引项目对象数据按种集中存放于相应的基础文献记录标识号文件夹下。 3) 分册(集)号为 3 位数字,是指图像类对象数据的分册号、音视频资源和新型数字资源的分集号,从 001 开始顺序排列。 3.证明文件存储 证明文件存储路径为:根目录\机构代码\项目顺序号\zhengming\ 4.数据说明文件存储 数据说明文件存储路径为:根目录\机构代码\项目顺序号\shuoming\ |