平台可推送精细化加工处理后的互联网公开可采数据、文献类资源、期刊评价类资源数据,减轻教师填报数据的负担。 ▲1.推送的数据范围 可推送的数据至少包括以下三个方面: 一是公开渠道采集互联网可采可信数据:通过政府主管部门、项目/奖励管理部门、评价机构等官方网站及时抓取师资学者、支撑平台、课程/竞赛获奖、科研项目/奖励等公开数据。 二是推送学术成果信息、成果质量/成果影响力、代表作遴选等相关评价数据,并保证数据合法性。至少满足以下要求: (1)数据类型要全面覆盖学科发展诸方面,包括师资队伍、人才培养、科学研究、社会服务等方面,既包括清单数据、统计数据,也包括事实数据、评价数据,还包括学术活动数据、学术成果数据等。系统中的指标数据涉及中外文期刊论文、博硕士学位论文、基金项目、专利、报纸、支撑平台、科研与教学奖励、学科竞赛、高端人才等各种类型数据。国内资源:期刊论文、学位论文、报纸、图书、专利、科研项目等学术资源。需版权合法,来源清晰。 (2)评价类数据: 期刊数据标引项至少包括:影响因子、期刊索引、被引频次、下载频次等,收录索引标引需支持北大中文核心期刊、CSCD、CSSCI等。 三是人工填报方式补充学科相关数据。 ▲2.所推送数据清洗及规范要求 采集后的信息必须经过数据清洗、结构化、规范化等操作之后才能入库。尤其是网络爬取的公共可信数据,需经结构化、规范化,借助人工智能、大数据等技术手段处理后,方可入库。 (1)数据清洗 平台需创建数据清洗规范流程,对数据资源进行整合和清洗,包括数据有效性检测、排重合并等。对重复的数据或者经分析判断为同一条数据进行去重。需要矫正错误数据,例如人员与工号不匹配、人员与机构信息不匹配问题。 (2)数据标引 系统需实现各个不同来源数据的规范处理,将数据变无序为有序,完成数据的有效整合和有序入库。 平台需支持对入库的数据进行深度标引,以论文为例,标引项至少包括:标题、作者、单位、发文期刊、ISSN号、CN号、索引、中图分类、教育部一级学科、是否第一作者等。收录索引标引需支持北大中文核心期刊、CSCD、CSSCI等。 (3)数据-对象关系匹配 系统需将每一条数据进行学校、学院、人名的规范化,能有效支撑基于学院的绩效考核和基于教师人名的学者评价。数据规范要求如下: ① 学院数据规范 根据本校发展历史中学院更名、合并、拆分的实际情况,确定本校目前各学院唯一的、规范化的中英文名称,将本校各种类型、各种来源的成果进行精确清理,建立各类数据与本校学院的关联,成为学院数据精准分析的基础。 ② 教师数据规范 充分考虑同一作者在不同成果中有不同署名的情况,以及作者重名的情况,采用业界领先的人名消歧算法和人工清理,确定本校教师规范化的中英文姓名和唯一的标识号,精准梳理教师个人成果,成为教师数据精准分析的基础。 3.学科统计口径 成果数据将归属到各个学科下,学科统计口径需满足以下需求。 ① 学科元数据管理规划 至少预置教育部一级学科分类一种规则。 ② 学科统计口径规划 可按教师进行成果的学科属性定义。平台支持学校根据实际需要调整教师的学科归属,即属于同一学科的所有教师的成果构成本学科数据。 可基于成果内容语义划分学科。基于语义的学科划分算法,能够根据成果的实际内容语义判断成果的学科归属,可对所有类型的成果进行学科划分;支持跨学科研究成果的多学科划分。 4.数据推送认领机制 平台需具备将规范好的数据自动推送给相应教师的功能。教师可以在个人空间中接收成果推送信息,若该成果属于本人数据,可一键认领、并补充或编辑详细信息,再提交上级审核人员审核。 平台内审核流程可实现根据需求自定义配置,包括审核内容、审核级别、审核人员配置。针对不同数据类型,支持灵活配置不同的审核入库流程。 5.数据推送范围说明 系统遵循“应采尽采”的原则进行公开数据采集。 系统需保证只推送可靠的公开数据,对于互联网未公开的数据或数据属性,支持用户自行在平台中进行补充。如教材、专著、师生规模、主办期刊等指标无可靠的公开数据,某些基金项目官方公布不完整,如无项目编号(项目批准号)、资助金额等信息,学校可通过自填报的方式添加数据。 6.数据推送更新频率 供应商需承诺以上应用所需数据更新及时,中英文期刊论文数据双月更新,其他类型数据根据公开可获取情况更新。 7.为确保项目学科数据来源合规、合法、可信、可行,特将学科数据版权说明如下: 学校自有版权或者具有使用权的内部数据、外部数据:由学校授权开放给供应商进行数据处理,双方签署保密协议,包括对接学校业务系统的数据、学校提供的数据表单、学校采购的数据库厂商数据。 |