打造出版物数据中心，推动行业高质量发展-华中科技大学出版社

编者按：本文是中国版本图书馆（中宣部出版物数据中心）馆长刘成勇在第九届中国数字出版博览会上的演讲。本文根据2000年到2017年图书出版业的数据，其中包括CIP申报数据、馆藏出版物样本数据等等，对我国出版业的现状进行了一系列的分析，旨在为我国出版业的发展指出一些方向。

在新时代下，党和国家事业发展的高度对新时代中国特色社会文化宣传思想工作、经济高质量发展、供给侧结构性改革、大数据、人工智能等提出一系列重大问题，为数字内容产业发展指明了前进的方向。

大数据是信息化发展的新阶段，要推动大数据技术产业创新发展，构建与数据关键要素的数字经济，运用大数据提升国家治理现代化水平。目前，人工智能是新一轮科技革命和产业变革的重要驱动力量，加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手，是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。我们要充分利用大数据、人工智能技术，研究制定出版大数据战略，加强大数据资源开发利用，促进出版业供给侧结构性改革，提高推进提质增效高质量发展。

出版大数据的解读

根据历年新闻出版产业报告，我列出了2000年到2017年图书出版业的一些数据，其中包括图书总品种、总印数、全国纯销售、全国总库存、单品的平均数。这些数据可以从以下几方面解读。

首先，从2000年到2017年初，图书总品种逐年攀升，单品平均印数却不断下滑。2000年全国出版图书总品种14.34万左右，之后一路狂飙突进，2017年达到51.25万种，是2000年的3.57倍。总印数从2000年的62亿册一路增长到2017年的92亿册，我国已经成为世界第一图书出版大国，但单品平均进数从2000年的43751册，一路狂跌跌到2017年的18037次，仅有2000年的41%点，一增一减，对比明显，二者呈现出明显的严重的负相关关系。

第二，从2000年到2017年，全国图书纯销售数量勉强维持不动，人均购买图书数量在下降。以实物来衡量，全国新华书店系统出版社资本发行单位纯销售，2000年达70.24亿册，但中间曾一度下降，2016年年前达到了2000年的销量，即70.2亿册，17年也仅仅超过了2000年的2.5亿册，达72.80亿册。这说明17年间，全国的图书销售数量几乎没有增长。但是从2000年到2017年，全国人口从12.63亿增加到13.86亿，我国人均GDP、人均收入翻了两番。这样看来，我国近20年来图书品种的大幅度增加，但并没有扩大图书市场的规模。580多家出版社辛辛苦苦打拼了十几年，几乎所有出版社参与了所有的市场竞争，但是整个蛋糕并没有做大，我认为实际上是零和博弈。

第三，如此悬殊的生产销售带来的直接后果是越积越高的出版部的库存。全国新华书店系统出版社资本发行单位2000年年末总库存只有36.7亿册，2017年则达到62.59亿册。2014年库存总金额首次超过1000亿元，达到1010亿元，2017年库存总金额达到创记录的1220亿元，远远超过当年的纯销售909亿元，而大部分库存是无效的。在出版繁荣的背后，出版行业高库存导致的整体高风险正在快速集聚，这必须引起出版业的高度重视。新闻出版行业促进暴涨，产能过剩，供需严重不匹配，已经成为产业不能承受之重。提高产品质量，推动行业改革势在必行。

根据中国版本图书馆在版编目的数据显示，党的十九大以来，全国投入CIP申报数据明显下降。2017年上半年、2018年上半年、2019年上半年的CIP的申报的数量从15万、14万到12万，呈明显下降趋势。2018年CIP申报数据同比下降9.8%，2019年上半年同比下降10.6%，图书出版规模扩张得到有效控制。但是根据调研情况、座谈情况来看，出版单位经济效益并没有出现明显下滑，这说明图书出版正在由规模扩张转向质量提升。

出版大数据存在的主要问题

近年来，大数据已经成为驱动出版业供给式改革重要技术力量，数据越来越成为参与市场竞争的基础资源和核心竞争力，但是出版大数据仍然存在着以下7个问题。

第一，出版业数据思维欠缺。新闻出版行业还没有从思想上完全转变，没能全面迎接互联网时代带来的变革和契机。特别是传统的出版行业从业人员，他们普遍缺乏用数据说话、数据管理、数据决策、数据创新的思维方式，尤其是缺少三种数据思维，即价值思维、应用思维、共享思维。

第二，产业链数据共享困难。我认为，新闻出版大数据包括七类数据，分别是机构数据、人员数据、产品数据、政务数据、商务数据、用户数据和内容数据。出版行业数据分散在不同的主体当中，这七类数据散落在党和政府部门、出版单位、发行商、图书馆、科研院所、广电商、电商平台等等。主体收入数据分散，导致主管部门与出版行业主体之间、产业链上、中下游主体之间信息不畅，信息系统缺乏互联互通，产业链数据不能真正融合，汇聚、高效、共享、想象、联合、共享协同更无从谈起。

第三，缺少权威可信的出版大数据服务平台。出版大数据交换与服务机制还没有建立，缺少依托出版权威、数据资源、行业级的大数据服务平台。现有的数据服务平台各自存在局限性，数据服务供给不足，出版大数据资源无法盘活，不仅造成重复建设和资源浪费，更在一定程度上造成了各方互不信任的困境，这已经成为制约行业高质量发展的主要瓶颈之一。

第四，出版大数据标准体系尚未健全。标准化建设新闻出版大数据的基础与关键，也是真正实现新闻出版大数据潜在价值的必要条件。大数据的基本要求就是信息整合与共享，目前行业缺少一个能够指导新闻出版、大数据的采集、共享、交换、加工、应用和服务的大数据标准体系。我认为新闻出版大数据标准体系框架应该包括基础标准、技术标准、产品和平台标准、安全标准、应用和服务标准等五大类标准。

第五，数据深度利用与驱动力不足。目前政府部门对行业的监管、出版单位选题及营销策划、图书馆馆地规划等关键决策仍然缺乏数据支撑，大多是靠人员自身经验与主观判断的方式来实施。随意性大、人为因素多，缺乏客观依据，难以实现科学的决策性。各行业领域给出版大数据的应用还处在初级阶段，大量价值的信息没有得到及时有效的挖掘和深度开发利用，出版大数据对行业的驱动力明显不同。

第六，出版大数据版权保护机制缺位。目前国家保险数据权属确定、数据权利利用、数据安全保护的法律法规尚不完善，数据内容和数据库的著作权保护仍然缺乏可遵循的立法依据，这已经成为制约出版大数据应用的难点。

第七，尚未成功建立出版大数据的合作模式。出版机构、发行商、图书馆、科研院所、广配商、数据服务商、电商平台等不同主体各自占据各自的领域优势，手握分散的出版相关数据资源，呈割据状态，区域或者体制壁垒难以打破。从广义出版大数据的角度来看，主体尚未厘清角色定位和利益共同点，整合优势、互利共赢的数据合作模式，尚未有成功的案例，这在一定程度上阻碍了出版大数据资源的开放、创新、共享。如今，利用和可持续发展大数据已经成为创产业升级、行业竞争的关键要素和重要抓手。出版行业要想从根本上解决上述问题，就必须构建行业及权威可信的出版大数据服务平台，为出版产业链上中下游主体单位提供全方位、多层次、多形式数据服务、加大高品质产品的有效供给、为出版行业、高质量发展、创新、赋能。

全力以赴建设全国出版大数据中心

中国版本图书馆目前承担全国正式出版的样本征集、典藏管理的职能，负责版本文化资源的整理、发掘、抢救和保护，对中国标准书号、条码和图书在版编目进行技术编制管理，负责出版物标识标准的贯彻与实施，指导和监督出版物标识的规范和利用，承担全国出版单位书号实名申领工作，编制发放中国标准书号、出版股、条码、图书在版编目、数据和字号、网络文学作品标识等。目前还负责执法委员数据库、图书在版编目数据，完美征集馆藏数据库的建设与管理，并且负责与国际相关国际组织的交流合作。

经过近七十年的发展，中国版本图书馆现在已经形成规模最大、最完整的新中国版本资源部。中国版本图书馆保存图书、报纸、期刊，电子出版物、卷轴、碑帖、拓片、图片、挂历、年历、明信片、乐谱、歌片、影印古籍等21类，751万种、1000多万册，其中文物级资源近20万，文革期间的宣传画有13万种，这都是非常珍贵的保障。

中宣部出版物数据中心现有书号实名申领数据库、图书在版编目CIP数据库、馆藏出版物样本数据库、网络文学作品标识数据库，还有出版社年检数据库等五大数据库，是当代中国最完整、最权威的出版物和数据资源保护中心，在出版行业中具有独一无二的优势。其数据权威、完整、及时、准确，行业数据权威可信、多维数据完集合和增量数据及时更新，数据加工精准专业

版本是文化的重要载体，是一个民族知识信息和文化的总结，承担着传承历史与文明的重要责任。中国版本图书馆是我国法定征集保管典藏出版版本的机构，是国家精神文化食粮种子基因库。未来三年中国版本图书馆将在中宣部的领导之下，大力拓展现有业务，在馆藏1000多个版本的基础上，统筹规划中华版本保存传承体系建设。我们将加强版本的展览展示，综合考量版本的文化传承价值、和宣传教育价值，突出展示中华优秀版本和精品版本、从不同维度、不同层面，不同角度，彰显版本的历史价值、文化价值、审美价值，体现各类主体版本的厚重内涵和多彩中华。

出版业一定要重视大数据，应用大数据、共享大数据，要认真学习贯彻新时代中国特色社会主义思想，坚定文化自信，增强文化自觉，坚持正本清源、守正创新，推动新时代宣传思想工作实现新作为。紧紧抓住大数据人工智能发展的历史性机遇，大力推进出版大数据建设和数字内容服务，深化出版业供给侧结构性改革，不断扩大出版产品的有效和高端供给，推动行业高质量发展。