出版业“大数据”时代已来临
导读:自2012年底起,“大数据”吸引了越来越多的关注,成了被广泛讨论的概念之一。出版业尚未在“数字出版”对“传统出版”的冲击中摸清门径,就一下次又被推到了“大数据出版”的浪潮之前。
自2012年底起,“大数据”吸引了越来越多的关注,成了被广泛讨论的概念之一。出版业尚未在“数字出版”对“传统出版”的冲击中摸清门径,就一下次又被推到了“大数据出版”的浪潮之前。大数据到底是什么?它会如何影响传统出版,带来怎样的思维方式和商业模式的变革?它又会给我国传统出版业带来哪些问题和挑战?这些问题值得传统出版业中的有识之士认真思考。
何谓“出版业大数据”
为了更清晰地认识出版业大数据的面貌,国家新闻出版广电总局数字出版司对出版业大数据进行模型构建,整体分为五个层面,由内而外分别是核心层、产品层、业务层、市场层和用户层。
核心层即出版生产过程中产生的各种内容资源数据;产品层是指产品信息的基础数据,目前以书目信息为主;业务层是指出版产品流通的数据,记录着整个出版业务运行状态的信息;市场层和用户层分别包括产品消费数据和消费反馈数据,记录了广大用户的行为数据和评价信息。这种划分从宏观层面可以更好地理解出版业大数据的发展整体状况,对制定大数据扶持政策、推动大数据发展具有积极的作用。
“大数据”对传统出版业的影响
无论国内还是国外,业界普遍接受这样一种论断,从选题策划到出版发行,出版业的每一个环节都离不开大数据。那么大数据究竟会对传统出版业带来哪些影响?
具体来说,在选题策划环节,过去出版社在出版一本书之前,先是基于经验判断,然后往往会经过市场调研,以了解市场需求,在这种情况下,出版人对经验判断的依赖度较高,而在高节奏的社会发展背景下,市场需求变化瞬息万变,单纯依据经验进行判断的风险度急剧加大,比如今年有众多出版社针对美国总统大选所进行的选题储备,就出现了大面积的误判现象。在大数据尚未建立的情况下,市场调研往往采用随机抽样问卷调查的形式。随机抽样式调查固然有一定的科学性和可参考性,但其数据支撑的天然缺陷是始终存在的。这也是为什么传统出版业的出版品种在逐年递增的原因:为了应对市场需求的不确定性,出版企业往往需要生产过剩的文化产品,再重点推广其中某些产品,以期望这些产品能够满足消费者的需求。很显然,这种传统的生产模式不仅增加了成本,还造成了一定程度上的资源浪费。
在大数据时代,一个题材的书籍是否有必要发行,不再是过去那种“经验式”的决策方式,而应该是在一定数据统计下,经过分析后得出的可供参考的,相对客观的预测结论。通过大数据分析,可以更实时、准确、小成本地分析现有市场的潜在需求和趋势。这样,出版社不必再忙于传统市场调研的随机抽样问卷调查,也不必再受制于调查得出的滞后的市场数据,更不必再通过过剩生产的方式来满足受众需求。出版社通过对用户数据的分析,可以了解到用户的产品偏好,这样就可以相对定向地策划、生产出符合用户潜在需求的文化产品。出版社可以和掌握相关用户数据的网站合作,分析用户使用搜索和“想读”功能而积累起的海量数据,从中挖掘出用户的偏好趋势和书籍市场的潜在需求。社交网站和搜索引擎也掌握着庞大的数据。出版社可以通过对微博上与书籍相关的关键词进行排序,挖掘出近期热门的内容题材和作家。
在印量确定环节,基于数据的分析,例如该类书的市场受欢迎程度、作者受欢迎程度、已出版同类书籍的销售库存情况,也可以大概推测出这本书的首印量应该为多少。新书首印量的确定不仅关系到出版社的赢利,更关系到成本控制,相对于印少了来说,印多了不仅不能创造预期的利润,更会增加不该有的库存,占用大量资金,因此对新书首印量的数据性分析有助于首印数的决策参考。
在图书营销环节,大数据可利用的范围就更加广阔,为图书提供了精准营销的可能性,在运用大数据之前,对读者的阅读喜好调查多为抽样调查,而大数据可以通过对数据的分析和计算,如某地读者的阅读喜好与习惯、不同省份更喜爱的书籍类型,哪些书籍放在一起容易捆绑销售等这些用户行为,分析出读者的需求和喜好,更好地进行推销。通过对这些信息的收集、加工和整理,就可以得到有意义的统计规律。社交网站上的用户关系也可用于大数据分析。利用社会网络分析法对社交网站用户间关系进行分析,可以辨别出有着不同属性、兴趣爱好和消费能力的“小圈子”。这些小圈子就是典型的细分的目标市场。专业出版物往往只符合小众市场的需求,而在这些小圈子进行专业出版物的营销活动,利用社交网络强关系和弱关系的连结,可以取得良好的营销效果。在大数据分析的帮助下,对不同的用户进行定向的新书推荐和广告投放,也可以使营销更有效、更富有针对性。
大数据的思维不仅仅可能影响传统出版业的各个产业链环节,还可能为出版社提供新的商业赢利模式。在传统出版业,出版是主要环节,带动其他环节形成出版业的生产链条。在大数据时代,数据本身就是重要的资产。这种资产就像冰山一角,没有深入挖掘就不能发现其潜藏的巨大价值。出版社需要认识到,自身所拥有的庞大内容资源,本身就可以是一个巨大的数据库。谷歌于2010年推出的图书数据库就包括了从1500年到2008年间出版的各类图书的5000亿个单词,大约有2000万图书被扫描成了数字图书。用户可以在电脑上输入单词,查看这些单词历年的使用频率。这样的数据库对于人文社科研究有着巨大的价值。
除去传统出版的环节,对数字出版来说,大数据也很有用处。大数据为按需出版提供了数据支持,出版社可根据读者的用户行为、偏好取向等进行全面分析,将有可能实现真正意义上的个性化定制内容和按需出版。
国际出版业的实践
全球领先的学术科技期刊和专著出版商施普林格通过大数据提升决策效率。施普林格目前在世界25个国家和地区拥有超过6000名员工,共出版发行了2000多种学术期刊和12.3万种学术专著。施普林格借助大数据分析,发现全球学术、科研、政府、企业机构对期刊形式的需求发生了重大变化,结果显示多达88%的机构只需要数字期刊,只有12%的机构表示仍需要纸质期刊。于是施普林格察觉到了从纸质出版向数字出版发展的巨大变化,它借助分析结果进行决策,加速整个公司数字化出版的进度。
世界著名的大众图书出版商西蒙·舒斯特十分重视大数据技术的应用,聘请了著名的数据科学家直接指导社内大数据应用项目开展,并借助底层数据架构为大数据项目实施提供基础,借助大数据优化业务管理和拓宽业务范围。通过对读者购书和阅读行为数据进行全面收集,对数据进行大数据分析,从而发现这些数据背后的意义,可以分析得出为什么人们喜欢某个作者;通过大数据技术对销售渠道产生的数据进行分析,制定了更优的定价策略,并且还可获知在何种情况下对图书销售可能会造成何种影响;通过大数据分析还发现了通过在线社区和社交媒体宣传和销售以吸引读者关注图书的新模式,并可获知读者亟需内容的类型。
亚马逊利用大数据改变营销方式的案例也值得借鉴。作为在线售书商,亚马逊曾经专门成立了一个由20多名书评家和编辑组成的团队。这个团队通过撰写书评、推荐新书的形式,承担起传统评论人的角色,对书籍销量产生了巨大的影响。然而,当亚马逊意识到数据的作用后,通过对用户的大数据分析,建立起亚马逊的购书推荐系统。这个系统能够自动向用户推荐经数据分析后其最有可能会买的书籍,最终,推荐系统获得了比书评团队更好的效果,书评团队也走向解体。
如果出版社拥有自己的电子阅读器用户,那么出版社就可以对电子阅读器用户的阅读习惯和阅读行为进行量化。巴诺书店利用自己的Nook电子阅读器收集用户的阅读行为数据。通过数据分析,巴诺发现非小说的阅读,尤其是篇幅较长的书的阅读,总是断断续续,往往容易较早被放弃。这些数据促使巴诺推出“Nook快照”,加入了从减肥到“占领华尔街”运动等一系列与健康和时事有关的短小作品,鼓励读者阅读非小说类作品和长篇的新闻作品。甚至,数据还能帮助出版社在电子书中合适的地方加入多媒体功能,让读者继续保持兴趣。出版社还能通过读者的阅读速度或放弃阅读的比例来判断读者对此书是否还有兴趣。
“大数据”对出版业的真正意义
有关数字出版对传统出版的挑战与机遇的论述已经有许多,观点也普遍被业界所接受。但大数据时代的来临对出版业究竟意味着什么?
美国学者舍恩伯格曾经举过Google图书馆的例子来说明数字出版和大数据出版的差异:前者只是将书本内容搬到了计算机和因特网上供人查阅,而后者则是通过光学识别软件将书本中的内容转化为计算机可以检索和运算的信息,从而将所有文献内容集成为一个大数据库,借助计算机可以对其中的任何文本进行挖掘和分析。可见,数字出版的历史进步性在于对信息存储、复制和传播方式的变革,但数字出版所没有解决的,是对信息的挖掘和运算问题——而这正是大数据出版最关注的核心价值:在没有数据化之前,所有数字出版的产品无法被集成和参与运算;而实现了大数据出版之后,这些信息孤岛就被海底的大陆架所连接,虽然其呈现方式可以是一本本书籍,但其内在结构却是一个可被分析的大数据库。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
大数据对传统出版业来说更大的价值不在于技术本身,而在为出版业提供一种思维方式和思考模式,大数据强调相关关系,重视总体数据,宽容数据中的“噪音”,实时地发现其中从未被了解过的相关性现象和趋势,挖掘并创造意想不到的价值,改变了传统数据时代一味追求因果关系和精致化数据处理的思维习惯。