Blogs

融合出版时代如何保存文献? —— 与CLOCKSS档案的对话

Original English version of this blog post is available here: https://www.force11.org/Infrastructure-dig-pres

人类的科研和文化产出正在变得多元化和动态化。多媒体、用户驱动的途径、应用程序、数据集、3D成像,甚至虚拟现实都已经成为学术著作的元素,此外还有出版后的附加内容如评论、注释、视频和播客,等等。这对数字保存提出了很多新的挑战。

 

CLOCKSS档案是一个由全球主要学术出版商和研究型图书馆联合建立的非盈利组织。它的使命是建立一个可持续的、国际性和地理上分开分布的暗存档,以确保基于网络的学术出版物能长期存在并服务于全球大范围的科研团体(https://www.clockss.org)。

Craig Van Dyck是CLOCKSS档案的执行总监。他从1978年以来一直在学术交流领域工作。在加入CLOCKSS之前,他曾担任18年Wiley出版社的内容管理副总裁,并在纽约的Springer-Verlag工作10年,担任高级副总裁和首席运营官。

身为1995-1998美国出版商协会技术促进委员会主席,Craig在数字对象标识符(DOI)系统和CrossRef的开发方面发挥了重要作用。他在国际DOI基金会、CLOCKSS、ORCID、CrossRef和学术出版协会SSP的董事会都曾任职,也曾经是Portico顾问委员会的成员之一。Craig一直致力于行业间合作以改善学术交流的基础设施。

 

以下为Force 11 系列编辑Jennifer Kemp就数字保存的话题对Craig Van Dyck进行的采访。

 

对于学术交流来说,“基础设施”指什么?

对于学术交流,基础设施是指多个参与方开展活动所依赖的共享系统。这包括硬件、软件、标准、最佳实践和社会契约,以及共享的价值、目标和共识。这其中许多是科研交流特有的,比如通过Crossref进行的参考文献链接,或是Counter使用量报告。当然,学术团体也依赖于社会的基础设施,比如高速公路、管道和互联网。

 

面对不熟悉你工作的人,你如何描述数字保存?

对学术文献进行长期的数字化保存是必要的,因为在线内容有消失的风险,而学者们从事研究需要能持续地访问他们需要的资源。假如出于任何原因学术内容从网络上消失,研究人员无法再获取。在这种情况下,当任何其他途径都失效时,像CLOCKSS 档案这样的一个保存系统可以介入,提供对资源的访问。值得一提的是,数字化保存在科研交流之外也变得越来越重要。例如,一些国家和社区正在将其文化遗产数字化,这些资源也需要进行长期的保存。我最喜欢举的一个例子是一个墨西哥裔美国人社区,这个社区正在变得中产阶级化。社区的领导人将传单、照片和文件等文物数字化,让这个社区数百年的历史能得以保存,即使它正在消失。

 

如果对硅谷提一个愿望,你希望它做什么,或是改变哪件事的做法以更好地支持数字保存?

云计算在许多领域已经是无所不在。然而,对于长期数字保存来说,目前主流的服务商不见得是最佳选择。它们的商业属性使得它们不是完全值得信赖,而且它们对反复访问内容的收费太高,而反复访问对保证数据的有效性是很重要的。硅谷可以支持一个联盟来提供一个适合学术界的非盈利云解决方案。

 

对于来自数字保存的挑战,你最希望非技术人员能更好地理解的一点是什么?

今天在网上能获取一资源,并不意味着明天照样能获取。学术研究针对性很强,不是“任何旧的“资源都可以。研究人员需要持续访问特定的文章,其中每一篇都报道了一组特定的学术活动,这些学术活动与研究人员高度专业化的追求有关。在网上看似容易找到任何主题的信息;但学术记录是经过同行评审和验证的信息的来源。

 

文本相对数据、期刊或书籍,在数字保存方面有无及有何不同?

学术文献正在变得多元化和动态化。今天它已经不仅仅是期刊和书籍了,学者们正在寻找新的形式来表述他们的发现。多媒体、用户驱动的途径、应用程序、数据集、3D成像,甚至虚拟现实都已经成为学术著作的元素。而且还有更多的辅助内容,如预印本、出版后的评论和注释、视频和播客。“学术文献”的边界是什么?哪些内容必须被长期保存?抓取、保存和重播动态内容的技术解决方案是什么?如果存在折中方案,又如何将其利益权衡向作者和出版商诠释清楚?作为数字保存服务,我们必须接受文献的演变,并增加功能以确保这些新形式的学术成果的长期可用性。

 

CLOCKSS与基础设施的其他哪些领域合作最紧密或最相互依赖?

CLOCKSS与多个出版商的平台合作,每个平台都有自己的独特功能和特质。我们依靠出版商的最佳实践来实现对数百个不同出版社内容的高效处理,例如DOI, ISSN, ISBN, JATS XML格式,ONIX, 和ORCID。我们发现期刊出版的实践已很规范能预见,书籍虽差之,但仍有很好的一致性。然而当我们处理前述那些新的内容形式时,规范还没有建立,规模经济也尚未实现。

 

请详细解释一下你认为最伤脑筋、最有趣以及最重要的问题。

眼下最有趣的问题可能是理解哪些新形式的内容需要保存以及如何保存。例如,如果一本在线的书是不断变化的,我们应该保存哪个版本,或者,如果我们要保存所有的版本,我们如何能以一种可扩展的、可持续的方式做到?从长远来看,我们都需要关注长期数字保护的资金支持问题,这很少成为首要任务,有时也被遗忘、被误解,或被想当然地认为不成问题。另一个值得一提的问题是,学术图书馆提供给用户的许多数字资源并没有被一个长期保存系统覆盖,比如“灰色文献”,或是大众报纸和杂志。

 

在一个完美的世界中应该如何对长期保存进行资助和管理?

任何一项事业最好都是由那些从中受益的人来赞助和管理。对于科研交流,长期保存的受益者是研究人员。然而,让研究人员个人直接资助和管理数字保护既不现实也不可取。幸运的是,研究型图书馆和学术出版商具备了良好的条件来做研究人员的代理人,正如他们已经在馆藏建设和期刊出版方面所做的那样。CLOCKSS是由12个研究型图书馆和12个学术出版商组成的一个委员会来管理,由300个学术图书馆和300家学术出版商进行资助。这是一个可持续的模式。

 

你最喜欢通过哪些博客、会议、Twitter账户等来保持对长期保存的关注?

学术出版协会(SSP)的学术厨房博客,每年的查尔斯顿图书馆会议,以及网络信息联盟(CNI)的双年会是跟踪数字保存进展的三个可信赖的主要途径。

 

关于数字保存有哪些鲜为人知的事实或无名英雄呢?

LOCKSS软件(LOCKSS是Lots of Copies Keep Stuff Safe的缩写,意为大量副本能保证资料安全)是在20世纪90年代末由Vicky Reich和David Rosenthal在斯坦福大学图书馆创立的。他们不是无名英雄,相反,他们得到了应得的称颂!但很少被人赏识的是LOCKSS与区块链的相似之处。有人认为LOCKSS是区块链概念的第一个规模化的实现。CLOCKSS档案使用的是LOCKSS软件。

 

有什么问题是你希望我们提出而我们未提出的,为什么?

能显著改善数字保存现状的最好机会有哪些?比如在内容中嵌入元数据的最佳实践,这样网络爬虫可以获得关于它们接触的内容的更多信息。再如,抓取和回放动态内容的工具的进化。还有存储成本的规模化经济,而不是线性上升的成本。此外,梅隆基金会(Mellon Foundation)一直拨款支持,使大学出版社和保存机构等多方能够合作应对挑战。