利用关联数据(Linked Data)进行探索和发现

“如果关联数据有那么重要, 为什么没多少人使用呢?”

“图书馆需要将他们的馆藏书籍表达成关联数据, 这是最重要的网络技术之一.”

这是来自维基百科对关联数据的定义:

关联数据不仅可以让人和机器发现数据, 而且还可以理解并推断出不同数据之间的关系.

万维网的创始人Tim Berners-Lee为关联数据列出了一下四条规则:

使用URIs来命名或识别事物.
使用HTTPURIs以便可以访问查询这些内容.
利用一些开放的标准例如RDF和SPARQL用来提供访问数据时的名字.
在网上发布这些数据时, 使用基于HTTP URI的名称引用其他内容.

此外, 在2009年, Berners-Lee提出了3种”特别简洁”的规则:

各种概念性的东西, 现在都有以HTTP开头的名字.
如果我使用其中一个HTTP名称并对其查找, 我将会得到一些以标准格式返回的数据, 并且这些数据可能是一些人希望得到的信息.
当我得到这些信息时, 可能得到的不仅仅是某人的身高, 还有体重甚至是出生日期, 这些都被联系起来. 并且当它们之间有了关系时, 那么其中的一个总会以HTTP开头给出另一个关系的名字.

虽然这些规则看起来都很简单, 但在它们之下是一组复杂的数据模型、模式和本体, 特别是与RDF相关的. RDF是一个高度规范化、无模式的模型, 可以支持强大的搜索、解释和关系. 然而, RDF的学习曲线和实现路径都是很陡峭的.

近年来, 这个领域的发展已经降低了使用关联数据的障碍. 尽管这个比喻可能有些粗糙, 但这类似于早期关于SGML和HTML的辩论.

J. Paul Getty Trust的语义架构师Rob Sanderson在2016年肯定了这一点, 他指出如果开发人员不能采用或利用关联数据的方法, 那么这种方法不太可能获得太多驱动力. 他指出, 如果必须在完整、可用和准确三者中进行选择, 那么选择可用将会导致最大的驱动力和最高的采用率. 他还指出, Internation Image Interoperablilty Framework (IIF) Presentation API, Schema.org和Europeana Data Model都是权衡完整、可用和准确这三者之间关系的最好例子.

OCLC在图书馆社区内做的International Linked Data Survey调查提供了越来越多地使用关联数据的证据，尽管它主要关注于在电子商务，医学，科学研究和政府服务等部门的使用. 值得一提的是，OCLC还确定了服务提供商的响应以及生产中至少四年的关联数据项目的存在, 这些都标志着技术在走向成熟.

在2018年的ASIST会议上，国家大气研究中心的Matt Mayernik描述了一个用于对关联数据工具和服务进行分类的有用框架。他确定了四个类别：关系识别、关系验证、关系表征、和关系保存。Mayernik在关系保存类别中确定的链接数据服务之一是RMap，由机构约翰霍普金斯大学的Sheridan图书馆与IEEE和Portico合作，通过Alfred P. Sloan基金会的资助开发。RMap是基于OAI-ORE的扁平或简化版本协议，上面展示了学术工作相关的项目的地图。当前的RMap服务包含与IEEE的文章数据库相关的信息图。

搜索”工程”的样本”DiSCO”(分布式学术复合对象)如下图所示:

该图中的节点表示单个文章或代理（例如，作者），并且节点之间的链接描述相关联的关系（例如，引用者）。同样重要的是，DiSCO可以以持久的方式进行版本化，从而提供一种机制，用于跟踪出处以及作品及其组件随时间的演变。

原文链接: Using Linked Data for Discovery and Preservation

Table of Contents