各家电子书元数据大比拼
本文转自公众号:老衲曰
电子书元数据,对图书馆行业发展意义重大,一者,可以用于电子书统一检索;二者,虽然纸书marc已经有了calis工程、国图的共享marc,但由于电子书包含书封,从给予读者视觉效果方面来说,带有书封的电子书marc,也有其自身的优点。
各家元数据的优点
下面试着说一下各家元数据的优点,希望能将各家元数据整合起来,发挥众人的优势。
畅想之星:
畅想之星固定包含 题名、作者、出版日期、isbn、出版社、分类号、书封。
畅想之星电子书当前约40万种,每年更新约10万种,包库购买的话,费用不高(各省随资源库不同价格略有差异)。
从我自己角度来说,是强烈推荐图书馆购买的资源。
中文在线:
中文在线电子书元数据,不只限于 题名、作者、出版日期、isbn、出版社、分类号、书封,还包含了主题词等一些信息,值得称道。
超星:
超星公司开放了大约2万的元数据,字段固定,有丛书名、书名、作者、出版社、出版日期、ISBN号、页数、主题词、定价、SS号、中图分类号、内容提要。
超星公司也在逐步的发生一些好的变化,向开放的方向发展,令人称赞。
电子书与纸书有点不一样的是,纸书需要更详细的信息,读者才能初步知道一本书的好坏优劣,而电子书不用这么麻烦,读者可以便捷的直接查看书籍内容,来评价这本书。这些内容,留着以后专文详述。
关于元数据的api接口
我是图书馆的技术人,vpn358电子书统一检索系统epac的作者(vpn358远程访问统计系统就是我写的,欢迎大家支持采购),这里说一说开发epac时,心目中期望资源商提供的接口:
1、本馆采购电子书元数据。
为什么需要api接口呢?api接口的好处是实时更新,图书馆每日定时向电子书书商查询更新,可以让工作自动起来。
2、电子书增量更新api。
例如我们图书馆远程包库采购了畅想之星电子书,畅想之星电子书是每日有更新。笨办法是每天或者每周,定期把畅想之星电子书元数据都更新一遍,但这种方法太笨了,如果全国图书馆都这么干的话,畅想之星服务器也要被拖垮了。如果采用增量更新api,从最后一次更新的节点开始更新,则很好解决了这个问题。
3、阅读接口
各家元数据整合方案
当前开放元数据的公司:畅想之星、博看期刊(他们家也有电子书)、中文在线、中新金桥(联系中)。
部分开放元数据公司:超星。
还在评估的公司:掌阅。
各家元数据当前都能满足图书馆电子书统一检索所需要的字段:书名、作者、出版社、出版日期、isbn号,以及部分优质商家还提供了书封。
但整合时,依然存在一些问题:
1、json字段格式不一样
各家电子书元数据并不一样,通常都是api接口,返回json数据。而json数据字段格式各家并不一样。
例如书名,有的叫title,有的叫biaoti,有的叫name;出版社,有的叫publisher,有的叫Pub。各不相同。
2、每家都有自己特定的拓展信息
有的提供了丛书名,有的提供了主题词,不一而足。
3、怎样整合各家元数据呢?
如果要求各家统一字段,各家改造自己api接口的返回数据,这对各电子书商家是一个负担。
我们提出的解决一种方案,各电子书商家给出自己json元数据字段与marc字段的对照表,例如title<==>010a,公开自己公司的字段与marc标准的对照表,将marc字段作为中间翻译的桥梁,这样可以应该可以解决问题。
*文章内容有删减
2020.11.9