长者长者facebook电子邮件

一步一脚印:澳门公共图书馆三个「数码化馆藏资料库」的建立

黄洁碧

 

澳门公共图书馆近年展开数码化工作,并开发了三个数码化馆藏资料库,包括:馆藏外文报刊资料库、馆藏海报资料库及抗战时期澳门新闻剪报资料库,各有特色:

 

在馆内打开本馆网页,点击以上连结,便可使用「馆藏外文报刊资料」、「馆藏海报资料库」及「抗战时期澳门新闻剪报资料库」。

 

 

一、馆藏外文报刊资料库

议事亭藏书楼 (Biblioteca do Senado) 位于亚美打利庇卢大马路(新马路)市政署大楼内, 1929年启用,是澳门中央图书馆的前身,现为澳门特别行政区政府文化局公共图书馆管理厅辖下的古籍图书馆。专门收藏17世纪至20世纪中叶的外文古籍,特别是葡萄牙在非洲及远东的歷史文献,不乏珍品。

全馆面积为454.9平方米,提供报刊阅览,查阅缩微资料、外文古籍及逾期外文报刊资料,宽频上网等服务。馆藏以外文古籍、葡萄牙在非洲及远东的歷史文献为主,目前收藏书籍约20,000册、已装订逾期报刊约120种。

 


古色古香的议事亭藏书楼

 


《蜜蜂华报》 ( Albelha de China) 于1822 年9月 12 日在澳门创办,是议事亭藏书楼最早的报纸,也是最早在澳门出版的葡文报纸。

 


《Regni Chinensis Descriptio》 是议事亭藏书楼最袖珍的拉丁文古籍,体积只有11 厘米 x 6厘米x 2厘米。

 

为保存珍贵的馆藏文献,本馆自20世纪80年代已开始为中、外文古籍及澳门地方文献拍摄缩微胶捲,供读者阅览,以避免直接翻阅原件令该等珍贵文献毁损。至2013年为止,已拍摄700捲35毫米格式的缩微胶捲。随着时代的进步,缩微胶捲的查检模式已无法满足读者需求,因此有必要将之转换成数码化格式,使管理更科学化,并可配合电脑执行检索、阅读及列印。为此,2013年本馆邀请专业公司提供馆藏缩微胶捲数码化外判服务,将馆藏700捲35毫米格式的缩微胶捲影像转换成数码化影像 (一捲缩微胶捲,可拍550个影像x700 = 385,000个影像) 。

 


馆藏缩微资料的着录内容

 

缩微胶捲的影像本身只有流水编号,转换成数码化影像后,数十万影像,难以识别及利用。本馆优先从这数十万个影像中,拣选19、20世纪葡文、英文报刊中较多读者查阅的报刊影像,并逐个影像更名。

 


缩微胶捲的影像本身只有流水编号,难以识别及利用。

            


本馆曾逐个影像更名

 

后发现「逐个影像更名」的方法太耗时且没有效率,幸得本馆资讯人员协助,改变了整个作业的方式:先将「报刊名称」建立资料夹,资料夹内再以「年份」建立子资料夹,年份以下再建立「月份」的子资料夹,月份以下再建立「日期」的子资料夹,然后将一个影像的两版报纸切割成左右两个影像,再将同一日的影像放在同一日期的子资料夹内……。如此一来,只需要负责调校影像及将影像按年、月、日「拖入」相关的资料夹便可,不需要逐张影像改名,大大提高了工作效率。

 





将「报刊名称」建立资料夹,再建立「年份」、「月份」及「日期」的子资料夹,然后将一个影像的两版报纸切割成左右两个影像。

 

本馆资讯人员继而为这批由缩微胶捲转换而来的数码化影像开发了检索系统,特藏人员每日将影像处理后,逐批交资讯人员汇入系统。

从2018年10月至2020年9月 共完成16种报纸6万多个影像,有关的工作仍在持续进行中。2020年开始,读者可亲临图书馆,利用此系统查检本馆馆藏19世纪末和20世纪初的葡文报纸。

 


本馆自行开发的“馆藏外文报刊资料库”

 


可透过报刊的年、月、日进行检索,检索后,将影像放大,方便查阅。

 


找到所需影像后,可以将影像列印出来。

 

除了19、20世纪葡文、英文报刊外,议事亭藏书楼还收藏葡语、英语、法语、西班牙语及拉丁语的外文古籍。包括:来自伯多禄 (Pedro Nolasco da Silva) 、庇山耶 (Camilo Pessanha) 和马忌士 ( Lourenço Pereira Marques ) 的藏书。 主题分为23个:艺术、汉学、自然科学、法律、哲学、亚洲史、葡萄牙史、世界史、巴西文学、法国文学、儿童文学、英国文学、葡萄牙文学、医学、方志、教育、政治、心理学、参考书、宗教、特藏、社会学及其他。

本馆计划于2021年开展《馆藏珍贵中、西文古籍数码化计划》,届时将精选以上珍贵古籍,外判扫描及制作成电子书,并建立古籍电子书平台。预计2022年,读者可透过网上平台免费查阅议事亭藏书楼珍贵的外文古籍。

 

二、馆藏海报资料库

 

本馆的澳门资料室,负起蒐集、整理、保存和传播有关澳门特区政府和民间的文献,以及葡萄牙人在远东的歷史文献的任务。透过澳门地方文献,展现澳门的地方特色,让人们从歷史、文物、风土人情等方面认识澳门的过去。

2015年,本馆歷年经“法定收藏” 取得的海报已逾6000多张。过去,由于这些馆藏未有系统整理,且因体积庞大,只能存放于书库中,读者不能查阅,管理上也不方便。为更有效保存本馆海报馆藏,延展独有的文化价值,便于应用与推广,本馆开展馆藏海报数码化计划。

「馆藏海报数码化」分以下步骤:

  1. 前期工作:       将海报从海报柜抽出,逐张清洁、去除重复、依大小包装。
  2. 运送规划:       运送流程分析、运送执行及监督。
  3. 影像建设:          准备数码化器材、调校设备及环境、扫描、影像制作、影像品质检查、
  4. 资料建设:        资料分析、资料栏位与着录规范订定、着录编目。
  5. 建立资料库:   需求分析、系统介面及索引设计、系统测试、资料登录、系统复检,
  6. 后期工作:      点算运送回馆的海报、按条码顺序将每张海报归架。

前期及后期工作均由本馆处理。中期工作 (第2至第5步骤) 极具专业性,其质素高低将直接影响海报的保存价值和应用的水平,由于本馆缺乏相应的专业人员与设备,而在本地及邻近地区的市场上,尚未发现另一性质相同、业务类似又具备同等专业经验及服务质素的公司。为此,2015年本馆邀请具相关经验公司提供第2及第3步骤的服务,并将6000多张海报运往台湾。

2016年接着开展第4步骤的数据建设工作,透过为海报数码档案建立元数据 (Metadata) 及检索点,让使用者将来可经由第5步骤建置的资料库系统检索及取用海报数码档案。2017年本馆开展第5步骤建置“馆藏海报数码化资料库”的工作,包括:后台建置、管理与维护以及前台服务项目与检索功能建置等,由于本部门缺少足够的专业人员应付庞大的工作内容,故本馆将第4及第5步骤的有关工作外判予备有专业人员及具有相当经验的专业公司承揽。

 


将海报原件从海报柜抽出

 


将海报逐张以「静电除尘纸」进行清洁,去除重复,再按大小排列。

 


将6000多张海报按大小包装、入箱,经运输公司运送至台湾进行扫描。

 

2019年本馆进行馆藏海报资料库的测试,发现有海报影像重复的情况出现,所以将海报的元数据档以Excel的功能排序检查,将元数据相近的海报进行分析,再找出相应的海报图像,以确定是否重复。经检查后,发现某些海报在元数据及影像上看似重复,但原来或有轻微色差,或设计有些少变化,或部分文字排序不同,或新版比旧版多了一点资讯……,均不算重复。最后,本馆将确定重复的海报标记出来,并请外判公司协助在系统上删除。

 


发现问题 – 影像重复

 


以Excel 功能进行排序分析,以去除重复影像。

 

2020年馆藏海报资料库检索系统,完成了测试,开放在馆内使用。此资料库收录了1978至2015年间,本馆经《法定收藏制度》蒐集由本澳政府部门、民间社团机构及大专院校出版的海报共5000多张。海报类型包括:宗教、哲学、自然科学、社会科学、史学、文学及艺术等;内容涵盖:社会及民生资讯、教育资讯、文化及艺术活动、体育及康乐活动等,反映了本地社会面貌、生活点滴及设计艺术等各方面。

读者可透过海报的题名、出版者、出版年、活动地点、海报系列名称、海报类型及关键字等检索。

 


“馆藏海报资料库”首页

 


“馆藏海报资料库”的检索介面

 

三、抗战时期澳门新闻剪报资料库

澳门是近代中国新闻剪报事业的发祥地。1822年在澳门创办的《蜜蜂华报》,是中国境内第一份近代报纸。澳门各种载体史料的发掘与整理,除了档案、文献、金石碑刻、图录外,还有一大批种类繁多、语种多样的近现代报刊与剪报。过往澳门歷史研究特别注重开埠初期的探讨,而到澳门近现代史时,其主要内容多为或偏重于中葡关系,对澳门社会内部发展情况鲜有涉及,或语焉不详,或空白甚多,脉络不清晰,疑点谜团不少,其中一个最主要的原因,就是反映当时澳门社会内部活动的有参考价值的众多资料,往往多载录于各种报端和剪报之中,而此部分资料尚未进行系统蒐集整理、拟定题目、分类归纳及编撰研究等工作。

因此,各种着述凡涉及澳门近现代史记述时,往往中葡矛盾与冲突的内容连篇累牍,而对澳门社会内部情况的内容少之又少,诸如澳门近现代城市的发展、市政建设的规模、葡华商人集团的经济活动、司法治安、博彩经营、鸦片走私、葡华民众宗教信仰、生活习俗、文化教育、艺术活动,特别是抗战期间,澳葡当局实行“中立”政策,澳门人是如何赈济援助中国抗战的、“风潮时期”澳门华人社团是如何赈济救助难民的、澳葡当局的政策前后有何变化、抗战时期的澳门社会究竟是怎样的等等,倘若缺乏近现代报刊或剪报之中记录的澳门资料,上述问题是无法展开研究的。故此,蒐集整理、录入及辨识文字、重新拟定题目、分类归纳、鑑别校对、编撰及开展相关研究,系统出版近现代澳门新闻剪报资料,构建“抗战时期澳门新闻剪报资料库”,即成为澳门现代史研究中一项紧迫的工作和任务。(註1)

澳门理工学院中西文化研究所是本地高校的专业学术研究机构,专门从事本土歷史研究和社会教育推广工作,曾编辑出版数十种澳门史志研究着述,尤在抗战研究、文献整理和口述歷史访谈方面,具体研究成果甚丰。

为纪念“中国人民抗日战争胜利70周年”,本馆于2015年与澳门理工学院中西文化研究所合作开展“抗战时期澳门新闻剪报资料库”计画,目的是让市民透过当年的新闻资料,瞭解澳门民众在该段时期各种支持抗日战争的事蹟,藉此加强培养公众的爱国情怀。该计画分为以下两部分,经费由双方共同承担,成果共用。

第一部分 - 建构“抗战时期澳门新闻剪报资料库”

第二部分 - 出版《故纸留痕:“澳门与抗日战争”报刊数据选辑》

第一部分的工作分以下三阶段进行:

第一阶段:资料蒐集及整理,包括蒐集抗日战争时期澳门的中文报刊资料,并将相关报刊新闻内容分类及整理。有关工作由澳门理工学院中西文化研究所所长、教授带领研究生执行。

第二阶段:由澳门理工学院中西文化研究所重新将已选出的报刊内容作文字录入 (约150万字)、文字辨识、归纳、 鉴别、校对、编撰及研究等。

第三阶段:外判建构资料库,包括如何开发、展示及利用等。有关资料库将放置公共图书馆及澳门理工学院网站公开供公众免费使用。

 


抗日战争时期澳门的中文报刊资料

 

本馆请澳门理工学院中西文化研究所协助规范原始资料的格式,以便进行资料排序及检索,透过固定的格式让电脑自动辨识新闻剪报的各个组成部份。要求如下:

报刊名:各报刊分别独立成档,电脑辨识时档案名即报刊名,由电脑自动为档案内每篇新闻加插报刊名栏位。

日期及版面:设定固定格式 (如范例:YYYY.MM.DD……第N版),作为电脑辨识各新闻开端之依据。
标题:由电脑辨识“日期及版面”下一行即为标题栏位的开端,标题完结后加入行距 (例:与后段距离0.5行),用作辨识标题完结,正文开始。
正文:由电脑辨识标题完结之行距 (例:与后段距离0.5行)即为标题已完结,正文开始。正文完结后插入一空行,搭配“日期及版面”用作辨识整篇新闻结束,下篇新闻开始。

注意事项

  1.  “日期及版面”的格式应尽量完全依据设定,如设定为YYYY.MM.DD.... (四空格) ,则应尽可能全部统一为四个空格;
  2. 标题将不区分主、次标题,按次序读入,并保留粗体;
  3. 统一标点符号为全形或半形,电脑会按照提供的文字格式作判定并显示于资料库上;
  4. 统一“非原文的辅助表述”,如“开天窗”、“□□”等,电脑会如实判别为文字内容输入资料库。若要后期加工,则需要统一的文字表述以便统一查找取代;
  5. 除经设定用作辨识的格式规范以及必要的标题/正文段落 (Enter) 外,不必添加其他任何格式设定,以免干扰辨识;
  6. 若有特殊情况,如新闻内含表格等,抽出独立成档,再作人手处理。

上述第一阶段及第二阶段的工作分别于2015年及2016年完成 。第三期阶段的工作内容包括:后台建置、管理与维护、前台服务专案与检索功能建置等,也于2019年完成。

2019年8月,双方就测试版资料库试用情况表达意见、讨论资料库往后添加新资料的方向、商讨资料库的版权问题及处理方法、资料库对外开放使用及服务方式。澳门理工学院中西文化研究所提供澳门理工学院的标志及资料库的简介,并协助对资料库首页进行美化和设计工作 (后双方共识维持简洁的介面)。

2020年“抗战时期澳门新闻剪报资料库”正式启用,共收录1941至1945年澳门新闻报纸5种,新闻剪报条目共6535条。包括:《大众报》 2877条、《西南日报》 1654条、《市民日报》 902条、《復兴晚报》 859条及《復兴日报》 243条。

 


“抗战时期澳门新闻剪报资料库” 首页

 


“抗战时期澳门新闻剪报资料库” 检索介面

 


以“轮米”作检索

 


以“义卖”作检索

 


将检索结果放大显示

 

过去6年,笔者有幸参与了上述3个资料库的工作,经歷良多,总结如下:

  1. 只做“人无我有的” :“数码化馆藏资料库”的生成需要付出极大的人力、物力、财力及时间,所以只将“人无我有的资料”做成资料库,才是最值得的。
  2. 要全盘计画 :“数码化馆藏资料库”由原始资料整理至上线利用,少则3年,多则6年以上的工作,如没有“全盘计划”,很易失去方向或难以坚持下去。
  3. 跨部门合作:“数码化馆藏资料库”的工作,从资料整理、数据分柝与组织、系统建立,到读者服务、宣传推广,需要特藏、资讯、流通及推广等跨部门的合作。
  4. 成立工作小组 :除了跨部门合作外,一定要取得馆方上层的支持,方便调配人手及资源,故小组成员必须包括相关的管理层人员。
  5. 人员稳定 :因“数码化馆藏资料库”建立需时,团队成员的稳定,极其重要。若人员不稳,容易导致计划中断,或影响进度,或技术难以衔接,严重的甚至可以令整个计划终止。
  6. 不断探讨及改善:对本馆来说,“数码化馆藏资料库”是项新工作,不同资料有不同的处理,检索系统的设计也不一样,加上很多技术是新的,故只能从做中去学,从学中去做。在前进的路上,问题林林总总,需要不断克服困难、积极面对及解决问题。
  7. 优化、更新及维护 :已建立的“数码化馆藏资料库”需要持续优化,包括:资料持续更新,数据多重备份,系统定期保养及维护,使其“有活力地生存及健康成长”

 

<完>

 

_______________________________________________________________________________________

 

 

註1:由澳门理工学院中西文化研究所提供的“抗战时期澳门新闻剪报资料库” 背景介绍