長者長者facebook電子郵件

一步一腳印:澳門公共圖書館三個「數碼化館藏資料庫」的建立

黃潔碧

 

澳門公共圖書館近年展開數碼化工作,並開發了三個數碼化館藏資料庫,包括:館藏外文報刊資料庫、館藏海報資料庫及抗戰時期澳門新聞剪報資料庫,各有特色:

 

在館內打開本館網頁,點擊以上連結,便可使用「館藏外文報刊資料」、「館藏海報資料庫」及「抗戰時期澳門新聞剪報資料庫」。

 

 

一、館藏外文報刊資料庫

議事亭藏書樓 (Biblioteca do Senado) 位於亞美打利庇盧大馬路(新馬路)市政署大樓內, 1929年啟用,是澳門中央圖書館的前身,現為澳門特別行政區政府文化局公共圖書館管理廳轄下的古籍圖書館。專門收藏17世紀至20世紀中葉的外文古籍,特別是葡萄牙在非洲及遠東的歷史文獻,不乏珍品。

全館面積為454.9平方米,提供報刊閱覽,查閱縮微資料、外文古籍及逾期外文報刊資料,寬頻上網等服務。館藏以外文古籍、葡萄牙在非洲及遠東的歷史文獻為主,目前收藏書籍約20,000冊、已裝訂逾期報刊約120種。

 


古色古香的議事亭藏書樓

 


《蜜蜂華報》 ( Albelha de China) 於1822 年9月 12 日在澳門創辦,是議事亭藏書樓最早的報紙,也是最早在澳門出版的葡文報紙。

 


《Regni Chinensis Descriptio》 是議事亭藏書樓最袖珍的拉丁文古籍,體積只有11 厘米 x 6厘米x 2厘米。

 

為保存珍貴的館藏文獻,本館自20世紀80年代已開始為中、外文古籍及澳門地方文獻拍攝縮微膠捲,供讀者閱覽,以避免直接翻閱原件令該等珍貴文獻毀損。至2013年為止,已拍攝700捲35毫米格式的縮微膠捲。隨著時代的進步,縮微膠捲的查檢模式已無法滿足讀者需求,因此有必要將之轉換成數碼化格式,使管理更科學化,並可配合電腦執行檢索、閱讀及列印。為此,2013年本館邀請專業公司提供館藏縮微膠捲數碼化外判服務,將館藏700捲35毫米格式的縮微膠捲影像轉換成數碼化影像 (一捲縮微膠捲,可拍550個影像x700 = 385,000個影像) 。

 


館藏縮微資料的著錄內容

 

縮微膠捲的影像本身只有流水編號,轉換成數碼化影像後,數十萬影像,難以識別及利用。本館優先從這數十萬個影像中,揀選19、20世紀葡文、英文報刊中較多讀者查閱的報刊影像,並逐個影像更名。

 


縮微膠捲的影像本身只有流水編號,難以識別及利用。

            


本館曾逐個影像更名

 

後發現「逐個影像更名」的方法太耗時且沒有效率,幸得本館資訊人員協助,改變了整個作業的方式:先將「報刊名稱」建立資料夾,資料夾內再以「年份」建立子資料夾,年份以下再建立「月份」的子資料夾,月份以下再建立「日期」的子資料夾,然後將一個影像的兩版報紙切割成左右兩個影像,再將同一日的影像放在同一日期的子資料夾內……。如此一來,只需要負責調校影像及將影像按年、月、日「拖入」相關的資料夾便可,不需要逐張影像改名,大大提高了工作效率。

 





將「報刊名稱」建立資料夾,再建立「年份」、「月份」及「日期」的子資料夾,然後將一個影像的兩版報紙切割成左右兩個影像。

 

本館資訊人員繼而為這批由縮微膠捲轉換而來的數碼化影像開發了檢索系統,特藏人員每日將影像處理後,逐批交資訊人員匯入系統。

從2018年10月至2020年9月 共完成16種報紙6萬多個影像,有關的工作仍在持續進行中。2020年開始,讀者可親臨圖書館,利用此系統查檢本館館藏19世紀末和20世紀初的葡文報紙。

 


本館自行開發的“館藏外文報刊資料庫”

 


可透過報刊的年、月、日進行檢索,檢索後,將影像放大,方便查閱。

 


找到所需影像後,可以將影像列印出來。

 

除了19、20世紀葡文、英文報刊外,議事亭藏書樓還收藏葡語、英語、法語、西班牙語及拉丁語的外文古籍。包括:來自伯多祿 (Pedro Nolasco da Silva) 、庇山耶 (Camilo Pessanha) 和馬忌士 ( Lourenço Pereira Marques ) 的藏書。 主題分為23個:藝術、漢學、自然科學、法律、哲學、亞洲史、葡萄牙史、世界史、巴西文學、法國文學、兒童文學、英國文學、葡萄牙文學、醫學、方志、教育、政治、心理學、參考書、宗教、特藏、社會學及其他。

本館計劃於2021年開展《館藏珍貴中、西文古籍數碼化計劃》,屆時將精選以上珍貴古籍,外判掃描及製作成電子書,並建立古籍電子書平台。預計2022年,讀者可透過網上平台免費查閱議事亭藏書樓珍貴的外文古籍。

 

二、館藏海報資料庫

 

本館的澳門資料室,負起蒐集、整理、保存和傳播有關澳門特區政府和民間的文獻,以及葡萄牙人在遠東的歷史文獻的任務。透過澳門地方文獻,展現澳門的地方特色,讓人們從歷史、文物、風土人情等方面認識澳門的過去。

2015年,本館歷年經“法定收藏” 取得的海報已逾6000多張。過去,由於這些館藏未有系統整理,且因體積龐大,只能存放於書庫中,讀者不能查閱,管理上也不方便。為更有效保存本館海報館藏,延展獨有的文化價值,便於應用與推廣,本館開展館藏海報數碼化計劃。

「館藏海報數碼化」分以下步驟:

  1. 前期工作:       將海報從海報櫃抽出,逐張清潔、去除重複、依大小包裝。
  2. 運送規劃:       運送流程分析、運送執行及監督。
  3. 影像建設:          準備數碼化器材、調校設備及環境、掃描、影像製作、影像品質檢查、
  4. 資料建設:        資料分析、資料欄位與著錄規範訂定、著錄編目。
  5. 建立資料庫:   需求分析、系統介面及索引設計、系統測試、資料登錄、系統複檢,
  6. 後期工作:      點算運送回館的海報、按條碼順序將每張海報歸架。

前期及後期工作均由本館處理。中期工作 (第2至第5步驟) 極具專業性,其質素高低將直接影響海報的保存價值和應用的水平,由於本館缺乏相應的專業人員與設備,而在本地及鄰近地區的市場上,尚未發現另一性質相同、業務類似又具備同等專業經驗及服務質素的公司。為此,2015年本館邀請具相關經驗公司提供第2及第3步驟的服務,並將6000多張海報運往台灣。

2016年接著開展第4步驟的數據建設工作,透過為海報數碼檔案建立元數據 (Metadata) 及檢索點,讓使用者將來可經由第5步驟建置的資料庫系統檢索及取用海報數碼檔案。2017年本館開展第5步驟建置“館藏海報數碼化資料庫”的工作,包括:後台建置、管理與維護以及前台服務項目與檢索功能建置等,由於本部門缺少足夠的專業人員應付龐大的工作內容,故本館將第4及第5步驟的有關工作外判予備有專業人員及具有相當經驗的專業公司承攬。

 


將海報原件從海報櫃抽出

 


將海報逐張以「靜電除塵紙」進行清潔,去除重複,再按大小排列。

 


將6000多張海報按大小包裝、入箱,經運輸公司運送至台灣進行掃描。

 

2019年本館進行館藏海報資料庫的測試,發現有海報影像重複的情況出現,所以將海報的元數據檔以Excel的功能排序檢查,將元數據相近的海報進行分析,再找出相應的海報圖像,以確定是否重複。經檢查後,發現某些海報在元數據及影像上看似重複,但原來或有輕微色差,或設計有些少變化,或部分文字排序不同,或新版比舊版多了一點資訊……,均不算重複。最後,本館將確定重複的海報標記出來,並請外判公司協助在系統上刪除。

 


發現問題 – 影像重複

 


以Excel 功能進行排序分析,以去除重複影像。

 

2020年館藏海報資料庫檢索系統,完成了測試,開放在館內使用。此資料庫收錄了1978至2015年間,本館經《法定收藏制度》蒐集由本澳政府部門、民間社團機構及大專院校出版的海報共5000多張。海報類型包括:宗教、哲學、自然科學、社會科學、史學、文學及藝術等;內容涵蓋:社會及民生資訊、教育資訊、文化及藝術活動、體育及康樂活動等,反映了本地社會面貌、生活點滴及設計藝術等各方面。

讀者可透過海報的題名、出版者、出版年、活動地點、海報系列名稱、海報類型及關鍵字等檢索。

 


“館藏海報資料庫”首頁

 


“館藏海報資料庫”的檢索介面

 

三、抗戰時期澳門新聞剪報資料庫

澳門是近代中國新聞剪報事業的發祥地。1822年在澳門創辦的《蜜蜂華報》,是中國境內第一份近代報紙。澳門各種載體史料的發掘與整理,除了檔案、文獻、金石碑刻、圖錄外,還有一大批種類繁多、語種多樣的近現代報刊與剪報。過往澳門歷史研究特別注重開埠初期的探討,而到澳門近現代史時,其主要內容多為或偏重於中葡關係,對澳門社會內部發展情況鮮有涉及,或語焉不詳,或空白甚多,脈絡不清晰,疑點謎團不少,其中一個最主要的原因,就是反映當時澳門社會內部活動的有參考價值的眾多資料,往往多載錄於各種報端和剪報之中,而此部分資料尚未進行系統蒐集整理、擬定題目、分類歸納及編撰研究等工作。

因此,各種著述凡涉及澳門近現代史記述時,往往中葡矛盾與衝突的內容連篇累牘,而對澳門社會內部情況的內容少之又少,諸如澳門近現代城市的發展、市政建設的規模、葡華商人集團的經濟活動、司法治安、博彩經營、鴉片走私、葡華民眾宗教信仰、生活習俗、文化教育、藝術活動,特別是抗戰期間,澳葡當局實行“中立”政策,澳門人是如何賑濟援助中國抗戰的、“風潮時期”澳門華人社團是如何賑濟救助難民的、澳葡當局的政策前後有何變化、抗戰時期的澳門社會究竟是怎樣的等等,倘若缺乏近現代報刊或剪報之中記錄的澳門資料,上述問題是無法展開研究的。故此,蒐集整理、錄入及辨識文字、重新擬定題目、分類歸納、鑑別校對、編撰及開展相關研究,系統出版近現代澳門新聞剪報資料,構建“抗戰時期澳門新聞剪報資料庫”,即成為澳門現代史研究中一項緊迫的工作和任務。(註1)

澳門理工學院中西文化研究所是本地高校的專業學術研究機構,專門從事本土歷史研究和社會教育推廣工作,曾編輯出版數十種澳門史志研究著述,尤在抗戰研究、文獻整理和口述歷史訪談方面,具體研究成果甚豐。

為紀念“中國人民抗日戰爭勝利70周年”,本館於2015年與澳門理工學院中西文化研究所合作開展“抗戰時期澳門新聞剪報資料庫”計畫,目的是讓市民透過當年的新聞資料,瞭解澳門民眾在該段時期各種支持抗日戰爭的事蹟,藉此加強培養公眾的愛國情懷。該計畫分為以下兩部分,經費由雙方共同承擔,成果共用。

第一部分 - 建構“抗戰時期澳門新聞剪報資料庫”

第二部分 - 出版《故紙留痕:“澳門與抗日戰爭”報刊數據選輯》

第一部分的工作分以下三階段進行:

第一階段:資料蒐集及整理,包括蒐集抗日戰爭時期澳門的中文報刊資料,並將相關報刊新聞內容分類及整理。有關工作由澳門理工學院中西文化研究所所長、教授帶領研究生執行。

第二階段:由澳門理工學院中西文化研究所重新將已選出的報刊內容作文字錄入 (約150萬字)、文字辨識、歸納、 鑒別、校對、編撰及研究等。

第三階段:外判建構資料庫,包括如何開發、展示及利用等。有關資料庫將放置公共圖書館及澳門理工學院網站公開供公眾免費使用。

 


抗日戰爭時期澳門的中文報刊資料

 

本館請澳門理工學院中西文化研究所協助規範原始資料的格式,以便進行資料排序及檢索,透過固定的格式讓電腦自動辨識新聞剪報的各個組成部份。要求如下:

報刊名:各報刊分別獨立成檔,電腦辨識時檔案名即報刊名,由電腦自動為檔案內每篇新聞加插報刊名欄位。

日期及版面:設定固定格式 (如範例:YYYY.MM.DD……第N版),作為電腦辨識各新聞開端之依據。
標題:由電腦辨識“日期及版面”下一行即為標題欄位的開端,標題完結後加入行距 (例:與後段距離0.5行),用作辨識標題完結,正文開始。
正文:由電腦辨識標題完結之行距 (例:與後段距離0.5行)即為標題已完結,正文開始。正文完結後插入一空行,搭配“日期及版面”用作辨識整篇新聞結束,下篇新聞開始。

注意事項

  1.  “日期及版面”的格式應盡量完全依據設定,如設定為YYYY.MM.DD.... (四空格) ,則應盡可能全部統一為四個空格;
  2. 標題將不區分主、次標題,按次序讀入,並保留粗體;
  3. 統一標點符號為全形或半形,電腦會按照提供的文字格式作判定並顯示於資料庫上;
  4. 統一“非原文的輔助表述”,如“開天窗”、“□□”等,電腦會如實判別為文字內容輸入資料庫。若要後期加工,則需要統一的文字表述以便統一查找取代;
  5. 除經設定用作辨識的格式規範以及必要的標題/正文段落 (Enter) 外,不必添加其他任何格式設定,以免干擾辨識;
  6. 若有特殊情況,如新聞內含表格等,抽出獨立成檔,再作人手處理。

上述第一階段及第二階段的工作分別於2015年及2016年完成 。第三期階段的工作內容包括:後台建置、管理與維護、前台服務專案與檢索功能建置等,也於2019年完成。

2019年8月,雙方就測試版資料庫試用情況表達意見、討論資料庫往後添加新資料的方向、商討資料庫的版權問題及處理方法、資料庫對外開放使用及服務方式。澳門理工學院中西文化研究所提供澳門理工學院的標誌及資料庫的簡介,並協助對資料庫首頁進行美化和設計工作 (後雙方共識維持簡潔的介面)。

2020年“抗戰時期澳門新聞剪報資料庫”正式啟用,共收錄1941至1945年澳門新聞報紙5種,新聞剪報條目共6535條。包括:《大眾報》 2877條、《西南日報》 1654條、《市民日報》 902條、《復興晚報》 859條及《復興日報》 243條。

 


“抗戰時期澳門新聞剪報資料庫” 首頁

 


“抗戰時期澳門新聞剪報資料庫” 檢索介面

 


以“輪米”作檢索

 


以“義賣”作檢索

 


將檢索結果放大顯示

 

過去6年,筆者有幸參與了上述3個資料庫的工作,經歷良多,總結如下:

  1. 只做“人無我有的” :“數碼化館藏資料庫”的生成需要付出極大的人力、物力、財力及時間,所以只將“人無我有的資料”做成資料庫,才是最值得的。
  2. 要全盤計畫 :“數碼化館藏資料庫”由原始資料整理至上線利用,少則3年,多則6年以上的工作,如沒有“全盤計劃”,很易失去方向或難以堅持下去。
  3. 跨部門合作:“數碼化館藏資料庫”的工作,從資料整理、數據分柝與組織、系統建立,到讀者服務、宣傳推廣,需要特藏、資訊、流通及推廣等跨部門的合作。
  4. 成立工作小組 :除了跨部門合作外,一定要取得館方上層的支持,方便調配人手及資源,故小組成員必須包括相關的管理層人員。
  5. 人員穩定 :因“數碼化館藏資料庫”建立需時,團隊成員的穩定,極其重要。若人員不穩,容易導致計劃中斷,或影響進度,或技術難以銜接,嚴重的甚至可以令整個計劃終止。
  6. 不斷探討及改善:對本館來說,“數碼化館藏資料庫”是項新工作,不同資料有不同的處理,檢索系統的設計也不一樣,加上很多技術是新的,故只能從做中去學,從學中去做。在前進的路上,問題林林總總,需要不斷克服困難、積極面對及解決問題。
  7. 優化、更新及維護 :已建立的“數碼化館藏資料庫”需要持續優化,包括:資料持續更新,數據多重備份,系統定期保養及維護,使其“有活力地生存及健康成長”

 

<完>

 

_______________________________________________________________________________________

 

 

註1:由澳門理工學院中西文化研究所提供的“抗戰時期澳門新聞剪報資料庫” 背景介紹