由於檔案是保存歷史真實紀錄的第一手資料,而國家各機關的往來公務紀錄,就是一種紀錄國家歷史的最佳佐證,對於其中具有重要決策影響力的相關資料,更具有保存並公開的價值。從2002年1月成立的國家檔案管理局,不僅是為了保存各種重要的國家歷史檔案而存在,更身負國家各機關重要以及機密文件檔案的降密、解密以及公開、應用等重責大任。
這一股正視國家歷史、保存檔案紀錄的潮流,已經是先進國家努力邁進的目標。迄今成立才3年的國家檔案管理局(以下簡稱為檔管局),面對世界各國檔管局多已成立10年以上,該如何提升並強化自我競爭力呢?檔案管理局檔案資訊組組長趙培因認為,從檔案數位化著手,藉由科技的力量,打破時間的限制,從提升數位化檔案的質與量,作為與其他各國檔管局競爭的切入點。
根據檔案法的規範,行政、立法、司法、考試、監察等五院資料,以及總統府和公立學校等必須「永久保存」的資料;或者是各公家機關保存超過25年的資料,需轉由檔管局挑選具有永久保存價值的資料予以保存;包含私人或團體捐贈、受託保管或收購的檔案,都是檔案管理局依法必須保存的資料來源。
唯有檔案數位化,才有利於普及和應用。檔管局除了先行要求各機關,將往來公文(函)製作電子目錄,擇錄標題和摘要,每半年將資料彙送給檔管局傳送上網供民眾查詢,至於機密檔案也每年發文,要求機關評估降密、解密的需求。至於其他需保存的國家檔案,進入檔管局後,第一個動作便是先數位化,而儲存格式也因為保存與應用的不同,而存成不同的格式。
面對將近4TB的資料量(大約是一般中小型銀行、學校單位以及小型資料中心的資料規模),加上檔案管理局希望能夠便於民眾上網查詢,因此,最常見DAS(直接附加儲存)的資訊架構,已經不符所需。
為了提升檔案儲存管理的效能,檔管局捨棄DAS,同時部署SAN(儲存區域網路)以及NAS(網路附加儲存)儲存架構。趙培因說,不論是電子目錄的2TB,或者是國家檔案的2TB,皆儲存在EMC DMX-8831的儲存陣列上,其總容量有4.7TB。由於目前可用空間剩不到700GB,趙培因說,已經再擴充600GB,預計到明年底有1.3 TB的容量可供國家檔案以及電子目錄使用。
珍貴國家檔案的原始紙本和影音檔,分別存放在檔管局的庫房和中研院裡,受到妥善的保管。這些原始的檔案可以存在庫房保管,但經過數位化的檔案,經常會因為電腦當機、系統損毀等不同原因,讓數位化的電子檔案無法被讀取、被應用。為了保留數位檔案,完整的資料備份政策則不可或缺。
趙培因說,目前經過數位化的國家檔案,都會先燒錄成唯讀光碟片,存放到中研院等單位分散保存。再者,就是將儲存在SAN以及NAS儲存陣列上的資料,備份到LTO磁帶上作為離線備份。而磁帶備份可以分成日備份、周備份、月備份以及異地備援等4大類。
有「備」無患已經是任何一個企業,對於資料保全的最低需求;但強化危機應變能力,卻是提升企業有備無患境界的最後一個準則。因此,檔管局也在2004年2月,成為行政機關中第一個導入BS7799安全規範的行政單位,並結合機房管理、BS7799規範,加上資安規範和實務需求,完成檔管局專有的資訊安全管理系統手冊。
珍貴的國家檔案做了備份,但若因為災害發生,導致資料因此損毀、遺失,對於保全檔案而言的檔管局,將會是空前災難。為了將這樣的可能性降到最低,檔管局從導入BS7799後,便力行每年2次防災演習的規範。
檔管局迄今已歷經4次資安演習,趙培因說,檔管局重視防災演習這件事,每一次演習項目都是檔管局同仁們絞盡腦汁想出來的議題,透過實地演練,同時強化檔管局應變能力,也為參與應變的單位提供一個參考指標。對於這樣的成果,她也期盼,藉由落實演習,一旦災害發生,能把災難範圍降到最低。
電子化檔案對於檔案保存而言,頗有「成也蕭何、敗也蕭何」的兩難。檔案由紙質轉為數位後,便面臨資料長期保存、安全以及保存證據力的3大問題。
目前政府對於電子化檔案的長期性保存議題,沒有足夠的研究經費,如何站在巨人的肩膀看世界,就是趙培因尋求各種疑難雜症解決之道的方式。除了三不五時瀏覽美國、英國、澳洲等先進國家檔案管理局先進的IT工具,並參考其對電子化檔案的政策走向外,她也發現到,今年9月份,美國的國家文件署對於解決聯邦政府電子檔案長期保存的應用系統,開了一個有史以來的天價標,由F16戰鬥機廠商路希德馬丁拿到這一個6年合約,得標價達3億800萬美元。
趙培因說,一個長期保存電子化檔案的系統,必須花費這樣昂貴的價錢才可能建置的起來,顯見電子化檔案長期保存技術難度相當高;但也同時證明,即使花費這樣高的價錢,也必須完成這樣電子化檔案保存的系統。電子化檔案資料的長期保存,已經是每一個做檔案保管的單位,難以迴避的重要課題了。
檔管局異質平臺資料不整合的啟示以電子化保存、普及國家檔案
根據檔案法的規範,行政、立法、司法、考試、監察等五院資料,以及總統府和公立學校等必須「永久保存」的資料;或者是各公家機關保存超過25年的資料,需轉由檔管局挑選具有永久保存價值的資料予以保存;包含私人或團體捐贈、受託保管或收購的檔案,都是檔案管理局依法必須保存的資料來源。
由於上述資料多數為紙質檔案,少部分為錄音帶、錄影帶、唱片、光碟或是微卷片等特殊媒體。檔管局將紙質檔案,主要存放在恆溫恆濕的國家檔案局庫房中;另外記載影音紀錄的多媒體檔案,則存放在國家檔案局庫房以及中央研究院中。
唯有檔案數位化,才有利於普及和應用。檔管局除了先行要求各機關,將往來公文(函)製作電子目錄,擇錄標題和摘要,每半年將資料彙送給檔管局傳送上網供民眾查詢,至於機密檔案也每年發文,要求機關評估降密、解密的需求。至於其他需保存的國家檔案,進入檔管局後,第一個動作便是先數位化,而儲存格式也因為保存與應用的不同,而存成不同的格式。例如,紙本資料的掃瞄,在永久保存上,存成TIFF檔案格式,應用上則存成PDF檔案;在影像檔部分,永久保存格式為MPEG-2,便於網路傳輸的應用檔案格式則為WMV;把錄音帶數位化後的永久保存格式則為RIFF-WAVE,網路傳輸與應用的檔案格式則為MP3。
透過數位化手段,資料保管的容量也變多,各機關自行製作的電子目錄,累積到目前,已經有高達1億8000多萬筆電子目錄在網上供民眾檢索,總容量約為2TB。包含228事件、美麗島事件、國民大會、行政院921震災災後重建推動委員會檔案等必須永久保存的檔案,共計4185案,檔案數高達18萬6295件,總容量也大約2TB。至於其他機關內保存滿25年的機關檔案,因為缺乏綜合性的國家檔案館予以保存,加上檔案法將在2007年進行大規模修改,檔管局目前未進行大規模收集彙整。利用SAN與NAS進行檔案儲存
面對將近4TB的資料量(大約是一般中小型銀行、學校單位以及小型資料中心的資料規模),加上檔案管理局希望能夠便於民眾上網查詢,因此,最常見DAS(直接附加儲存)的資訊架構,已經不符所需。
為了提升檔案儲存管理的效能,檔管局捨棄DAS,同時部署SAN(儲存區域網路)以及NAS(網路附加儲存)儲存架構。趙培因說,不論是電子目錄的2TB,或者是國家檔案的2TB,皆儲存在EMC DMX-8831的儲存陣列上,其總容量有4.7TB。由於目前可用空間剩不到700GB,趙培因說,已經再擴充600GB,預計到明年底有1.3 TB的容量可供國家檔案以及電子目錄使用。
比較屬於文字、圖檔的資料,都放在SAN的儲存陣列上,另外的影音多媒體的檔案,因為具有影音串流的特性,則存放在NAS(網路附加儲存)上。目前多媒體檔案容量大約350GB(一張DVD光碟4.7GB,大約75張DVD碟片),儲存在總容量720GB的EMC Celerra-701儲存陣列上。
雖然以一個保全國家重要資料檔案的檔案管理局而言,大約4TB的資料量並不大,但檔管局期盼以現有的儲存架構作為日後資料擴充的彈性基礎。除了依據幾年前提出的電子檔案統一命名原則外,為了便利資料上網搜尋,也引進專業的搜尋引擎網擎(Openfind)。趙培因表示,光是要進行將近1億9000萬筆的電子目錄的檢索,原先設計2000萬筆目錄可以在6秒內搜尋完成的搜尋引擎,在數量過於龐大後,便引進專業搜尋引擎,讓網路檢索3秒內搞定。
要將檔案全數上網便於應用和普及,檔管局也將民眾申請的流程和繳費程序全數上網;要提供上網檢索,不論是SAN或者是NAS上的國家檔案、詮釋資料及電子影音檔案副版等,都採用線上儲存,然後再備份到磁帶做離線備份。趙培因說,未來將視徵集和數位化的檔案數量,再考慮是否採用階層式的儲存架構,以進行資訊生命周期管理(ILM)。健全日、周、月備份,保全資料
珍貴國家檔案的原始紙本和影音檔,分別存放在檔管局的庫房和中研院裡,受到妥善的保管。這些原始的檔案可以存在庫房保管,但經過數位化的檔案,經常會因為電腦當機、系統損毀等不同原因,讓數位化的電子檔案無法被讀取、被應用。為了保留數位檔案,完整的資料備份政策則不可或缺。
趙培因說,目前經過數位化的國家檔案,都會先燒錄成唯讀光碟片,存放到中研院等單位分散保存。再者,就是將儲存在SAN以及NAS儲存陣列上的資料,備份到LTO磁帶上作為離線備份。而磁帶備份可以分成日備份、周備份、月備份以及異地備援等4大類。
目前進行的日備份,主要是將每日新增資料備份到LTO磁帶中的增異備份,周備份則是把當周資料進行全備份,月備份也是當月資料的全備份,保存一年。目前,1份周備份磁帶就近存放到研考會,2份月備份磁帶檔案,一份送到異地備援中心,另一份則是將磁帶放在機房中,便於就近做資料復原之用。
除了一般磁帶資料備份外,檔管局在2004年也在龍潭宏碁的eDC建立異地備援(DR)中心,異地備援中心除了有IBM的主機外,更有EMC的SAN和NAS的儲存陣列。許多珍貴的國家檔案,透過T3專線,也會SAN to SAN同步備份到異地備援中心。目前在異地備援中心的系統規模與投資,大約只有檔管局本局的3分之2。
目前檔管局備份方式只做到D2T(磁碟備份到磁帶),至於流行的D2D2T(磁碟備份到磁碟備份到磁帶),趙培因不諱言,多一層磁碟作為近線儲存,的確有助於資料復原的速度。不過,這種D2D2T的備份模式,將會在2007年檔案法進行修正後,再視需求引進。用防災演習找出系統盲點
有「備」無患已經是任何一個企業,對於資料保全的最低需求;但強化危機應變能力,卻是提升企業有備無患境界的最後一個準則。
因此,檔管局也在2004年2月,成為行政機關中第一個導入BS7799安全規範的行政單位,並結合機房管理、BS7799規範,加上資安規範和實務需求,完成檔管局專有的資訊安全管理系統手冊。
珍貴的國家檔案做了備份,但若因為災害發生,導致資料因此損毀、遺失,對於保全檔案而言的檔管局,將會是空前災難。為了將這樣的可能性降到最低,檔管局從導入BS7799後,便力行每年2次防災演習的規範。
防災演習範圍從模擬地震災後的復原,一直到電子公文交換器遺失後的應變策略,都是腦力激盪,觀察資訊架構中的可能弱點並予以演練,上半年是模擬地震後,檔管局異地備援機制啟動,以及相關的通報流程等,而最近的一次演習就發生在今年10月26日。
趙培因表示,只要系統有進行大幅度修改,便會進行一次實際的演習。她不諱言,許多演習的細節是在模擬時難以想像的。例如,在上半年進行異地備援機制啟動的演習中,檔管局必須完成通報流程後,並請異地備援中心協助啟動備援系統。必須通報的成員包含檔管局各單位專門委員及副局長。一旦災害發生,通報程序從承辦科長、組長到研考會的窗口,都必須一一聯繫到。
在這個以為不會發生問題的通報程序,直到實際演練時才發現,有一些該被聯絡的成員中,通報單位只有手機號碼,沒有其他任何辦公室電話以及家中緊急聯絡電話。假若當時是災變現場,將發生無從找人的情況。趙培因說,這次演習後,在該被通報成員的聯絡方式中,就多了其他的聯絡電話。這也是經過實際演練,才可能發現的真實狀況。上半年模擬演練除了通報流程,更實地到異地備援中心進行演習,也把當時相關畫面同步傳回檔管局給所有同仁看。
最近這一次演習的主題則是,8000個政府機關都必有的「XML電子公文交換器」一旦遺失,研考會G2B2C辦公室的應變流程為何?對於研考會而言,電子公文交換器都放在機房中,很難會有遺失,但是檔管局正式發公文要求配合後,研考會G2B2C辦公室在研擬應變的流程中也發現,規模比較小的行政機關,可能發生電子公文交換器遺失。藉由此次演習,確定了未來各行政機關,一旦發生遺失電子公文交換器,研考會G2B2C辦公室將立即補送電子公文交換器給該單位,以避免中斷該行政單位整個公文流程以及訊息接收。
檔管局迄今已歷經4次資安演習,趙培因說,檔管局重視防災演習這件事,每一次演習項目都是檔管局同仁們絞盡腦汁想出來的議題,透過實地演練,同時強化檔管局應變能力,也為參與應變的單位提供一個參考指標。對於這樣的成果,她也期盼,藉由落實演習,一旦災害發生,能把災難範圍降到最低。長期保存是電子化檔案棘手問題
電子化檔案對於檔案保存而言,頗有「成也蕭何、敗也蕭何」的兩難。檔案由紙質轉為數位後,便面臨資料長期保存、安全以及保存證據力的3大問題。
紙本資料可以歷經時間考驗,數十年後一定仍可查閱,但數位檔案的保存,可能因為電腦系統升級,面臨檔案格式過於老舊,無法被新系統判讀。不論現在存在光碟中的數位檔案格式為何,再過10年,或許已經沒有磁碟機可以相容,將造成資料即使被保留,也無法查閱;而資料安全也面臨同樣的問題,她說,現在加、解密的安全層級,未來的20~30年也將不再安全,面對機密文件有時甚至需要加密長達30年時候,資料安全該如何確保,將是最大的難關。
除了長時間保存和安全,電子化檔案也面臨更嚴重的證據力問題。趙培因指出,檔案文件除了保存,更重要的是作為證據。電子化政府各機關單位推動線上簽核制度,希望達到公文無紙化,但同樣的如何避免電子化的公文或是簽核資料不被竄改,保全紙本資料該有的安全性、完整性和可及性,也將是檔案管理局在推動檔案數位化的同時,必須同時積極找尋解決之道的重要任務。
目前政府對於電子化檔案的長期性保存議題,沒有足夠的研究經費,如何站在巨人的肩膀看世界,就是趙培因尋求各種疑難雜症解決之道的方式。除了三不五時瀏覽美國、英國、澳洲等先進國家檔案管理局先進的IT工具,並參考其對電子化檔案的政策走向外,她也發現到,今年9月份,美國的國家文件署對於解決聯邦政府電子檔案長期保存的應用系統,開了一個有史以來的天價標,由F16戰鬥機廠商路希德馬丁拿到這一個6年合約,得標價達3億800萬美元。
趙培因說,一個長期保存電子化檔案的系統,必須花費這樣昂貴的價錢才可能建置的起來,顯見電子化檔案長期保存技術難度相當高;但也同時證明,即使花費這樣高的價錢,也必須完成這樣電子化檔案保存的系統。電子化檔案資料的長期保存,已經是每一個做檔案保管的單位,難以迴避的重要課題了。
此外,資料在系統間進行轉換時,有錯誤或是有遺漏,資料庫本身並不能重新比對或自動比對,也會是電子化檔案必須解決的問題。
克服電子檔案辨識率過低的問題
許多企業或是國立大學圖書館,也都面臨將紙本檔案掃瞄成電子檔時,辨識率過低的問題,而檔管局也已經察覺到這樣問題的嚴重性,從2004年著手一個知識庫的計畫,率先將921重建委員會的公文從紙本掃瞄成數位檔後,為了做資料採礦(data mining),也遭遇到文字辨識率過低的問題。
趙培因表示,由於公文會經過長官層層修改,加上必須有蓋印章已示負責,或者是蓋大印甚至是副本格式不一或手寫等問題,都會妨礙公文辨識,其成功率甚至只有20%。在這個知識庫的專案中,則先將這些公文擷取出特殊知識後,再歸結出一套邏輯作為辨識的準則。而從8月份開始,針對特指公文部分的檔案,進行辨識率的調校,預計明年底的公文辨識率可以達到80%。
趙培因也說,未來只要這一套知識庫順利完成後,便只剩下調校的工作。未來,整個相關內容也將釋出給需要的單位參考。文⊙黃彥棻檔管局異質平臺資料不整合的啟示
異質平臺上的資料整合,一直是企業頭痛的難題,而面對每次採購都必須藉由公開招標的政府部門而言,異質平臺資料整合的問題更為嚴重。
3年前成立的國家檔案管理局,其資訊架構具有不同系統與平臺,每一次招標,由最低得標者的廠商得標後,如何將前一代不同系統中的資料順利轉換到新的主機平臺,並確保資料沒有在轉換過程中造成損失或遺漏,讓協助該單位進行資訊架構建置的系統整合商(SI)傷透腦筋。
檔案管理局檔案資訊組組長趙培因表示,檔管局本身是一個異質平臺的儲存架構,最早有惠普(HP)、IBM和昇陽(SUN)不同廠牌和型號的Unix主機,資料庫則放在IBM S80主機上。當時便曾經發生一個慘痛教訓,她表示,曾經有一次在進行檔案備份時,採用CA(組合國際)的備份軟體ARCServer Backup,想把IBM主機中的資料備份到磁帶上,當時不管採用怎麼樣的備份方式,都不能將主機中的資料順利備份到磁帶中。
後來才發現,原來是CA的備份軟體並沒有在IBM S80的主機上認證,造成兩者在運作時的不相容。由於CA和IBM都是大廠,IBM認為CA應該將其備份軟體送到IBM做該型主機對軟體的相容性認證;但CA認為,採用該型主機客戶做備份的機率太少,沒有必要進行相容性的測試。
面對兩個大廠的相持不下,趙培因說,最後是透過中介軟體解決了這個問題。但從此之後,檔管局也深刻瞭解到,異質平臺對於未來檔管局在進行資料儲存、備份時,一旦再發生類似的情況,將嚴重妨害到整個檔管局的儲存政策與進度。
因此,檔管局在後來進行受被汰舊換新時,將原先IBMS80的主機挪移到異地備援中心使用,而存放國家檔案的儲存陣列,則外接IBM690的主機,至於存放各種機關檔案的儲存陣列,則採用昇陽的主機。
趙培因認為,簡化儲存環境的複雜度,維持核心作業系統的一致,不僅有助於避免異質平臺資料整合的問題再度發生,對於人員的訓練、傳承上,也大有幫助。文⊙黃彥棻
CIO小檔案-趙培因
檔案管理局檔案資訊組組長
●學經歷:政大經營管理EMBA資管組碩士,從行政院研考會資訊管理處科長、高級分析師,一路做到現職。
公司檔案-行政院研考會檔案管理局
●主要業務:依法保存國家重要檔案文件資料,並予以公開、應用。
●員工人數:100多人,平均年齡38歲,70%具有碩博士以上學歷。
●IT部門人數:14人
熱門新聞
2024-10-28
2024-10-19
2024-02-29
2023-11-12
2023-11-12
2024-11-10
2023-11-12