學術咨詢服務,正當時......期刊天空網是可靠的職稱工作業績成果學術咨詢服務平臺!!!

大數據時代檔案數據化的前景展望:意義與困境

發布時間:2021-12-25所屬分類:管理論文瀏覽:1

摘 要: 摘 要 大數據時代興起的數據化浪潮引發檔案界對檔案數據化趨勢的關注。檔案數據化被認為是檔案數字化發展的新階段,它是指檔案部門以用戶需求和業務需要為導向,將數字檔案資源轉換為可供閱讀、分析和處理的檔案數據資源的過程。檔案數據化對大數據時代檔案工作的數據

  摘  要  大數據時代興起的數據化浪潮引發檔案界對檔案數據化趨勢的關注。檔案數據化被認為是檔案數字化發展的新階段,它是指檔案部門以用戶需求和業務需要為導向,將數字檔案資源轉換為可供閱讀、分析和處理的檔案數據資源的過程。檔案數據化對大數據時代檔案工作的數據轉型與縱深發展具有重要現實意義,它有助于突破檔案信息資源深度開發瓶頸、創新以需求為導向的檔案服務模式以及推動檔案管理業務流程實現智慧化。但由于諸多不確定性因素的存在,檔案數據化工作同樣面臨困境,主要體現為政策與動力層面的困境、人才與技術層面的困境。

大數據時代檔案數據化的前景展望:意義與困境

  關鍵詞  大數據  檔案數據化  檔案數字化  檔案信息資源開發  智慧檔案館  檔案服務

  0 引 言

  計算機技術尤其是互聯網技術的出現,推動數字化的興起,帶來數字記憶儲存的革命;大數據技術的出現,推動數據化的興起,帶來的則是數據處理能力的革命。近年來,大數據及隨之而來的數據化浪潮對檔案行業的沖擊已經顯現。2016年印發的《全國檔案事業發展“十三五”規劃綱要》認識到國家大數據戰略對檔案工作理念、技術、方法及模式的深刻影響,并提出要采用大數據、智慧管理等技術,提高檔案館業務信息化和檔案信息資源深度開發與服務水平[1]。檔案數據化成為檔案界新的研究關注點,有學者試圖強調檔案的“數據”價值,認為在數據時代要把檔案看作需要挖掘的數據集合[2],要通過數據化使檔案成為有價值的數據[3];也有學者以檔案信息資源的挖掘或深度開發為切入點,強調對檔案數字化成果進行進一步的數據化開發[4][5][6],認為只有轉化為“數據態”,才能進行檔案數據的關聯、挖掘和分析,實現檔案的數據價值[7];還有學者基于創新檔案服務模式的需求提出要推動檔案數字化向數據化的轉變[8]。這些研究成果共同揭示了檔案數據化趨勢的到來,但未深入剖析檔案數據化的內涵與發展前景;诖,本文將闡釋檔案數據化的內涵,并展望大數據時代推進檔案數據化的意義與困境,以期對數據轉型時期的檔案工作和檔案學研究有所啟示。

  1 數據化趨勢與檔案數據化內涵

  1.1  數據化趨勢

  2 0世紀9 0年代至21世紀的前10年,數字化(digitization)代表了信息化發展趨勢。數字化實現了模擬態向數字態的轉換,進而推動著社會的數字(化)轉型[9]。誠然,數字化將模擬世界帶入了數字環境,它使人類社會能夠存儲更多的信息,并進行更快地處理。但在數字時代,數字信息仍被當作模擬物對待,常被用于相同的“單一目的”,且收集這些信息的目的與其價值捆綁在一起。[10]大數據引發廣泛關注后,數據化成為一個頗為流行的術語和趨勢。2013年,維克托·邁爾-舍恩伯格(Viktor MayerSchonberger)和肯尼思·庫克耶(Kenneth Cukier)將 “數據化”(datafication)作為一個有特定內涵的專業術語引入大眾的視野。當前,學界通常從三個角度來解讀數據化:

  首先,數據化代表一種技術趨勢,它將我們生活的許多方面轉化為計算機化的數據。邁爾-舍恩伯格和庫克耶認為數據化將社會行為轉化為在線量化數據,以實現實時跟蹤和預測分析[10]。也有學者認為數據化是將均勻、連續的數字比特結構化和顆;,形成標準化的、開放的、非線性的、通用的數據對象,并基于不同形態與類別的數據對象,實現相關應用,開展相關活動[11]。其次,數據化描述了一種組織趨勢,它將組織轉化為數據驅動型組織,形成新的價值創造形式。馬克·萊西特(Mark Lycett)將“數據化”理解為一種由I T驅動的價值創造過程。[12]也有學者指出數據化是指將組織轉換為數據驅動企業所使用的集體工具、技術和流程[13]。此外,數據化是一種社會變革趨勢。有學者表示,數據化是全球化背景下,人類社會在數字時代的發展趨勢。它是人類在信息傳播、人際交往乃至日常生活過程中,為了便于溝通、傳播和保存,將一切客觀存在處理為數據,進而使得整個人類社會成為一個龐大的數據庫。[14]在大數據時代,萬物皆數據,一切皆可量化,世界的本質是數據,數據與物質、能量一起成為構成世界的三要素。[15]

  上述從技術、組織和社會角度對數據化的解讀,揭示出數據(化)轉型的發展趨勢。這種廣義上的數據化趨勢,主要描繪的是網絡空間中新的數據形成與處理方式,例如環境感知數據、科學觀測數據、物聯網大數據、用戶生成數據、網絡和社交媒體數據以及對這些數據的收集、聚合、量化與分析。而數據(化)轉型趨勢無疑會對檔案館、圖書館等傳統的館藏機構以及企業文檔信息部門帶來影響和沖擊。近幾年,我國檔案界已經認識到大數據與數據化趨勢給檔案工作帶來的影響。2016年,國家檔案局印發的《全國檔案事業發展“十三五”規劃綱要》中表明了檔案行業應對大數據挑戰的國家態度。 2018年,國家檔案局局長李明華對我國檔案工作趨勢的闡述也從側面揭示出檔案數據化的趨勢,他指出:“我國檔案工作正經歷一個從接收保管紙質檔案到接收保管電子檔案,從管檔案實體到管檔案數據,從手工操作到信息化智能化操作,從檔案資源分散利用到聯網共享的變革過程”。[16]

  受數據化趨勢的影響,越來越多的檔案界人士認識到檔案數據化將成為檔案數字化的新方向或新階段[8]。湖南省檔案局局長胡振榮將我國檔案數字化的發展歷程劃分為三個階段:第一個階段是檔案目錄數字化,致力于建立目錄數據庫;第二個階段是全文數字化,即將檔案全文掃描成數字圖像;第三個階段是全文數據化,即將所有的圖像轉換成文本數據,形成可全文檢索的文本數據庫[17]。而他所稱的檔案數字化的第三階段,實質上就是檔案數據化的初級階段。錢毅站在館藏機構視角,認為狹義的數據化指的是針對數字化成果進行的數據著錄、抽取與掛接工作,工作成果表現為積累形成大量的二次文獻數據庫。[9]這種狹義的數據化實際上就是從數字態轉化到數據態的過程。參考錢毅對數據化的解讀,筆者認為,數據化趨勢對檔案工作的直接影響體現在數字態的數字檔案資源進一步向數據態的檔案數據資源的轉換中。因此,從狹義上理解檔案數據化更切合我國檔案工作的實際。

  1.2  檔案數據化內涵

  “數字化”是數字時代的高頻詞匯,它是指“將模擬信息轉換成電腦可以處理的用0和1表示的二進制代碼”[18],其對應的基本單元是比特(bit),而數據化對應的典型對象則是字節(byte)和字(word)。可見,數據化內生于數字化,又區別于數字化。近幾年,在數據化趨勢的沖擊下,檔案數據化也逐漸成為檔案界關注的新詞匯。很多學者從數字化檔案的數據化加工角度對檔案數據化概念進行了狹義上的理解,認為檔案數據化是在數字化的基礎上,用光學識別(OCR)、語音識別(ASR)等技術對圖像、音視頻中的數字內容進行全文識別、分類、著錄、標引等工作,形成結構化數據,并建立目錄數據庫、全文數據庫和媒體資源庫,使檔案資源內容為計算機所掛接、存取、調用、更新、分析和處理,使其能用檢索詞進行檢索的過程。[3][6][8]也有學者認為檔案數據化不僅是數字化檔案的數據化加工范疇,還包括數據的結構化解析、應用級封裝、媒體化組織和全鏈式管理過程[19]。

  青島市檔案局承擔的國家檔案局科技項目“大數據背景下檔案信息資源挖掘策略與方法研究”對檔案數字化與檔案數據化進行了比較,指出早期檔案數字化的主要目的是獲取圖像格式的檔案數字化成果,對檔案內容的控制和利用主要通過檔案目錄數據庫加以實現,形成典型的“數字圖像+檔案目錄數據庫”檔案數字化模式。這種模式滿足了傳統載體檔案計算機閱讀的需要,并沒有直接解決檔案內容的控制與開發利用問題。檔案數據化則是指將檔案信息轉化為計算機可以閱讀和理解的檔案信息資源的過程。其目的是實現計算機自動分析、理解和處置檔案信息,將利用檔案的途徑由“頁面閱讀”轉變為“內容控制”“信息開發”。其實現的途徑是由計算機識讀檔案文字,進而借助智慧化的工具轉換成計算機可以理解的內容,實現檔案利用價值的深度開發。[4]

  當然,相關領域學者也已認識到數字化與數據化的聯系與區別。有學者對圖書館館藏資源數字化與數據化的內涵進行了比較分析,指出館藏資源數字化是把紙質文獻變成計算機可讀取的比特流數據,簡言之就是把書籍內容整體數字化,把紙上的東西搬到計算機顯示器上閱讀和編輯。館藏資源數據化則是把計算機可識別文本內容中的字、詞、句、段落、圖像以及各種概念、公式、數據等知識單元進行分割和提取,并建立知識單元之間的各種關聯,從而進行無窮無盡的檢索、分析與挖掘。數字化是館藏資源描述方式的電子化,資源的載體形態發生了轉變;而數據化則是對館藏資源內容的重新拆分與組合,資源內容的組織粒度發生了根本轉變。[20] 也有學者指出數字化、數據化、文本挖掘是歷史文獻數據庫的三種不同形態。數字化是將文獻從物理形態轉化為電子形態,數據化是將電子形態進一步轉換為可識別的文本與可分析的數據,文本挖掘則是針對文本、數據做進一步的計量分析、相關性分析和GIS分析。數據化的意義是將利用文獻的方式從“讀”轉變為“分析”,其核心方法是重組文獻內容,置入使用者所建立的新的文本或數據結構中,也即文獻的結構化。[21]例如,谷歌掃描圖書的方式允許全文搜索,存儲文本的方式允許人們在幾秒鐘內在數百萬本書中搜索特定的單詞或短語。它對圖書的內容進行了數據支持的分析,而這就超越了單純的文獻數字化[22];日本對馬克思、恩格斯文獻的數據化處理不僅僅停留在數字化、文本化方面,而是將批注與其所解讀的文本相鏈接,以實現視覺化展示和理解為目的。[23]

  通過上述界定和比較分析可以看出,檔案數據化將數字化檔案的加工推向“數據開發”階段。筆者認為需要從“開發”的視角對檔案數據化進行狹義上的理解。它主要是指檔案部門以用戶需求和業務需要為導向,將數字檔案資源(包括數字化轉換形成的數字檔案資源和歸檔電子文件)轉換為可供閱讀、分析和處理的檔案數據資源的過程。“檔案數據化”與“檔案數字化”不同,如果說檔案數字化是將處于模擬態的檔案對象轉換成用0和1表示、以二進制碼表示的數字態檔案,以供計算機識別和讀取,那么檔案數據化則是將數字態檔案進一步轉變為可制表分析的數據態檔案,實現計算機可理解可分析的過程。檔案數字化是數據化的基礎,但是數據化在對數據信息的識別和處理上的功能之強大,是數字化所不能替代的。因此,筆者同樣認為檔案數據化將是檔案數字化發展的新階段。盡管當前檔案工作的主流認識和工作重點還停留在數字化階段,但檔案數據化已經引起檔案界的關注。檔案部門要突破檔案數字化階段對檔案信息開發利用不完全的瓶頸,就需要在檔案數字化的基礎上實現檔案數據化。所以檔案數據化和數字化并不是對立的,而是承接與完善的發展過程。

  2 推進檔案數據化進程的意義

  在數據時代,通過數據來實現決策和改善業務、通過數據來揭示歷史和文化“現象”都會給檔案工作帶來一定的影響。首先,大數據分析能實現對多源異構的低密度價值數據資源的深層次開發。相較于社交媒體大數據等來自外部的大數據,作為企業內部資產且具有高密度價值的檔案資源由于缺乏數據化,而長時間被置于無用的暗數據行列。要實現檔案數據資源的價值,就要實現檔案數據化處理。其次,隨著智慧檔案館從理念走向實踐,智慧鑒定、智慧標引、智慧檢索、智慧編研等檔案業務智慧化的實現也對檔案數據化提出了要求。此外,數字人文學科對大量歷史和文化數據集的需求同樣是促成檔案數據化的動力因素。

  近年來,檔案界已經注意到檔案數據化的機遇,有學者提出“為大數據分析提供基礎數據是檔案工作在信息時代的價值所在”[24],而只有檔案數據化之后,檔案大數據的數據基礎才奠定起來,才有可能去討論檔案的數據挖掘與數據的深度整合[8];也有學者強調要通過“檔案數據化引領服務模式創新”,檔案部門的傳統業務將向檔案資源的數據分析、數據挖掘方向轉移,對大量數據的分析與處理將成為檔案部門的主要業務[25]。筆者認為,對檔案部門(包括企事業單位檔案部門以及國家綜合檔案館)而言,需要明確自身在數據時代的職能定位,既要提供高質量的檔案數據資源、數據服務和知識服務,也要探索數據時代改善業務能力、服務水平,提升檔案利用率、提高工作效率的技術方法。因此,在數據時代,檔案部門需要以開發為導向重新認識檔案數據資源的價值,通過深層次的檔案數據化開發,實現數字檔案資源從機器讀取到機器理解的轉變,為企業或政府基于數據分析的決策提供有價值的檔案數據資源;為檔案部門業務工作智慧化轉型(智能鑒定、智慧編研等)奠定基礎;并面向數字人文、政府決策、社會治理提供數據服務、知識服務和智庫服務。因此,大數據時代推進檔案數據化進程具有重要現實意義。

  2.1  有助于突破檔案信息資源深度開發的瓶頸

  檔案信息資源的深度開發一直以來都是困擾檔案部門的瓶頸問題。從開發方式上看,圖書情報界所言信息資源開發利用的方式一般包括“分類序化、數字化、網絡化、分析研究、知識挖掘、提供服務與進入決策”[26]。相比之下,檔案信息資源開發利用主要強調的是檔案檢索和檔案編研兩個環節,其中前者是對檔案信息的淺加工,后者是對檔案信息的深加工。[27]然而,當前以檢索、編研為核心的檔案信息資源開發深度明顯不足。檔案部門擁有大量有價值的 “一手資料”,且檔案編研工作早已成為檔案部門的常規性工作,但始終難以突破“有編無研”的瓶頸。檔案數字化曾為檔案信息資源開發帶來曙光,因為它既要強調將檔案信息從檔案實體剝離并存儲在數字載體上,也要強調對數字化檔案的重新組織并實現序化與內容的開發。但當前我國檔案數字化實踐往往只強調前者,也就是實現“模數轉換”的數字化加工。伴隨著檔案數字化工作的不斷推進,不少檔案機構已進入“后數字化”階段,管控著大量以PDF、圖片格式保存的數字檔案資源,但這些資源大多停留在簡單的組織、檢索、利用層面,內容層面的開發與挖掘還未引起足夠重視。[28]可見,檔案數字化雖大大提升了檔案部門的存取能力,但未能突破檔案編研的困境。

  如果進一步從開發層次來審視,可知檔案數字化開發層次與檔案數字化加工深度密切相關。參考古籍數字化領域對古籍數字化開發層次的劃分方式[29],本文以紙質檔案為例,將檔案數字化開發深度分為四個層次(見表1)。其中,第一層是解決紙質檔案的掃描錄入和數字化存儲問題;第二層是基本上解決數字化檔案資源的網絡發布和檢索問題;第三層是檔案內容的淺層標注與數據化處理;第四層是檔案智能檢索和智慧編研。數字化后的檔案雖然改變了檔案的存在形式、拓寬了檔案信息獲取渠道,但是究其本質,“存”的是檔案本身、“取”的是檔案內容,并沒有實現對檔案信息資源的進一步開發。當前,我國大部分機構的檔案數字化開發層次仍停留在“表層”,檔案數字化為計算機檢索提供了基礎,但由于數字化技術的限制,無法對檔案信息進行計算機識別和處理,使檔案數字化停滯于數據領域之外。

  以國家綜合檔案館為例,為推動國家重點檔案工作的重心向“保護與開發”轉變,國家檔案局于 2016年先后發布《全國檔案事業發展“十三五”規劃綱要》《“十三五”時期國家重點檔案保護與開發工作總體規劃》,對國家重點檔案的開發工作進行規劃和統籌。要求加強國家重點檔案開發力度,每年安排若干重大專題進行檔案開發,開展國家重點檔案目錄資源基礎體系建設。但目前看來,國家重點檔案信息資源開發的主要任務,還是對國家重點檔案進行信息采集、著錄并建設目錄數據庫、專題數據庫等,側重點仍在信息資源的采集、加工、組織和信息化管理方面,而利用國家重點檔案信息資源發現新信息、新知識等高級形式的開發尚未充分開展。[30]基于此,有學者提出“國家重點檔案信息資源融合”理念,強調借助信息融合技術對國家重點檔案信息資源進行綜合處理與協同利用,從而生成新的信息空間和知識架構。[31]

  總之,按照馬費成教授和靖繼鵬教授對信息資源開發步驟的闡述[26],當前檔案數字化開發仍處于 “載體開發”階段,屬于基礎性開發,而下一步將進入“內容開發”階段,要將數據挖掘、知識組織等技術引入開發當中。因此,部署實施檔案數據化工作,有助于在數字化基礎上進一步推進檔案信息資源在數據層級的深度開發,實現檔案數據資源的融合、關聯、挖掘與分析,推動檔案知識發現和知識服務的開展,而這也將為國家重點檔案信息資源的深度開發提供一條可行路徑。[32]

  2.2  有助于創新以需求為導向的檔案服務模式

  不斷滿足社會需求是檔案服務的永恒主題。長期以來檔案部門雖然開發出檔案查閱、檔案編研、檔案展覽、跨館出證、信息推送、參考咨詢等多種服務方式,但這些服務方式很難滿足新時期檔案用戶對網絡化、便捷化、高效化、知識化和個性化服務的需求。大數據時代的到來,有學者認為要利用大數據技術,對用戶身份、借閱內容、存儲行為、搜索方式、言行記錄等結構化、半結構化、非結構化數據進行分析,挖掘預測用戶隱性訴求,改善服務方式,使得關聯服務、精準服務、跟蹤服務、知識服務成為可能,從而提升服務能級,實現檔案服務的人性化和知識化,從“供給導向”服務模式向以用戶為中心的 “需求導向”服務模式轉變。[33]誠然,以需求為導向的檔案服務模式寄予了檔案學界對大數據時代檔案服務創新的厚望,但檔案服務的創新離不開檔案資源開發端的努力,檔案資源開發的程度將直接影響檔案服務的能力和質量。

  黨躍武教授指出檔案資源開發是指為了滿足不同的檔案需求,對各種載體和形式的檔案和檔案集合進行加工處理,以形成各種檔案產品或服務的過程。其根本目的在于,深入發掘檔案資源中蘊藏的有利用價值的檔案信息,尋找和獲取更為系統或特定價值的知識和智慧,有效提供給社會各領域的具有特定需求的檔案用戶,從而實現檔案資源和檔案用戶的需求對接、資源關聯和服務匹配。[34]傳統的檔案服務在很大程度上依賴于著錄標引深度以及文件目錄、案卷目錄、專題目錄、專題指南、全宗指南等檢索工具的編制。隨著檔案數字化工作的推進,基于元數據的數字檔案資源的標引成為一種成熟的技術,它對于數字檔案資源的著錄描述、檢索、管理和長期保存具有重要意義。當前,不僅可以通過對檔案案卷級和文件級目錄著錄項進行基本檢索,也可以關鍵詞檢索、主題檢索、元數據檢索、全文檢索等。盡管如此,仍無法對信息單元的復雜特征及信息單元間的復雜語義關系進行定義、分析和識別。有學者提出在大數據時代,檔案工作要善于運用數據挖掘技術分析檔案數據,從海量數據中揭示出隱含潛在價值的信息,實現檔案信息智能檢索服務、檔案信息決策服務。[35]數據分析和數據挖掘確實可以作為檔案業務的拓展,也是檔案服務創新的重要內容[8]。以企業檔案為例,利用大數據技術對檔案數據進行聚類、分類和相關性分析,找到數據間的關系,建立數據模型,可為企業生產經營提供多角度和全方位的服務[36]。

  然而,值得注意的是檔案數字化雖實現了為檔案制作數字化副本和網絡環境下的檔案獲取,但檔案數字化并沒有從根本上改變檔案服務被動性。數字化后的檔案文本存在兩方面缺陷:一是數字化文本仍然需要用戶有意識地進行檢索,沒有建立檔案信息間完整的聯系;二是數字化文本中信息依然只能依靠人的閱讀,才能轉化為有用的信息。檔案數據化能通過計算機識別數字圖像的光學字符,將數字化檔案轉化成數據,進而分析檔案數據的信息。——論文作者:趙  躍

2023最新分區查詢入口

SCISSCIAHCI

7799精品视频