發布時間:2019-05-30所屬分類:計算機職稱論文瀏覽:1次
摘 要: 摘要文章對國內外相關的文獻進行了定量統計,解析了當前的研究熱點,分析了大數據時代科學數據共享面臨的新問題并預測了未來可能的研究方向。研究發現:科學數據共享倫理的研究熱點主要集中在倫理理論、倫理困境、問題成因、治理措施等方面。在大數據時代,
摘要文章對國內外相關的文獻進行了定量統計,解析了當前的研究熱點,分析了大數據時代科學數據共享面臨的新問題并預測了未來可能的研究方向。研究發現:科學數據共享倫理的研究熱點主要集中在倫理理論、倫理困境、問題成因、治理措施等方面。在大數據時代,科學數據共享面臨著數據邊界擴張、數據結構多樣、數據權益模糊等新的倫理問題,未來研究可以關注數據鴻溝、數據污染、數據隱私、數據異化等問題。
關鍵詞大數據,科學數據,數據共享,倫理,科學共同體
科學數據是在領域或學科知識指導下,對研究對象進行抽象和概念化后形成的、以科學證據形式存在的、并用于科學研究活動的原始和衍生數據等相關事實記錄[1-2],被認為是證實科學發現或科學觀點的事實、證據或者論證推理的基礎[3]。隨著數據獲取、數據存儲、數據分析處理等技術的發展,科技創新和科學研究也走向了以數據為基礎的科學大數據時代,數據密集型科學與發現成為新的研究范式,出現了一批以數據為基礎的新興交叉學科[4]。
在此背景下,一些組織機構開始呼吁或要求數據生產者將所擁有的科學數據以標準、規范的形式在科學共同體之間公開發布,供他人獲取和重用,從而促進科學數據的交流共享,實現科學數據資源的最大化利用。但隨著科學數據共享浪潮的推進尤其是大數據時代的到來,出現了數據造假、數據壟斷、數據閹割、數據侵權、數據竊取等一系列問題,這些問題挑戰著傳統的人倫道德,給科學數據開放共享的美好藍圖蒙上了陰影。
因此,如何恰當地解決科學數據共享倫理問題將決定著科學數據在大數據時代能否被安全、合規的共享利用,研究這一問題對于科學數據管理政策的制定和管理技術的研發具有重要意義。中國科學院已啟動了科技倫理研究項目——“大數據的倫理問題及社會治理”,由多名院士級專家共同探討適合我國國情的數據采集、分析研究和共享的倫理準則和政策。本文所探討的科學數據共享倫理是指科研活動所產生的科學證據在科學共同體之間交流共享時所遵守的科學和社會道德準則。
1相關研究工作
倫理的產生與人類的生產和生活方式有關,對科學數據共享倫理而言,其與科學數據共享活動相關。為了了解國內外相關研究現狀,筆者于2018年3月30日在CNKI和WebofScience數據庫中分別以“數據共享+倫理”和“DataSharing+Ethics”為檢索詞進行了主題檢索。自20世紀80年代,國外就開始有相關文獻介紹數據共享的相關工作[5-7]。從論文數量來看,經歷了研究初始期(2003年及以前)、穩步發展期(2004~2013年)、快速發展期(2013年以后)三個階段;從文獻類型看,主要以期刊論文為主(462篇),也有不少會議論文(36篇)。
這些文章主要來自美國、英國、加拿大等國家的高校系統。具體而言,1990年的DataSharing:ADe⁃cliningEthic?一文拉開了科學數據共享倫理問題大討論的序幕[8]。隨后在生命醫學領域出現了流行病學數據共享[9]、患者知情同意[10]、共享患者數據[11]、DNA數據共享[12]、共享基因數據倫理[13]、公共健康領域數據是否共享[14]等專門問題的文章。
Sieber[15]提出了運用混沌理論理解和應對數據管理應該遵循哪些倫理原則、知識產權保護是否會增加共享的復雜性、如何優化數據共享倫理決策等問題的思路;根據eMERGE聯盟的實踐經驗,McGuire等[16]從參與者、研究者和研究機構等利益相關者的角度出發探索了數據共享面臨的倫理挑戰;Dietrich等[17]從信息安全角度出發,勾畫了研究數據共享的最佳實踐模式:概念設計—數據采集—數據存儲—數據分析—數據驗證—數據傳播—數據管理;Heeney[18]根據對英國生物醫學研究機構49名成員的訪談記錄描述了不同合作者在數據共享方面遇到的倫理困境;熱帶醫學和全球衛生中心[19]認為數據共享促進了醫學數據在不同網絡之間的傳播,這避免了由于數據分割存儲而造成的數據孤島。
與國外較早的關注和豐富的研究成果相比,國內相關研究相對滯后且研究成果較少,也沒有形成較為明顯的研究階段。檢索到的29篇文獻以期刊論文(20篇)和學位論文(8篇)為主,文章作者主要來自中國科學院、華中科技大學、北京協和醫學院等。
國內最早的文獻是2000年刊登于《遙感學報》中的《空間數據共享及其面臨的倫理挑戰》一文[20],該文是路甬祥院士在“世界科學知識與技術倫理委員會”外空倫理分委會議上所做的特邀報告,文章分析了不同國家的數據政策特點,指出了空間領域科學數據共享在政治、經濟、技術、所有權等多方面面臨的倫理挑戰;姜勇等[21]對醫學數據共享與倫理的關系以及醫學數據共享存在的倫理學問題進行了探討,他還針對這些問題提出了相應的倫理學對策;羅敏[22]以生物醫學信息學科為例,指出了科學數據的倫理爭議性、原始數據的自然壟斷性以及對原始數據的高依附性與知識產權保護之間的沖突。
以上研究從不同方面探討了科學數據共享的倫理方面問題?傮w而言,這些成果主要集中在生物醫學等特定領域而對其他學科或通用領域涉及較少,而且成果以實踐經驗較多而理論探討較少。鑒于此,本文試圖系統梳理已有研究成果,以期歸納科學數據共享倫理問題所涉及的關鍵問題和未來方向,為后續開展相關實踐提供借鑒。
2科學數據共享倫理研究熱點
通過對檢索文獻的主題分析,發現國內外學者主要關注科學數據共享的倫理理論、倫理困境、倫理問題成因和倫理問題治理等。
2.1科學數據共享的倫理理論
韋伯斯特大辭典[23]認為倫理是處理善與惡的道德規范,是指人與人或人與自然之間的關系以及處理這些關系的準則。具體到科學數據共享倫理問題上來,有關爭論未曾停止。一種觀點認為科學數據共享與倫理道德的進步是一致的[24]:科學數據共享加速了數據轉化為知識的進程,改變了人們的思維方式,由此也產生了與科學數據共享相適應的世界觀和道德觀。
另一種觀點認為科學數據共享與倫理道德的進步是對立的[21]:我國在科學數據共享方面與國外還存在較大差距,這種發展不平衡的狀態會對人的思維方式、行為方式、價值觀、倫理道德等產生影響。此外,科學數據共享與知識產權之間的沖突也是爭論的話題之一[22]:科學數據共享要求面向全球開放而知識產權往往具有一定的地域保護特性,共享全球性和地域保護之間存在沖突;科學數據具有可復制和無損耗的特點,而知識產權具有專有性(又稱“壟斷性”或“排他性”),專有性會阻礙科學數據的有效共享;知識產權保護具有一定期限,只有保護期滿后才被準許進入公有領域,但科學數據的產生、擴散、轉移速度較快且數據老化周期相對縮短,某些數據尚在保護期時就已經失去研究價值。
2.2科學數據共享的倫理困境
當科學數據打破地區和行業限制在科學共同體之間共享時,傳統的倫理價值觀遭到解構與破壞,社會秩序和人倫規范受到嚴重沖擊[25],Schroeder等[26]認為人類的自主權已經被科學知識的增長所破壞。SpringerNa⁃ture調研發現[27],數包含敏感內容、知識產權模糊、組織政策文化阻礙、數據濫用、技術問題等都是共享數據的經常面臨的困境。
以醫療領域為例[28],在醫學數據共享過程中會面臨數據所有權、個人隱私保護、數據安全等諸多問題,貢獻者的利益保護、研究數據倫理準入機制、樣本資源商業化利用等都是敏感的倫理和法律問題。在智慧城市和城市科學研究過程中[29],各類監測網絡、個人設備、智能穿戴產品、社交媒體等產生和獲取的數據在處理傳播過程中也存在著數據監控、數據預測、數據匿名、用戶授權缺失等隱私侵犯問題。
還有學者認為信息隱私權侵犯、網絡人際缺乏誠信和網絡技術濫用等都是典型的網絡信息倫理失范行為[30]。此外,信息污染、信息破壞、信息泄露、信息侵權等問題也嚴重影響著個人信息安全,數據殘缺、網絡狂歡、數據竊取等問題挑戰著社會倫理道德[31]。
2.3科學數據共享倫理問題成因
面對種種沖突,學者們從不同角度探索了根源所在。宋吉鑫等[32]認為數據沒有好壞之分,其產生的原因皆是因為人類對數據的不合理使用,數據技術規則的缺乏也是數據倫理問題產生的原因之一。安寶洋等[33]也提出了類似的觀點:虛擬人格異變是倫理缺失的主體根源,數據技術的負效應是倫理缺失的客觀原因,規約機制匱乏是倫理缺失的社會背景。
傅天珍等[34]從全局層面提出了影響科學數據共享的關鍵因素:個人利益權衡,開放獲取的壓力、技術和標準問題,文化和法律因素,利他心理因素等。由此可見,影響科學數據共享倫理問題的原因多樣,但歸結起來主要有三種:科學數據使用者自我約束力低下、數據共享技術濫用和相關規約機制缺失,其中網絡主體自我管控不嚴是倫理失范的主體根源,網絡技術肆意濫用是倫理失范的客觀原因,外部規約缺失是倫理失范的社會背景。
2.4科學數據共享倫理問題治理
為了營造良好的科學數據共享氛圍,不少組織機構和專家學者思索如何有效地管理科學數據。ACM于1992年提出了相關的數據共享規范[35],要求各成員做到:為社會和人類福祉做出貢獻、避免傷害他人、誠實守信、公平無歧視、尊重知識產權、尊重他人隱私和尊重機密;國際干細胞論壇倫理工作組[36]提出人胚胎干細胞基因型的出版應該遵守自主、隱私、慈善和正義的基本倫理原則。
美國國家教育統計論壇也提出了數據共享倫理三準則:數據完整性、數據質量、數據安全[37];FORCE11提出的FAIR原則得到了廣泛認可,該原則倡議科研產出的數據在存儲和管理時應該努力達到Findable、Accessible、Interoperable和Reusable[38-39],歐洲議會已在FAIR原則的指導下率先開放了歐洲科學云[40]。
國內不少學者還從網絡信息倫理角度提出了相應的治理措施:劉炎[41]認為加強網絡主體道德建設、強化網絡安全國家監管是應對科學數據倫理問題的有效手段;安保洋[42]認為大數據時代網絡信息倫理治理應該遵循人道、無害、同意、公正和共濟的治理原則;陳仕偉[43]認為既要制定相應的倫理新規范,又要制定從業者職業倫理規范?傮w而言,建立健全相應的法律法規和倫理準則,提升網絡維護的技術手段,加強行為主體的倫理道德教育是應對科學數據倫理問題的有效途徑之一[44]。
3大數據時代科學數據共享倫理面臨的新問題
隨著科學數據管理和共享日益顯著,傳統的科學數據共享倫理問題依然存在,但在大數據時代下又出現了一些新的倫理問題。
3.1數據邊界擴張
科學數據是一個很難定義的概念,因為數據本身是以多種實體和形式存在的。加拿大國家科學研究院[45]認為數據是指描述研究對象、研究方法、實驗條件、實驗狀態和其他因素的事實、數字、文字和符號;美國國家科學院[46]認為數據包含的對象除了文獻的數字化形式之外,還包括使用計算裝置和輔助軟件處理的各種數據和數據庫。這些概念承認了數據來源的廣泛性和存在方式的多樣性,但在大數據時代下卻使得科學數據的邊界變得模糊不清。
如在社交媒體上發布的個人信息行為、可穿戴設備采集的個人運動情況、導航軟件搜集的個人移動軌跡等,如果按照傳統定義來看它們應該不屬于科學數據的范疇,但心理學、管理學、社會學、圖書情報學等領域已經利用這些數據展開了用戶行為研究。此外,物聯網技術實現了萬物互聯,人工智能技術也能夠快速實現圖像識別、語音識別,這些技術都大幅拓寬了數據的邊界,使得那些原本微不足道的對象成為重要的科學數據。這不禁讓人對科學數據的邊界產生疑惑:究竟什么樣的數據應該算作科學數據?科學數據與其他數據有何異同?
3.2數據結構多樣
科學數據開放共享的內涵是允許數據自由獲取和使用,強調數據的可發現、可訪問、可理解、可重用和可散布,滿足不同系統或組織之間的協同合作[47]。伴隨著數據邊界的擴張,科學數據不再局限于傳統的電子表格、文本文件、掃描圖像、通用標記語言等格式。2006年,互聯網之父TimBerners-Lee提出了發展數據網絡的構思并指出其核心是關聯數據,在2009年時他倡導科學家和科研機構將原始數據采用標準的、結構化的形式發布,在2010年時他又提出“五星”漸進標準評價開放數據的開放關聯度[48]。
因此,如何將程序源代碼、網址鏈接甚至光源、電磁等新型科學數據與傳統的文字、圖片、音頻、視頻等相結合,以及設置怎樣的數據標準來滿足不同數據的接入需求,這些都需要科研工作者深入思考。科學數據的結構化問題不僅關系到科學數據如何有效利用,也關系到數據是否易獲取、易提取、易混合,還影響到科學數據的來源,只有數據結構多樣化時才能提供更多的數據準入接口進而擴大科學數據范圍。
3.3數據權益模糊
大數據時代使得數據成為物質世界、精神世界之外的一種獨立存在的客觀存在,也成為一種新的資源,知情權、采集權、所有權、保存權、使用權等成為新的數據權益,而這些權益的濫用必然會引起新的倫理危機。如個人每天產生的各種數據應該歸個人所有還是信息服務商所有?政府部門收集的公眾生活數據是否可被納稅人知曉和使用?這種模糊的數據權益狀態還會影響科學數據的合理引用,如產生數據引用過程中誰標引、誰引用、誰負責、誰受益等問題[49]。
目前對數據的所有權問題還沒有形成統一的認識,有觀點主張使用者對數據享有優先財產權[50],賦予公民數據財產權以保護數據權利人直接支配其數據財產不受他人干涉;有觀點認為所有者對數據擁有絕對所有權,由阿里云發起的數據保護運動倡議運行在云計算平臺上的數據所有權屬于開發者、公司、政府、社會機構等所有[51]。
此外,在小數據時代個人隱私的傳播速度、范圍和查詢便捷性都受到一定限制,只要對數據進行模糊化和匿名處理就可避免隱私侵犯,但在大數據時代這些舉措已不再奏效,數據記憶已成為常態,某些曾經的污點信息由于難以刪除而使得不少當事人失去了重新做人的機會,究竟由誰來決定數據的取舍成為關鍵。
5結語
如何認識并應對科學數據共享過程中的倫理問題,一直受到學界、業界和政府部門的關注。目前,國內關于科學數據共享倫理問題的研究較為零散,本文的主要貢獻是系統梳理了這些研究成果。梳理發現現有研究主要圍繞科學數據共享的倫理理論爭論、面臨的倫理困境、倫理問題產生原因、倫理問題治理措施等方面。在大數據時代,科學數據共享將會面臨數據邊界擴大、數據結構多樣、數據權益模糊等新的倫理問題。未來研究應該積極關注數據鴻溝、數據污染、數據隱私侵犯、數據異化等方向。
文章認為,倫理問題的規制最終要落腳在對人身的規制,對科學共同體的參與者而言:首先,保持開放心態,坦然接受大數據時代的來臨;其次,堅持共享精神,讓數據資源發揮最大價值;最后,增強倫理意識,既不侵犯他人數據權益也要保護自身數據權益。當然,加強國家數據立法也是科學數據共享倫理問題治理的必要途徑,相信隨著國家《科學數據管理辦法》的頒布和科學共同體的努力,我國的科學數據共享環境將會極大改善。希望上述分析,尤其是對科學數據共享倫理問題未來研究方向的研判,能夠為科學數據開放共享研究提供一定借鑒。
參考文獻
[1]OECD.OECDPrinciplesandguidelinesforaccesstoresearchdatafrompublicfunding[R].OECD,2007:13.
[2]SaxtonGD,OhO,KishoreR,etal.Rulesofcrowdsourcing:models,issues,andsystemsofcontrol[J].InformationSystemsManagement,2013,30(1):2-20.
[3]黎建輝,沈志宏,孟小峰.科學大數據管理:概念、技術與系統[J].計算機研究與發展,2017,54(2):235-247.
[4]BorgmanCL.Thedigitalfutureisnow:acalltoactionforthehumanities[J].DigitalHumanitiesQuarterly,2009,3(4):1-30.
[5]NeuhauserD.Sharingresearchdata[J].MedicalCare,1986,24(10):879-880.
[6]ZelenM,FienbergSE,MartinME,etal.Sharingresearchdata[J].JournaloftheAmericanStatisticalAssociation,1987,82(398):685-686.
[7]AndersenRM.Sharingresearchdata[J].TheJournaloftheAmericanMedicalAssociation,1987,257(5):686-687.
[8]MarshallE.Datasharing:adecliningethic?[J].Science,1990,248(4958):952-957.
相關刊物推薦:《計算機研究與發展》刊登內容主要為計算機科學技術領域高水平的學術論文、最新科研成果和重大應用成果。本刊優先刊登國家基金項目(如國家自然科學基金項目、“八六三”、“九七三”等)、省部級基金項目等論文。本刊只接收中文稿,不受理英文稿。
SCISSCIAHCI