【摘要】:傳統的知情同意模式存在著內在關系預設,且這一模式及其內在關系預設都是建立在個人自主性價值之上的👰🏿♂️。大數據技術將人置於不同的群組進行分析,使得知情同意的主體發生了重構,傳統的知情同意模式中的確定目的被不確定目的和未知目的所取代,從而使得數據主體的自主性很難得到尊重,對知情同意的實現構成了挑戰。
【關鍵詞】:大數據技術 內在關系預設 個人自主性 知情同意
【中圖分類號】🔊:N031
近年來🐁🫁,隨著大數據技術的迅猛發展⛷,數據驅動的產品和服務已經逐漸走進我們的生活⛹🏽♂️,給人們帶來了極大的便利。與此同時,一些負面影響也逐漸顯現🕵🏼。包括隱私問題、數字鴻溝、數字身份👩🏼🦳、數據安全以及數據所有權歸屬等問題🎴,已經引起了學界和社會公眾的廣泛關註▶️。針對大數據技術帶來的倫理問題,人們正在試圖找到一條路徑,一方面繼續推動大數據技術的發展🤳👨🏽🍳,同時又希望能夠保護公眾的諸如隱私權在內的基本權益。為此,人們將在醫學和生命科學領域中廣泛應用的知情同意原則引入了大數據技術,以解決數據收集中涉及到的數據主體的權益問題。然而我們的研究發現🚀,由於大數據技術數據收集的方法的特殊性,傳統的知情同意模式並不能完全解決對數據主體的權益的尊重問題。這一點不僅體現在加劇了獲取知情同意的困難🤾♀️,更體現在它使得獲取知情同意困難的性質發生了改變。我們認為📘🏌️♀️,大數據技術背景下,傳統的知情同意模式中的內在關系預設產生了變化🪴◼️,知情同意主體與行動主體的界限正在模糊甚至消失,知情同意主體正在由個體主體轉變成集體主體📏,知情同意模式中的行動目的也變得未知和不確定🍄。正是在這個意義上我們認為,大數據技術對傳統的知情同意構成了挑戰,帶來了新的道德責任和倫理困境。
一、機器智能及其超越🍥:AI帶來的哲學難題
眾所周知👋🏿,知情同意作為一種規範出現在紐倫堡審判之後。作為知情同意理論的來源之一,《紐倫堡法典》的第一條就是“受試者的自願同意絕對必要”。根據知情同意原則🫃🏻,對他人的醫學幹預行 為必須獲得當事人( 受試者) 的自主授權,並且該授權需要是法律、製度上有效的🎏。盡管這一原則產 生於實踐👩🏽🎤,但從思想淵源上來看🏒,知情同意仍然可 以追溯到康德的自主性思想🦹🏽。在康德那裏,在道德 實踐領域🙎🏻♂️,每一個理性存在物都為自己立法🧎🏻♂️🏬,正是在這個意義上🧑🏼🚀,我們說人人具有自主性( autonomy)。由此也可以推導出,當一個人的行為涉及到他人並 有可能對當事人帶來重大影響的時候,如果未經獲 得當事人的同意,就可能構成對他人的自主性的侵 犯。也就是說,當一個人做的選擇只是與自己有關👸🏽、不會幹涉到他人的時候,行為者無需告知他人👩🏽🔧, 其他人也一般也不會要求知情,更沒有幹預他人選擇的權力。但是,當一個人所做的行為選擇會幹涉 到他人的時候,這個人則有義務將其選擇的目的和 具體情況告知利益相關人,並且在獲取利益相關人同意、授權的情況下😷,才能行動🗂。換言之,當個人所做行為會幹涉到他人時🔋,就需要獲取他人的知情同意👩🏫。
從上面的分析我們可以得出💱,一個完整的知情同意過程至少包括三個要素: 行動主體🏙🥅、行動客體——即知情同意主體🐎🛜、行動的目的。其內在關系如下: 當行動主體選擇的行動可能作用於其他人——行動客體或對他人可能造成重大影響的時候👩🏿🎤,就需要將行動的目的及其相關信息告知行動客 體。這個人,即行動主體🙎🏼♀️,只有在獲得了行動客體 的同意後🧑🏿🏫,他所做的選擇才會得到道德上的辯護🖖🏿。也正是在這個意義上📭,行動客體就是知情同意主 體。在這一過程中🔙,知情同意主體必須是可以確定 的。如果知情同意主體不能夠確定😔,那麽行動主體 就不知道將目的信息告知何人,知情同意這一行為 也不可能發生。因此,在每一次具體的知情同意發 生時,首先必須確定的是知情同意主體🦶🏿,這是知情 同意行為發生的前提⚒。其次,在某個具體的知情同 意過程中,知情同意主體和行動主體的界線必須是 清晰的。行動主體因其即將做的選擇會對行動客 體,即知情同意主體有重大影響👵🏼,從而需要獲得知 情同意主體的知情與同意🖕🏿🏜。我們在前面已經分析 過,當一個人的行為不會幹涉到他人時,這個人只 需要對自己的行為負責即可。再次👨🦰,行動主體對自 己的行為目的是清晰的,也就是說,其內在關系預 設中的“目的”是確定的。行動主體在做選擇前,清 楚知道自己想要的是什麽,以及他的選擇會對知情 同意主體有什麽重大影響。在目的信息是具體的🫱、清晰的基礎上🤳🏼,行動主體才能評估自身的選擇會不 會對其他人造成影響。最後,獲取的知情同意,一定是與具體的“目的”一一對應的。傳統意義上的知情同意🖕👩🏼⚕️,比如在醫學和生命科學中的隊列研究中👩🏼✈️,需要參與者或受試者就其提供的生物樣本或數 據簽署知情同意書,知情同意書上必須寫明樣本或 數據的用途或使用目的,一般都是就其所參與的單一研究而言的🧙🏽,該同意並不涵蓋不相關的目的,也不包括在研究共同體內的數據再次轉讓和二次利用。換言之,當“目的”的內容發生改變之後,行動主體就需要再就新的“目的”獲取同一個知情同意主體或新的知情同意主體的知情同意👉🏽🦕。如此,行動主體所做的選擇才能在道德上獲得辯護。
在醫學倫理領域中,知情同意作為保護受試者或患者權利的基本倫理原則,體現了對人的自主權利的尊重🚴🏿,因而得到了普遍的認可。在我們日常道德生活中💇,知情同意也具有極大的道德價值。之所以如此🧑🏼🦰,是因為知情同意原則是建立在個人自主性價值之上的👇🏽,即源於對個人的自主權利的尊重。因為“人們均享有追求自己生活方式的權利🙎🏻,並且只有通過個人選擇,他們才可以真正計劃並實踐一個屬於自己的人生。個人決定對理性個體來說必然是一種最佳( 或對自己最好) 的決定。”知情同意的內在關系預設也是建立在個人自主性價值的基礎之上👨🏻⚖️,因為無論是要求“每一次具體的知情同意與唯一確定的目的對應”,還是知情同意主體與行動主體的明確區分👀,都是基於對人的自主權利的尊重。
針對大數據技術可能會侵犯個人隱私的問題🚶🏻♀️,已經有比較多的文獻對此問題進行討論,涉及數據收集和處理、挖掘、分享等過程中潛在的對隱私的侵犯🤵🏼。國外已經有相關法律將知情同意引入,以保護個人數據信息。比如在歐盟 2018 年正式實行的《一般數據保護條例》( 簡稱 GDPR) 中,第 6 條第 1 款明確將“數據主體同意”作為數據處理合法的條件之一,而第 7 條( 同意的條件) 則分 4 款給出了同意的具體條件,比如第 1 款說到: “如果處理是基於同意🔟,控製者應能證明數據主體已經同意處理其個人數據。”2019 年12 月20 日🍪,在全國人大常委會法工委舉行的第三次記者會上,相關新聞發言人報告了我國將於 2020 年製定《個人信息保護法》的計劃✯。據悉⬅️,個人信息保護法將包括“非經信息主體知情同意不得收集、處理和利用”個人信息👨🏻🍳,“在個人信息的利用方面,應當賦予信息主體決定權、選擇權、拒絕權和被遺忘權🏌️♀️,個人信息應可追溯、可異議🍭、可糾錯🤛,並對濫用個人信息行為,應有強有力的法律約束和監管懲戒”等內容。
二👉🏼、表現乃對再現的超越性統一
然而🤦🏻,大數據技術的飛速發展改變了人們的生產🤸🏽♂️🦽、生活和交往方式👨❤️💋👨,也對傳統的知情同意模式構成了挑戰🉐。
通常🧑🏻🎓,大數據技術是建立在數據歸納處理的基礎之上的🍈👨🦽。它的主要步驟包括:數據采集( 搜集)🕉🪶、數據處理( 挖掘) 🧖🏽♀️、數據分享( 轉讓、交易) 。在數據采集( 搜集) 的過程中,技術行為主體有時顯性的——比如我們前面提到的在生命科學和醫學研究中經常使用的隊列研究,大數據技術的使用者對 數據的處理必須經過知情同意的程序🌵。然而,在現 今的大數據技術應用中🈺,很多時候,搜集和處理海 量數據的技術主體“消失”了,或處於“隱匿”的狀態——如人機混合的搜索引擎,主要是利用人們在網上留下的行動“足跡”——包括文本、視頻💅🏽、圖像,和網上記錄——包括稱呼、身份🌘🔨、位置信息等等🦹🏽♀️,進行數據“爬蟲”:通過進一步的深度挖掘數據,進而分類、回歸分析、聚類、關聯分享等方法🙄,將數據轉化為有價值的信息👩🏻🌾。在此基礎上,將獲得的有價值 的信息進行分享和擴散甚至出售,從而使得數據轉 變成知識和商品。分享和擴散是大數據技術的重要環節👩🏿🏭🕐,沒有分享(主動或者被動) ♻️,大數據既不可能也沒有意義。
在大數據技術的分析過程中,一個重要的手段就是將人的各種屬性數據化,即用一組數據對一個具體的人進行描述,從而勾勒出這個人的身份形象🧑🏿🍳。比如🦸🏽,它可以根據個人的性別、職業🫷🏼、生活習慣、愛好、個人歷史等因素將人們分門別類。再根據類別👨🏼🦳,借助於不同的算法對個人的情況進行不同的挖掘、分析,並且做出跟類別相關的選擇;或者用 一群人共享的某一類數據來描繪這一群組的特征。布蘭特·米特爾施泰德( Brent Mittelstadt) 指出🌎,大數據技術擁有者可以依據人的屬性,把人們置於不 同的臨時群組( ad hoc group);通過臨時群組,大數據擁有者可以分析群組成員的特征。在大部分情 況下,大數據技術的操作都是針對各種臨時群組🚘。米特爾施泰德集中討論了大數據技術的擁有者對 群組的道德責任🦔。由於群組不是個體簡單的疊加, 它與個體有著本質上的區別👩🏿🦳,群組還具有一種群體 隱私🧀,這種群體隱私不能通過分別保護群組裏的成 員的隱私而得到保護,它必須以群組作為對象來保 護🏂🏻👩👧👧。而這一點並不在基於保護個體權利和個體自主性的傳統知情同意模式涵蓋的範圍之內🗼。
比方說,假如我們只知道 A 的基因信息,通過將這些基因信息與公開搜索的家譜數據庫( GED- match) 進行匹配👍🏻,可以獲取 A 的遠親的基因信息;通過 A 的遠親的基因信息🦹🏽♂️、其它信息,研究者可以得出該家族的譜系,最終得出 A 的姓名、地址等詳細的信息。從基因角度講👷🏽♂️,每個人都會被置於若幹個家族基因群組。只要家族基因群組的某個人的基因信息被某個基因數據庫保存了,那麽✍🏻,基因群組中的其他個體的信息都可以被查詢到。2018年美國 72 歲“金州殺手”迪安傑洛( Joseph James Deangelo) 就是被警方通過這種方式抓到的🏊🏿♀️,調查人員通過將罪犯在現場留下的 DNA 和公開搜索的家譜數據庫( GEDmatch) 的數據庫進行匹配找到了犯罪嫌疑人的遠親🧑🏿🎓,最終通過對家族譜系的人進行篩查確定了犯罪嫌疑人🚚。
以基因群組為中介獲取犯罪嫌疑人的詳細信息,確實給案件的偵破帶來了便利,客觀上有利於保護公眾的安全。但是🤳,這也意味著普通人的相關信息也有可能通過類似的基因群組被泄露出去,即使他沒有去 DTC 基因檢測公司做檢測或相關的基因信息被存儲在公開數據庫中。只要你所從屬的 基因群組中的某一個人的基因信息和個人信息被 數據庫所存儲😱,群組中其他人的基因信息和個人信 息也有可能被泄露出去。研究者發現只要一個國家的 2% 的人上傳了自己的基因信息,那麽👮🏻♂️,通過這些相關數據可以獲取全國任何一個人的詳細信 息。而在此過程中,盡管基因檢測公司與上傳基因 信息的被檢測者之間履行了知情同意的程序,但其 他家族相關人卻未必知情👮🏼♀️,也就是說🦹🏼♂️🫵🏻,在未征得其 他基因群組成員同意的情況下,他們的基因信息卻被其他人輕而易舉獲取。這就有可能對群組的其 他成員構成潛在威脅🗓。理論上講🍳,由於群組自身也以一種獨特的地位存在著,獲取涉及群組的信息必須得到他所從屬的基因群組中的其他成員的同意🤦🏿♀️, 而這幾乎是不可能的。
大數據技術形成了一個個類似的隱形“群組”☕️,而這些隱形群組在某種程度上獲得了共同的個性 化特征,成為具有獨特個性的“集體”,只是這種集 體不是實體性的,而是虛擬的,但在技術層面和影 響層面上來看🚲💂🏽♂️,它又具有實在性。由此帶來了一個新的“群體隱私( group privacy) ”問題。對群體隱私的保護🧑🏼🔧,也是對群組中所有個體的保護。因此😗,當 大數據技術的擁有者的行為會對群體隱私造成重 大影響的時候🧞,他必須獲得群組的知情同意。這就 意味著傳統知情同意的內在關系預設就需要變為: 行動主體——大數據技術的擁有者👅、行動客體——知情同意主體( 群組) 、行動目的👳🏽♂️。群組作為大數據技術行動的客體出現在知情同意主體的位置上。然而,群組與個體有著本質的區別👩🏻🦽,他不是一個人, 而是一個集合體。正是在這個意義上,我們認為大 數據技術重構了知情同意主體🙍♀️,使得知情同意的倫 理問題變得更加復雜了🧏🏽♂️。當個人的行為對群組的其他成員👰🏽♀️、群組有影響的時候,我們需要獲取群組中其他成員的知情同意🪬📼。那麽,誰能代表群組做知情同意? 在技術上👨🦼➡️,我們也很難確定具體是那些人被置於這個臨時群組,我們如何獲取群組中其他個體的知情同意? 這都是大數據技術給我們提出的極其困難的問題。按照弗洛裏迪的看法🏄🏽♀️,“我們當前的倫理學路徑,太過於人類中心主義( 只考慮自然人) 和唯名論( 只考慮單個的個體) 了。我們應該將其他類型的個體😂🈂️,包括群組,納入到考慮範圍之內。”也就是說,為了回應此種挑戰,倫理學本身也需要做出一些改變👼🏽🤧。
三🚣🏼、“未知目的”與“確定目的”的內在矛盾
大數據具有 4V 特征🤵🏽,即 Volume ( 數據量龐大) 🆎、Variety ( 類型繁多) 、Velocity ( 生成速度快)、 Value( 價值巨大但密度低)。首先,數據量龐大🙆🏼♂️,由於存儲、分析等技術的進步,來自互聯網、物聯網𓀊、科學研究等幾個方面的數據都得以保存、分析。大 數據技術的出現,使得數據以最原始的狀態保存下 來,這同時也使得數據量極大的增加📝。數據的計數單位已經從 TB 到 PB,甚至已經開始以 EB、ZB 計數。其次,數據類型繁多,包括結構化、半結構化🚶♂️➡️🚣🏻♀️、非結構化的數據。傳統的數據處理技術不能處理 非結構化和半結構化的數據,大數據技術的出現, 使得非結構化、半結構化數據的分析👨🏻🏫、處理成為可 能。再次☁️,數據的產生具有時效性,數據流動的速 度很快,大數據技術能夠達到對數據流的掌控。最 後🏮,大數據中蘊含著巨大的價值,但是其價值密度 很低,需要對其進行挖掘才能產生巨大的價值🦒。設 計大數據就是試圖揭示數據點( data points) 之間無法預料的聯系👂🏻,可以說🧘🏻,大數據的 volume➕、variety和 velocity 特征最終都是為價值( value) 服務的,也就是最終要挖掘數據點之間無法預料的聯系💳。數 據之間這些無法預料的聯系,正是大數據蘊含的價值所在💏。
當人們收集數據時🧗🏿♂️,要想使得其行為獲得道德上的辯護,需要獲得數據主體的知情同意。我們在前面分析過,在傳統的知情同意內在關系預設中🧎♂️➡️,行動主體需要把目的告知知情同意主體並獲得其同意。但是,大數據技術是為了挖掘數據之間無法預料的聯系🎧,建構和找出其相關性。很多時候,處理和挖掘數據的公司和個人並不是自己需要這些信息,而是通過進一步的轉讓和分享,將數據處理的結果交給需要使用這些信息的人。這也就是說🧑🏻🦯🏃♀️,數據收集者( 行動主體) 在收集數據的過程中,對數據的目的並不明晰😩。因而也談不上清楚明白的告 知數據主體( 行動客體)。但即便在這種情況下🐦🔥,有些數據技術公司,為了免責,要求用戶“同意”這些 轉讓數據的使用權🤕。我們都經常在手機終端上經 歷過必須“同意”的強求,否則其他 APP 的應用就不可能實現。結果就造成了沒有被“告知”目的的不得不“同意”🤏👨🏼🚒,即數據主體不能被告知數據未來做何 種用途、他們的數據最終的結果,這些情況在收集 數據的時候都是未知的。也就是說,通常,數據收集者是在沒有告知數據使用的明確目的的情況 下🚜,迫使數據主體同意了數據收集行為,否則就不可以使用 APP🙆🏽♂️。很顯然,在某種程度上這是一種霸王條款🕦。
以美團公司於2019年8月15日發布的《美團點評隱私政策》(5.0版)為例子做一個簡單的分析🐮。在《美團點評隱私政策》(5.0版) ( 以下簡稱《政策》) 的第一部分“一、我們如何收集和使用您的個人信息”中的“( 四) 征得同意的例外”第10條講到:“學術研究機構基於公共利益開展統計或學術 研究所必要🙇🏼♀️,且對外提供學術研究或描述的結果時🎖,對結果中所包含的個人信息進行去標識化處理。”理論上講,用戶授權美團公司收集的數據所用 的目的是確定的,比如用這些數據完成送餐服務。但如果這些數據用於其它的目的則需要重新獲取數據主體的知情同意。《政策》中的“( 三) 其他”也明確的寫到了:“如果我們將信息用於政策未載明 的其他用途,或者將基於特定目的收集而來的信息 用於其他目的時🎾,會單獨征求您的授權同意”。然 而4️⃣,從第 10 條的表述中我們可以看到,《政策》在另一方面卻默認去除標識的數據不需要獲取數據主 體的授權,並且前面加上一個前提◼️,即“為了學術研究”;然而🌳,研究發現通過生成式模型(generative models) 能夠準確識別匿名化的數據👮🏼♂️,從而使得數據匿名化不足以保護個人隱私、也不能夠滿足 GDPR的數據保護要求🫳🏻。也就是說,數據去識別化並不能消除知情同意的需求⚫️。這實質就是將數據用於“未知目的”,並且不再為此征求用戶再次知情同意。而在“(五)個人信息使用規則”的第3條:“我們可能將業務中收集的個人信息用於統計分析和 改進運營,將已經去標識化無法識別您身份且不能 復原的信息用於建立數據庫並進行商業化利用🫁。” 但並沒有說明開展什麽類型的“商業化利用”🙅🏽♀️。這就很明顯表明了數據將會用於其它的“未知目的”,並且《政策》也試圖例舉一些“未知目的”用途。
四👩🏻🔬、矛盾的解決路徑及其困境
為了解決大數據技術的不確定性目或未知目的預設和傳統知情同意的確定目的預設之間的矛盾🐨🥇,有人認為可以采取“一攬子知情同意( blanket consent) ”模式🙅🏼♂️。所謂“一攬子知情同意”💁🏻,是指在數據收集的時候,那些未知的數據用途也是默認 同意的,即認可“不告知的同意”。上節中列舉的美 團的隱私條款,其實就包含了“一攬子同意”的意 思🧖🏽♂️。但是😏,正如上節中分析的👳🏿♀️,根據知情同意的內 涵及其內在關系預設,我們可以合理的推出這種 “不告知的同意”與知情同意所依賴的個人自主性 相沖突🟫。也就是說🧗🏼♀️,“一攬子知情同意模式”並不能 保證人的自主權利🦵,在某些情況下,甚至有可能帶來嚴重的後果。因而⚡️,它不能在道德上獲得有效的辯護。為了緩和大數據使用中的不確定性目的或 未知目的與確定目的的內在矛盾,也有人試圖在具體的操作層面上🔍,從實用主義出發,以強調團結 ( solidarity)或公共善( public good)為理由👩🏽🎤,在某個具體的領域中建議簡化或消除同意的過程。比如⛳️,在使用生物樣本庫( biobanks) 數據進行的健康相關的研究中,如果這一研究是為了提高大眾健 康的目的🥦,基於此種情況,知情同意主體( 即行動客體,數據和樣本的提供者) 在和行動主體( 即數據🙋🏻♂️、樣本的收集者) 簽署知情同意書的時候,可以做出某種知情權讓渡🙅🏿♀️,同意研究者將這些數據用於科學 目的。妥協的理由,則是強調所有相關的研究具有 提高公眾健康的目的,即強調團結和公共善。然 而,實際上我們並不能完全清楚地區分基於公共利 益的科學研究與基於其他目的👗,比如為了少數人利 益的科學研究👩🏽🎨🖲。因此🤽🏽,用公共善或團結來論證“不 告知目的使用”很難得到倫理上的辯護。
“分層式知情同意”( tiered consent)依據數據信息或生物樣本的敏感程度🧗🏿♀️🤷🏼,將同意的類型分為三個層次:層次1,按照傳統的知情同意模式,需要逐個就研究的目的和用途告知數據主體並進而獲取主體的知情同意;層次2,在某些具體研究領域🥰🏂🏻,如果繼續使用樣本進行與原初“同意”的研究一致 的研究,可以不需要進行再次告知和同意;層次3,針對那些去身份識別的樣本和數據的研究🙅♂️,可以采用“一攬子知情同意”⛵️。分層模式可以減少知情同意的成本,特別是對於生物隊列的數據采集與應用,具有重要的價值。第三層面的問題前面已經述及,這裏還有一個問題,即在具體操作層面,如何掌握這些分層的標準以及誰來決定如何分層? 如何解決這些具體操作層面的問題還有待於進一步研究。
綜上👨🏻💼,盡管大數據技術已經深入到我們生活中的各個方面,並且給人們的生活帶來了極大的便利🫱🏼、創造了巨大的經濟與社會價值,但是🍎,大數據技術的廣泛應用👩🦼,也給我們現有的倫理規範帶來了沖擊💱,傳統的侵犯隱私問題、安全問題和違反自主性等倫理問題也以新的形式出現🥚。而大數據技術對知情同意原則的挑戰,並不僅僅是在一般意義上加劇了知情同意的難度,而是動搖了傳統知情同意理論的內在結構即其內在關系預設。通過對人的屬性數據化,然後將人置於不同的群組進行分析🏙、挖掘,使得我們幾乎不可能清楚知道群組中具體是那些人🍁,更談不上獲取群組成員的知情同意。使用大數據技術的意圖之一在於通過對數據內在相關的挖掘🫢,找到某種規律,將松散無序的數據轉換成具有使用價值的信息。大數據技術的這個不確定性目的或未知目的的預設與傳統知情同意模式要求的確定目的的預設存在著內在矛盾⬇️,這個矛盾的存在使得數據主體的自主性很難得到尊重💍,也就是說🥐,按照現行的基於個體基礎上的知情同意模式🍫,數據收集者的行動很難在道德上得到有效的辯護。如何解決這一內在矛盾也是對大數據倫理學研究的一個挑戰⚧。
《自然辯證法研究》2020年04期