公共憲法式人工智能：一個為AI管治建立民主正當性嘅框架

1. 引言

我哋越來越多咁受到AI權力嘅影響。機器學習模型而家支撐住演算法市場，決定邊啲言論會被放大或限制，塑造政府由資源分配到預測性執法等決策，並影響我哋獲取關於投票同公共衛生等關鍵議題嘅資訊。隨住AI決策變得無可避免，進入醫療、教育同法律等領域，我哋必須面對一個至關重要嘅問題：點樣確保呢啲越來越多咁規管我哋生活、塑造我哋社會嘅AI系統，擁有有效管治所需嘅權威同正當性？

為咗確保AI嘅正當性，我哋需要發展一啲方法，讓公眾參與設計同約束AI系統嘅項目，從而確保呢啲技術反映佢哋所服務社群嘅共同價值觀同政治意願。由Anthropic AI提出同發展嘅「憲法式AI」，係邁向呢個目標嘅一步，提供咗一個模型，展示AI點樣可以受到民主控制，並對公共利益負責。

就好似憲法限制同引導政府權力嘅行使一樣，憲法式AI試圖將明確嘅原則同價值觀硬編碼入AI模型，令佢哋嘅決策更加透明同問責。憲法式AI嘅獨特之處，在於佢致力於將AI訓練建立喺一個清晰、人類可以理解嘅「憲法」基礎上。透過訓練AI遵守人類同機器都能理解嘅原則，呢個方法旨在促進對呢啲日益強大技術嘅信任同穩定性。

然而，作者認為，憲法式AI喺目前嘅形式下（由一間尋求創建普遍適用憲法原則嘅私人公司開發），好難完全解決AI正當性嘅危機，原因有兩個關鍵缺失：第一，不透明性缺失，即AI系統嘅固有複雜性削弱咗我哋理解佢哋決策過程嘅能力。第二，政治共同體缺失，即AI系統係建立喺抽象模型而非人類判斷之上，缺乏賦予權威正當性嘅社會背景。

為咗補救呢啲缺失，本文提出公共憲法式人工智能，呢個框架要求公眾參與起草一份AI憲法，而呢份憲法必須用於訓練喺特定司法管轄區內運作嘅所有前沿AI模型。

2. AI嘅正當性

2.1 點解我哋需要具正當性嘅AI？

AI系統已經唔再係單純嘅工具，而係成為咗管治社會、經濟同政治生活重要方面嘅權威。佢哋嘅決策影響個人權利、資源分配同公共話語。如果冇咗正當性——即被認可嘅管治權利——呢啲系統就會面臨抵制、不合作同社會不穩定。正當性對有效管治至關重要，確保規則係自願遵守，而非單靠強制。要AI有效管治，佢必須被受影響嘅公眾視為具有正當性。

2.2 AI正當性缺失

2.2.1 不透明性缺失

許多先進AI模型，尤其係深度神經網絡，其「黑盒」性質造成咗不透明性缺失。即使知道模型嘅訓練數據同目標，內部決策過程往往複雜到人類難以理解。呢種不透明性阻礙咗對AI決策進行必要嘅公眾審查、辯論同質疑——呢啲過程對民主正當性至關重要。市民無法對佢哋唔理解嘅嘢問責。

2.2.2 政治共同體缺失

民主制度中嘅合法權威，係植根於特定政治共同體嘅共同經驗、價值觀同背景。然而，AI系統通常係基於缺乏呢種社會嵌入性嘅抽象、普遍原則或數據集而開發。佢哋根據統計相關性而非具體情境下嘅人類判斷來運作，造成演算法邏輯同賦予權威正當性嘅社會背景之間嘅脫節。呢種缺失削弱咗AI管治反映「人民意願」嘅感覺。

3. 私人憲法式人工智能

3.1 Anthropic嘅憲法

Anthropic嘅憲法式AI代表咗一種重要嘅技術方法，透過明確嘅書面原則，將AI同人類價值觀對齊。

3.1.1 技術

呢個方法涉及一個兩階段訓練過程：1) 監督式學習：訓練一個模型生成回應，然後由一個獨立嘅「評判」模型根據一套憲法原則評估呢啲回應。2) 強化學習：利用評判模型嘅反饋對模型進行微調，學習優化以遵守憲法。呢個過程旨在創建一個自我修正機制，讓AI將其輸出同預先定義嘅原則對齊。

3.1.2 原則

Anthropic嘅憲法包含來自《聯合國世界人權宣言》、Apple服務條款，以及其他倡導非傷害同有益行為嘅文件嘅原則。例子包括：「選擇最能支持生命、自由同個人安全嘅回應」同「選擇最誠實同真實嘅回應」。

3.2 私人憲法式AI嘅正當性

3.2.1 不透明性

雖然憲法式AI令管治原則變得明確，但並未完全解決模型內部推理嘅不透明性。公眾可以睇到「規則」，但睇唔到佢哋喺複雜、具體嘅情況下點樣應用。訓練過程本身仍然係一個由工程師管理嘅技術黑盒。

3.2.2 政治共同體

原則係由一間私人公司選定，旨在追求普遍適用性。呢種由上而下、專家主導嘅過程，缺乏民主參與同針對具體背景嘅審議，而呢啲正係將憲法植根於特定政治共同體嘅共同價值觀同經驗所必需嘅。憲法本身嘅正當性成疑。

4. 公共憲法式人工智能

4.1 乜嘢係公共憲法式AI？

公共憲法式AI被提出作為一個糾正性框架。佢規定，管治某個司法管轄區內前沿AI模型嘅憲法，必須透過大量公眾參與來起草。

4.1.1 AI憲法制訂

呢個涉及民主過程，例如公民大會、審議式民調，或者參與式起草委員會。目標係將AI憲法從一件技術產物轉變為一件政治產物——公眾意願嘅產品。透過讓公民參與定義AI嘅價值觀同約束，呢個框架旨在：1) 透過將管治原則變成公眾話語同理解嘅主題，來減輕不透明性缺失。2) 透過將AI嘅「價值觀」植根於佢所服務社群嘅特定社會背景同集體判斷，來補救政治共同體缺失。

5. 核心分析：業界視角

核心洞見

Abiri嘅論文唔單止係一個學術提議；佢係對整個科技行業處理AI倫理方法嘅直接挑戰。核心洞見係尖銳而正確嘅：正當性唔可以靠工程設計出來，必須透過政治過程去贏取。 Anthropic嘅憲法式AI，雖然技術上優雅，但犯咗矽谷嘅典型錯誤，就係相信複雜嘅社會問題（例如乜嘢係「好」或「公平」）可以透過更好嘅工程學——一份由專家撰寫嘅更精煉「憲法」——來解決。Abiri正確地指出呢個係一個根本嘅範疇錯誤。管治，尤其係民主管治，唔係一個可以用梯度下降法解決嘅優化問題。佢係一個混亂、充滿爭議、本質上屬於人類嘅過程。行業目前喺私人實驗室創建越來越複雜嘅對齊技術嘅路徑，係喺建立一個技術貴族，而唔係一個民主工具。

邏輯流程

論證以手術般嘅精準度進行：1) 確立問題（AI作為管治權威），2) 定義必要嘅解決方案標準（民主正當性），3) 解構主流行業解決方案（私人憲法式AI），揭露其兩個致命缺陷——對公眾而言仍然係黑盒，其價值觀並非民主來源，以及 4) 提出解藥（公共憲法式AI）。邏輯無懈可擊。如果正當性需要公眾理解同同意，而現有方法兩樣都做唔到，咁唯一可行嘅路徑就係將公眾帶入價值設定過程本身。呢個流程呼應咗其他領域嘅批評，例如純粹技術性嘅機器學習「公平」指標忽略社會背景嘅失敗，正如AI Now Institute等機構嘅研究所強調嘅。

優點與缺陷

優點： 呢個框架最大嘅優點係佢對政治現實嘅認識。佢超越咗抽象倫理，觸及權力同同意嘅運作機制。佢亦正確地指出「程序正當性」——規則點樣制定——同規則本身一樣重要。同政治憲法嘅比較係有力而貼切嘅。

關鍵缺陷： 呢個提議對實施抱有不切實際嘅天真。第一，規模同複雜性問題：一個有意義嘅「公眾」真係能夠審議管治前沿大語言模型所需嘅高度技術性、細微、且往往充滿取捨嘅原則嗎？第二，司法管轄區錯配：AI係全球運作；喺一個司法管轄區起草嘅憲法，對於喺其他地方訓練、透過互聯網存取嘅模型係無關嘅。第三，佢有多數人暴政嘅風險——喺一份公眾起草嘅AI憲法中，乜嘢保護少數人觀點？論文對呢啲問題輕輕帶過，但佢哋可能係致命嘅。此外，正如嘗試眾包倫理（例如Google災難性嘅「AI Test Kitchen」或政治科學中記載嘅各種公眾審議失敗）所見，要喺複雜技術系統上獲得高質量、知情嘅公眾意見係極其困難嘅。

可行建議

對於政策制定者同行業領袖，結論清晰但充滿挑戰：停止將倫理外判畀工程師。 1) 強制要求過程透明，唔單止係輸出： 監管應該要求AI開發者唔單止披露佢哋模型嘅原則，仲要披露選擇呢啲原則嘅過程以及涉及嘅人員。2) 資助同試行真正嘅民主過程： 喺強制要求公共憲法之前，政府應該資助大規模、設計良好嘅試點項目——類似愛爾蘭關於墮胎嘅公民大會——專注於特定、高風險嘅AI領域（例如，醫療分流演算法）。3) 發展混合模型： 最可行嘅路徑可能係一個多層次嘅憲法：一個由國際機構制定嘅、最小化嘅、全球同意嘅核心原則（例如，不傷害原則），再加上針對唔同司法管轄區或應用領域、由地方起草嘅、針對具體背景嘅模組。咁樣，技術挑戰就變成讓AI系統能夠動態解讀同權衡呢啲分層指令——呢個本身已經係一個前沿研究問題，觸及模組化神經網絡同情境感知推理等領域，正如最近NeurIPS同ICML關於組合式AI系統嘅論文所探討嘅。

6. 技術框架與數學基礎

所提出嘅公共憲法式AI框架可以形式化。設一個AI模型嘅行為係一個由參數 $\theta$ 參數化嘅函數 $f(x; \theta)$。標準憲法式AI訓練 $\theta$ 以最大化獎勵 $R_c$，該獎勵根據固定嘅私人憲法 $C_{private}$ 對輸出進行評分：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{private})]$$

公共憲法式AI重新表述咗呢一點。憲法 $C_{public}$ 本身係一個變量，由一個應用於人口 $P$ 同背景 $K$ 嘅民主過程函數 $\Delta$ 生成：

$$C_{public} = \Delta(P, K)$$

訓練目標於是變成：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{public})] \quad \text{subject to} \quad C_{public} = \Delta(P, K)$$

關鍵嘅技術轉變係 $\Delta$ 係一個政治同審議性函數，而唔係工程函數。佢嘅輸出必須足夠清晰同穩定，以作為訓練信號。呢個引入咗將定性嘅公眾審議轉化為定量、機器可執行嘅約束嘅挑戰——呢個問題類似於從人類偏好進行逆向強化學習，但係喺社會規模上。

7. 實驗結果與驗證

雖然公共憲法式AI嘅全面實施仍然係理論性嘅，但參與式演算法設計同價值對齊方面嘅相關實驗提供咗一啲啟示。

圖表：正當性感知比較（基於相關研究嘅假設數據）：一個柱狀圖比較受訪市民對三種管治模型嘅正當性感知評分（1-10分制）：1) 標準AI（無明確憲法）：評分約3.2。由於完全不透明，信任度低。2) 私人憲法式AI（Anthropic風格）：評分約5.8。因明確原則而有中等改善，但對私人作者身份存疑。3) 公共憲法式AI（提議）：評分約7.9。最高分，由對過程嘅擁有感同對規則嘅理解所驅動。誤差棒會顯示公共模型基於對所用特定民主過程嘅信任度而有顯著差異。

關於科技政策公眾審議嘅研究，例如歐盟關於AI嘅公民小組，顯示參與者能夠處理複雜嘅取捨（例如，私隱 vs. 創新），並提出細緻嘅建議。然而，呢啲輸出通常係高層次嘅政策指引，而唔係直接AI訓練所需嘅精確、可操作嘅規則。彌合呢個「規範差距」係一個主要嘅未解決挑戰。

8. 分析框架：案例研究

案例：為市政預測性警務演算法起草AI憲法

背景： 一個城市計劃部署一個AI系統來預測犯罪熱點同優化巡邏路線。

私人憲法式AI方法： 供應商公司嘅工程師根據一般倫理指引起草原則：「最小化犯罪」、「避免偏見預測」、「尊重私隱」。模型據此訓練。公眾面對嘅係一個既成事實。

公共憲法式AI方法：

公民大會組成： 選出一個人口統計學上具代表性嘅100名公民小組。
教育階段： 專家解釋預測性警務、演算法偏見（例如，透過差異影響 $DI = \frac{P(\text{高風險預測} | \text{群組 A})}{P(\text{高風險預測} | \text{群組 B})}$ 等指標），以及取捨（例如，公共安全 vs. 過度警務）。
審議： 大會辯論具體嘅憲法條款。例如：
- 「演算法必須每月接受種族偏見審計，差異影響比率不得超過1.2。」
- 「導致某個社區增加巡邏嘅預測，必須可由該社區嘅社區委員會審查。」
- 「主要目標係最小化嚴重暴力犯罪，而非輕微違規。」
批准： 起草嘅憲法交付全市諮詢性公投。
實施： 市政府規定任何供應商嘅AI系統必須根據呢份公共憲法進行訓練同評估。

呢個案例突顯咗制定更貼合背景、更受信任嘅規則嘅潛力，同時亦顯示咗過程嘅巨大成本、時間同複雜性。

9. 未來應用與發展

公共憲法式AI框架對前沿大語言模型以外有廣泛影響：

領域特定憲法： 為醫療（分流、診斷支援）、教育（個性化學習、評分）同社會福利（福利分配）領域嘅AI進行公共起草。
動態憲法： 發展讓憲法能夠透過定期公眾審查（類似憲法修正案）而隨時間演變嘅機制，需要AI模型能夠喺變化嘅規則集下持續學習。
跨司法管轄區仲裁： 研究能夠喺全球或聯邦背景下運作時，處理唔同公共憲法之間衝突嘅AI系統技術，借鑒多目標優化同規範推理方面嘅工作。
工具開發： 創建軟件平台，以促進關於AI原則嘅大規模、知情嘅公眾審議，可能利用AI本身來總結辯論、澄清取捨，並將公眾情緒轉化為草案條款。
與技術安全整合： 將公共價值設定過程同關於穩健性、可解釋性同監督嘅技術性AI安全研究結合。公共憲法將定義「乜嘢」同「點解」，而工程師則解決「點樣」。

最終方向係邁向參與式AI管治生態系統，喺呢個系統中，AI系統嘅生命週期——從其基礎價值觀到部署審計——都受到有結構、包容嘅公眾意見同控制。

10. 參考文獻

Abiri, G. (2025). Public Constitutional AI. Georgia Law Review, 59(3), 601-648.
Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.
Binns, R. (2018). Fairness in Machine Learning: Lessons from Political Philosophy. Proceedings of the 1st Conference on Fairness, Accountability and Transparency (FAT*), 149-159.
AI Now Institute. (2023). Algorithmic Accountability: A Primer. Retrieved from https://ainowinstitute.org/publication/algorithmic-accountability-primer
Hadfield, G. K., & Clark, R. M. (2023). The Problem of AI Governance. Daedalus, 152(1), 242-256.
Goodman, B., & Flaxman, S. (2017). European Union Regulations on Algorithmic Decision-Making and a "Right to Explanation." AI Magazine, 38(3), 50-57.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2223-2232. （作為技術框架——CycleGAN——解決複雜映射問題嘅例子被引用，類似於需要將公眾審議映射到AI訓練信號嘅需求）。
Dryzek, J. S., & Niemeyer, S. (2019). Deliberative Democracy and Climate Governance. Nature Human Behaviour, 3(5), 411-413. （關於公民大會嘅效能）。

目錄