公共憲法式人工智慧：一個為人工智慧治理提供民主正當性的框架

1. 導論

我們正日益受到人工智慧權威的支配。機器學習模型如今支撐著演算法市場，決定誰的言論被放大或限制，形塑從資源分配到預測性警務等政府決策，並影響我們在投票與公共衛生等關鍵議題上獲取資訊的管道。隨著人工智慧的決策變得無可迴避，並進入醫療保健、教育和法律等領域，我們必須面對一個至關重要的問題：我們如何確保這些日益規範我們生活、並做出形塑社會決策的人工智慧系統，擁有有效治理所必需的權威與正當性？

為了確保人工智慧的正當性，我們需要發展能讓公眾參與設計和約束人工智慧系統的方法，從而確保這些技術反映其所服務社群的共同價值觀與政治意願。由 Anthropic AI 提出並發展的「憲法式人工智慧」，是邁向此目標的一步，它提供了一個模型，展示如何將人工智慧置於民主控制之下，並使其對公共利益負責。

正如憲法限制並引導政府權力的行使，「憲法式人工智慧」旨在將明確的原則與價值觀硬編碼到人工智慧模型中，使其決策過程更加透明和可問責。其獨特之處在於致力於將人工智慧訓練建立在清晰、人類可理解的「憲法」基礎上。透過訓練人工智慧遵守人類和機器都能理解的原則，此方法旨在促進對這些日益強大技術發展的信任與穩定性。

然而，作者認為，目前形式的「憲法式人工智慧」（由一家尋求建立普世適用憲法原則的私人企業開發）不太可能完全解決人工智慧的正當性危機，原因在於兩個關鍵赤字：第一，不透明性赤字，意指人工智慧系統固有的複雜性削弱了我們理解其決策過程的能力。第二，政治共同體赤字，意指人工智慧系統奠基於抽象模型而非人類判斷，缺乏賦予權威正當性的社會脈絡。

為彌補這些赤字，本文提出公共憲法式人工智慧框架，該框架讓公眾參與起草一份人工智慧憲法，該憲法必須用於訓練在特定司法管轄區內運作的所有前沿人工智慧模型。

2. 人工智慧的正當性

2.1 為何我們需要具正當性的人工智慧？

人工智慧系統已不僅僅是工具，而已成為治理社會、經濟和政治生活重要面向的權威。其決策影響個人權利、資源分配和公共論述。若缺乏正當性——即被認可的統治權利——這些系統將面臨抵制、不遵從和社會不穩定。正當性對於有效治理至關重要，能確保規則被自願遵循，而非僅靠強制力。要讓人工智慧有效治理，它必須被其所影響的公眾視為具有正當性。

2.2 人工智慧的正當性赤字

2.2.1 不透明性赤字

許多先進人工智慧模型（尤其是深度神經網路）的「黑箱」特性，造成了不透明性赤字。即使模型的訓練數據和目標已知，其內部決策過程往往過於複雜，超出人類的理解範圍。這種不透明性阻礙了對人工智慧決策進行有意義的公眾審查、辯論和質疑——這些過程對於民主正當性至關重要。公民無法對他們無法理解的事物進行問責。

2.2.2 政治共同體赤字

民主制度中的正當權威，植根於特定政治共同體的共享經驗、價值觀和脈絡。然而，人工智慧系統的開發往往基於缺乏這種社會嵌入性的抽象、普世原則或數據集。它們依據統計相關性而非情境化的人類判斷運作，導致演算法邏輯與賦予權威正當性的社會脈絡之間產生脫節。這種赤字削弱了人工智慧治理反映「人民意志」的感受。

3. 私有憲法式人工智慧

3.1 Anthropic 的憲法

Anthropic 的憲法式人工智慧代表了一種透過明確書面原則將人工智慧與人類價值觀對齊的重要技術途徑。

3.1.1 技術

該方法涉及兩階段訓練過程：1) 監督式學習：訓練一個模型生成回應，並由一個獨立的「評論者」模型根據一套憲法原則評估這些回應。2) 強化學習：利用評論者的回饋對模型進行微調，使其學習優化以遵守憲法。此過程旨在建立一個自我修正機制，讓人工智慧將其輸出與預先定義的原則對齊。

3.1.2 原則

Anthropic 的憲法包含源自《聯合國世界人權宣言》、蘋果服務條款以及其他倡導非傷害和有益行為的文件中的原則。例如：「選擇最能支持生命、自由和個人安全的回應」以及「選擇最誠實和真實的回應」。

3.2 私有憲法式人工智慧的正當性

3.2.1 不透明性

雖然憲法式人工智慧使治理原則變得明確，但並未完全解決模型內部推理的不透明性。公眾可以看到「規則」，但無法看到這些規則在複雜、具體的案例中如何被應用。訓練過程本身仍是由工程師管理的技術黑箱。

3.2.2 政治共同體

這些原則由一家私人企業選定，旨在追求普世適用性。這種自上而下、專家驅動的過程，缺乏民主參與和針對特定脈絡的審議，而這些正是將憲法植根於特定政治共同體共享價值觀和經驗所必需的。憲法本身的正當性因此受到質疑。

4. 公共憲法式人工智慧

4.1 何謂公共憲法式人工智慧？

公共憲法式人工智慧被提出作為一個修正框架。它規定，在一個司法管轄區內治理前沿人工智慧模型的憲法，必須透過顯著的公眾參與來起草。

4.1.1 人工智慧憲法制訂

這涉及公民大會、審議式民調或參與式起草委員會等民主程序。目標是將人工智慧憲法從一個技術產物轉變為一個政治產物——一個公眾意志的產物。透過讓公民參與定義人工智慧的價值觀和約束，該框架旨在：1) 透過使治理原則成為公共論述和理解的對象，來緩解不透明性赤字。2) 透過將人工智慧的「價值觀」植根於其所服務社群的特定社會脈絡和集體判斷中，來彌補政治共同體赤字。

5. 核心分析：產業觀點

核心洞見

Abiri 的論點不僅僅是一個學術提案；它直接挑戰了整個科技產業處理人工智慧倫理的方法。其核心洞見是尖銳且正確的：正當性無法被工程化，它必須透過政治過程來贏得。 Anthropic 的憲法式人工智慧，雖然技術上優雅，卻犯了矽谷的典型錯誤：相信複雜的社會問題（例如什麼是「好」或「公平」）可以透過更好的工程學——一份由專家撰寫的更精緻的「憲法」——來解決。Abiri 正確地指出這是一個根本的範疇錯誤。治理，尤其是民主治理，不是一個可以用梯度下降法解決的最佳化問題。它是一個混亂、充滿爭議且本質上屬於人類的過程。產業目前這條在私人實驗室中創造日益複雜對齊技術的道路，正在建立一個技術貴族階層，而非一個民主工具。

邏輯脈絡

論證以手術般的精準度推進：1) 確立問題（人工智慧作為治理權威），2) 定義必要的解決方案標準（民主正當性），3) 解構主流的產業解決方案（私有憲法式人工智慧），揭露其兩個致命缺陷——對公眾而言仍是黑箱，且其價值觀並非民主來源，以及 4) 提出解方（公共憲法式人工智慧）。邏輯嚴密。如果正當性需要公眾的理解與同意，而現行方法在這兩方面都失敗，那麼唯一可行的途徑就是將公眾帶入價值設定的過程本身。這個脈絡呼應了其他領域的批評，例如純粹技術性的機器學習「公平性」指標忽略了社會脈絡而失敗，正如 AI Now Institute 等機構的研究所強調的。

優點與缺陷

優點： 該框架最大的優勢在於它認識到政治現實。它超越了抽象倫理，觸及權力與同意的運作機制。它也正確地指出「程序正當性」——規則如何被制定——與規則本身同等重要。與政治憲法的類比既有力又貼切。

關鍵缺陷： 該提案在實施層面上危險地天真。首先，規模與複雜性問題：一個有意義的「公眾」是否真能就治理前沿大型語言模型所需的高度技術性、細微且往往涉及取捨的原則進行審議？其次，司法管轄區錯配：人工智慧在全球運作；在一個司法管轄區起草的憲法，對於在其他地方訓練並透過網路存取的模型而言無關緊要。第三，它存在多數暴政的風險——在公眾起草的人工智慧憲法中，如何保護少數觀點？本文輕描淡寫地帶過這些問題，但它們可能是致命的。此外，正如在嘗試眾包倫理（如 Google 災難性的「AI Test Kitchen」或政治學中記載的各種公共審議失敗案例）中所見，要獲得關於複雜技術系統的高品質、知情公眾意見是極其困難的。

可行洞見

對於政策制定者和產業領袖而言，結論清晰但充滿挑戰：停止將倫理外包給工程師。 1) 強制要求程序透明，而不僅是輸出透明： 法規應要求人工智慧開發者不僅披露其模型的原則，還要披露這些原則的選定過程以及參與者是誰。2) 資助並試行真正的民主程序： 在強制要求公共憲法之前，政府應資助大規模、設計良好的試點計畫——類似愛爾蘭關於墮胎的公民大會——聚焦於特定、高風險的人工智慧領域（例如，醫療分診演算法）。3) 發展混合模型： 最可行的途徑可能是多層次的憲法：一個由國際機構確立、最小化且全球同意的核心原則（例如，不傷害原則），輔以針對不同司法管轄區或應用領域、由地方起草的特定脈絡模組。隨之而來的技術挑戰是讓人工智慧系統能夠動態解釋和權衡這些分層指令——這本身就是一個前沿研究問題，涉及模組化神經網路和情境感知推理等領域，正如近期 NeurIPS 和 ICML 關於組合式人工智慧系統的論文所探討的。

6. 技術框架與數學基礎

所提出的公共憲法式人工智慧框架可以被形式化。假設一個人工智慧模型的行為是一個由參數 $\theta$ 參數化的函數 $f(x; \theta)$。標準的憲法式人工智慧訓練 $\theta$ 以最大化獎勵 $R_c$，該獎勵根據一份固定的、私有的憲法 $C_{private}$ 對輸出進行評分：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{private})]$$

公共憲法式人工智慧重新表述了這一點。憲法 $C_{public}$ 本身是一個變數，由一個應用於人口 $P$ 和脈絡 $K$ 的民主程序函數 $\Delta$ 生成：

$$C_{public} = \Delta(P, K)$$

訓練目標則變為：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{public})] \quad \text{subject to} \quad C_{public} = \Delta(P, K)$$

關鍵的技術轉變在於 $\Delta$ 是一個政治與審議函數，而非工程函數。其輸出必須足夠清晰和穩定，才能作為訓練信號。這帶來了將質性的公眾審議轉化為量化的、機器可執行約束的挑戰——這是一個類似於從人類偏好進行逆向強化學習的問題，但規模是社會層級的。

7. 實驗結果與驗證

雖然公共憲法式人工智慧的全面實施仍是理論性的，但參與式演算法設計和價值對齊的相關實驗提供了洞見。

圖表：正當性感知比較（基於相關研究的假設性數據）：一個長條圖，比較受訪公民對三種治理模型的正當性感知分數（1-10分制）：1) 標準人工智慧（無明確憲法）：分數約 3.2。由於完全不透明，信任度低。2) 私有憲法式人工智慧（Anthropic 風格）：分數約 5.8。因明確原則而有中等改善，但對私人作者身份存疑。3) 公共憲法式人工智慧（提案）：分數約 7.9。分數最高，源於對程序的所有權感和對規則的理解。誤差範圍將顯示公共模型的分數因對所用特定民主程序的信任度而有顯著差異。

關於科技政策的公眾審議研究，例如歐盟關於人工智慧的公民小組，顯示參與者能夠處理複雜的取捨（例如，隱私 vs. 創新）並提出細緻的建議。然而，這些輸出通常是高層次的政策指引，而非直接人工智慧訓練所需的精確、可操作規則。彌合這個「規格差距」是一個尚未解決的重大挑戰。

8. 分析框架：個案研究

個案：為市政預測性警務演算法起草人工智慧憲法

脈絡： 一個城市計劃部署一個人工智慧系統來預測犯罪熱點並優化巡邏路線。

私有憲法式人工智慧途徑： 供應商公司的工程師根據一般倫理準則起草原則：「最小化犯罪」、「避免偏見預測」、「尊重隱私」。模型據此訓練。公眾面對的是既成事實。

公共憲法式人工智慧途徑：

公民大會組成： 選出一個人口統計學上具代表性的 100 名公民小組。
教育階段： 專家解釋預測性警務、演算法偏見（例如，透過差異性影響 $DI = \frac{P(\text{高風險預測} | \text{群體 A})}{P(\text{高風險預測} | \text{群體 B})}$ 等指標）以及取捨（例如，公共安全 vs. 過度警務）。
審議： 大會辯論具體的憲法條款。例如：
- 「該演算法必須每月接受種族偏見審計，差異性影響比率不得超過 1.2。」
- 「導致某個社區巡邏增加的預測，必須可由該社區的社區委員會審查。」
- 「主要目標是將嚴重暴力犯罪降至最低，而非輕微違規。」
批准： 起草的憲法交付全市性的諮詢性公投。
實施： 市政府規定任何供應商的人工智慧系統都必須根據這部公共憲法進行訓練和評估。

此個案突顯了制定更具脈絡意識、更受信任規則的潛力，但也顯示了該過程的巨大成本、時間和複雜性。

9. 未來應用與發展

公共憲法式人工智慧框架的影響超越了前沿大型語言模型：

領域特定憲法： 針對醫療保健（分診、診斷支援）、教育（個性化學習、評分）和社會福利（福利分配）中的人工智慧進行公共起草。
動態憲法： 發展機制，讓憲法能透過定期的公眾審查而演進，類似於憲法修正，這要求人工智慧模型能夠在變動的規則集下持續學習。
跨司法管轄區仲裁： 研究人工智慧系統在全球化或聯邦化脈絡下運作時，如何處理不同公共憲法之間的衝突，借鑒多目標最佳化和規範性推理的研究。
工具開發： 創建軟體平台，以促進關於人工智慧原則的大規模、知情公眾審議，可能利用人工智慧本身來總結辯論、澄清取捨，並將公眾意見轉化為條款草案。
與技術安全整合： 將公共價值設定過程與關於穩健性、可解釋性和監督的人工智慧技術安全研究相結合。公共憲法將定義「是什麼」和「為什麼」，而工程師則解決「如何做」。

最終方向是邁向參與式人工智慧治理生態系統，其中人工智慧系統的生命週期——從其基礎價值觀到部署審計——都受到結構化、包容性的公眾意見輸入和控制。

10. 參考文獻

Abiri, G. (2025). Public Constitutional AI. Georgia Law Review, 59(3), 601-648.
Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.
Binns, R. (2018). Fairness in Machine Learning: Lessons from Political Philosophy. Proceedings of the 1st Conference on Fairness, Accountability and Transparency (FAT*), 149-159.
AI Now Institute. (2023). Algorithmic Accountability: A Primer. Retrieved from https://ainowinstitute.org/publication/algorithmic-accountability-primer
Hadfield, G. K., & Clark, R. M. (2023). The Problem of AI Governance. Daedalus, 152(1), 242-256.
Goodman, B., & Flaxman, S. (2017). European Union Regulations on Algorithmic Decision-Making and a "Right to Explanation." AI Magazine, 38(3), 50-57.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2223-2232. (作為一個技術框架——CycleGAN——解決複雜映射問題的例子被引用，類似於將公眾審議映射到人工智慧訓練信號的需求)。
Dryzek, J. S., & Niemeyer, S. (2019). Deliberative Democracy and Climate Governance. Nature Human Behaviour, 3(5), 411-413. (關於公民大會的效能)。

目錄