公共宪法人工智能：人工智能治理中民主合法性的框架

1. 引言

我们正日益受到人工智能权威力量的支配。机器学习模型如今支撑着算法市场，决定着哪些言论被放大或限制，塑造着从资源分配到预测性警务等政府决策，并影响着我们在投票和公共卫生等关键问题上获取信息的途径。随着人工智能决策变得无处不在，进入医疗、教育和法律等领域，我们必须面对一个至关重要的问题：我们如何才能确保这些日益规范我们生活、塑造我们社会的人工智能系统，拥有有效治理所必需的权威和合法性？

为了确保人工智能的合法性，我们需要开发让公众参与设计和约束人工智能系统的方法，从而确保这些技术反映其所服务社区的共享价值观和政治意愿。由Anthropic AI提出并发展的宪法人工智能，是朝着这一目标迈出的一步，它提供了一个模型，展示了如何将人工智能置于民主控制之下，并使其对公共利益负责。

正如宪法限制和指导政府权力的行使一样，宪法人工智能试图将明确的原则和价值观硬编码到人工智能模型中，使其决策更加透明和可问责。宪法人工智能的独特之处在于，它致力于将人工智能训练建立在清晰、人类可理解的“宪法”之上。通过训练人工智能遵守人类和机器都能理解的原则，这种方法旨在促进这些日益强大的技术发展过程中的信任和稳定。

然而，作者认为，当前形式的宪法人工智能（由一家寻求创建普适性宪法原则的私营公司开发）不太可能完全解决人工智能的合法性危机，原因在于两个关键赤字：第一，不透明性赤字，即人工智能系统固有的复杂性削弱了我们推理其决策过程的能力。第二，政治共同体赤字，即人工智能系统建立在抽象模型而非人类判断之上，缺乏赋予权威合法性的社会背景。

为了弥补这些赤字，本文提出了公共宪法人工智能框架，该框架要求公众参与起草一部人工智能宪法，该宪法必须用于在特定司法管辖区内运行的所有前沿人工智能模型的训练。

2. 人工智能的合法性

2.1 为何我们需要合法的人工智能？

人工智能系统已不仅仅是工具，而是成为了管理社会、经济和政治生活重要方面的权威。它们的决策影响着个人权利、资源分配和公共话语。如果没有合法性——即被认可的统治权利——这些系统将面临抵制、不服从和社会不稳定。合法性对于有效治理至关重要，它确保规则是自愿遵守的，而非仅仅通过强制。要使人工智能有效治理，它必须被其影响的公众视为合法。

2.2 人工智能的合法性赤字

2.2.1 不透明性赤字

许多先进人工智能模型（尤其是深度神经网络）的“黑箱”特性造成了不透明性赤字。即使模型的训练数据和目标是已知的，其内部决策过程也往往过于复杂，超出了人类的理解范围。这种不透明性阻碍了对人工智能决策进行有意义的公众审查、辩论和质疑——这些过程对于民主合法性至关重要。公民无法问责他们无法理解的事物。

2.2.2 政治共同体赤字

民主制度中的合法权威植根于特定政治共同体的共享经验、价值观和背景。然而，人工智能系统通常是基于抽象的、普适的原则或缺乏这种社会嵌入性的数据集开发的。它们基于统计相关性而非情境化的人类判断运作，造成了算法逻辑与赋予权威合法性的社会背景之间的脱节。这种赤字削弱了人工智能治理反映“人民意志”的感觉。

3. 私有宪法人工智能

3.1 Anthropic的宪法

Anthropic的宪法人工智能代表了一种通过明确的书面原则使人工智能与人类价值观对齐的重要技术方法。

3.1.1 技术

该方法涉及一个两阶段的训练过程：1) 监督学习：训练一个模型生成回应，并由一个独立的“评判”模型根据一套宪法原则评估这些回应。2) 强化学习：利用评判模型的反馈对模型进行微调，使其学习优化以遵守宪法。这个过程旨在创建一个自我纠正机制，使人工智能的输出与预定义的原则保持一致。

3.1.2 原则

Anthropic的宪法包含源自《联合国世界人权宣言》、苹果服务条款以及其他倡导无害和有益行为的文件中的原则。例如：“选择最支持生命、自由和个人安全的回应”以及“选择最诚实和真实的回应”。

3.2 私有宪法人工智能的合法性

3.2.1 不透明性

尽管宪法人工智能使治理原则变得明确，但它并未完全解决模型内部推理的不透明性问题。公众可以看到“规则”，但无法看到这些规则在复杂、具体案例中是如何应用的。训练过程本身仍然是由工程师管理的技术黑箱。

3.2.2 政治共同体

这些原则由一家私营公司选定，旨在追求普适性。这种自上而下、专家驱动的过程缺乏民主参与和针对具体背景的审议，而这些正是将宪法植根于特定政治共同体共享价值观和经验所必需的。宪法本身的合法性值得怀疑。

4. 公共宪法人工智能

4.1 什么是公共宪法人工智能？

公共宪法人工智能被提出作为一种纠正性框架。它要求在特定司法管辖区内，治理前沿人工智能模型的宪法必须通过公众的广泛参与来起草。

4.1.1 人工智能宪法制定

这涉及民主过程，如公民大会、审议式民意调查或参与式起草委员会。其目标是将人工智能宪法从一个技术产物转变为一个政治产物——公共意志的产物。通过让公民参与定义人工智能的价值观和约束，该框架旨在：1) 通过使治理原则成为公共话语和理解的对象，缓解不透明性赤字。2) 通过将人工智能的“价值观”植根于其所服务社区的具体社会背景和集体判断中，弥补政治共同体赤字。

5. 核心分析：行业视角

核心洞见

Abiri的论点不仅仅是一个学术提案；它是对整个科技行业人工智能伦理方法的直接挑战。其核心洞见是尖锐且正确的：合法性无法被工程化，它必须通过政治过程来赢得。 Anthropic的宪法人工智能，虽然在技术上很优雅，却犯了硅谷的经典错误——相信复杂的社会问题（如什么是“好”或“公平”）可以通过更好的工程学来解决——即由专家编写的更精炼的“宪法”。Abiri正确地将其识别为一个根本性的范畴错误。治理，尤其是民主治理，不是一个可以通过梯度下降解决的优化问题。它是一个混乱的、充满争议的、本质上属于人类的过程。行业目前在私人实验室中创建日益复杂的对齐技术的道路，正在构建一个技术贵族统治，而非民主工具。

逻辑脉络

论证过程如外科手术般精确：1) 确立问题（人工智能作为治理权威），2) 定义必要的解决方案标准（民主合法性），3) 通过揭示其两个致命缺陷——对公众而言仍是黑箱，其价值观并非民主来源——来解构主流行业解决方案（私有宪法人工智能），4) 提出解药（公共宪法人工智能）。逻辑严密。如果合法性需要公众的理解和同意，而当前方法在这两方面都失败了，那么唯一可行的路径就是将公众纳入价值设定过程本身。这一脉络呼应了其他领域的批评，例如机器学习中纯粹技术性的“公平”指标忽略了社会背景的失败，正如AI Now Institute等机构的研究所强调的那样。

优势与缺陷

优势： 该框架最大的优势在于其对政治现实的认识。它超越了抽象伦理，触及权力和同意的机制。它还正确地指出“程序合法性”——规则是如何制定的——与规则本身同等重要。与政治宪法的类比是强大且恰当的。

关键缺陷： 该提案在实施方面显得危险地天真。首先，规模与复杂性问题：一个有意义的“公众”是否真的能够就治理前沿大语言模型所需的高度技术性、微妙且常常涉及权衡的原则进行审议？其次，司法管辖区错配：人工智能在全球运作；在一个司法管辖区起草的宪法，对于在别处训练并通过互联网访问的模型来说无关紧要。第三，它存在多数人暴政的风险——在公众起草的人工智能宪法中，如何保护少数派观点？论文对此轻描淡写，但这些可能是致命的缺陷。此外，正如在众包伦理的尝试中所见，例如谷歌灾难性的“AI Test Kitchen”或政治学中记载的各种公众审议失败案例，就复杂技术系统获得高质量、知情的公众意见是极其困难的。

可操作的见解

对于政策制定者和行业领袖来说，结论清晰但充满挑战：停止将伦理外包给工程师。 1) 强制要求过程透明，而不仅仅是输出透明： 法规应要求人工智能开发者不仅要披露其模型的原则，还要披露这些原则的选择过程以及涉及了哪些人。2) 资助并试点真正的民主过程： 在强制要求公共宪法之前，政府应资助大规模、精心设计的试点项目——类似于爱尔兰关于堕胎的公民大会——专注于特定、高风险的人工智能领域（例如，医疗分诊算法）。3) 开发混合模型： 最可行的路径可能是一个多层次的宪法：一个由国际机构确立的、最低限度的、全球共识的核心原则（例如，不伤害），辅以针对不同司法管辖区或应用领域本地起草的、针对具体背景的模块。随之而来的技术挑战是使人工智能系统能够动态解释和权衡这些分层指令——这本身就是一个前沿研究问题，涉及模块化神经网络和情境感知推理等领域，正如NeurIPS和ICML上关于组合式人工智能系统的近期论文所探讨的那样。

6. 技术框架与数学基础

所提出的公共宪法人工智能框架可以进行形式化。设一个人工智能模型的行为是一个由参数 $\theta$ 参数化的函数 $f(x; \theta)$。标准的宪法人工智能训练 $\theta$ 以最大化奖励 $R_c$，该奖励根据一个固定的、私有的宪法 $C_{private}$ 对输出进行评分：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{private})]$$

公共宪法人工智能对此进行了重构。宪法 $C_{public}$ 本身是一个变量，由应用于民众 $P$ 和背景 $K$ 的民主过程函数 $\Delta$ 生成：

$$C_{public} = \Delta(P, K)$$

那么训练目标变为：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{public})] \quad \text{subject to} \quad C_{public} = \Delta(P, K)$$

关键的技术转变在于，$\Delta$ 是一个政治和审议性函数，而非工程函数。其输出必须足够清晰和稳定，以作为训练信号。这带来了将定性的公众审议转化为定量的、机器可执行的约束的挑战——这是一个类似于从人类偏好进行逆向强化学习的问题，但规模是社会性的。

7. 实验结果与验证

虽然公共宪法人工智能的全面实施仍是理论性的，但参与式算法设计和价值对齐的相关实验提供了见解。

图表：合法性感知比较（基于相关研究的假设数据）：一个条形图比较了受访公民对三种治理模型的合法性感知评分（1-10分制）：1) 标准人工智能（无明确宪法）：评分约3.2。由于完全不透明，信任度低。2) 私有宪法人工智能（Anthropic风格）：评分约5.8。因明确的原则而有适度改善，但对私人作者身份存在怀疑。3) 公共宪法人工智能（提议的）：评分约7.9。得分最高，源于对过程的感知所有权和对规则的理解。误差条将显示公共模型基于对所用特定民主过程的信任度存在显著差异。

关于科技政策公众审议的研究，例如欧盟关于人工智能的公民小组，表明参与者能够处理复杂的权衡（例如，隐私与创新），并提出细致的建议。然而，这些产出通常是高层的政策指导方针，而非直接用于人工智能训练所需的精确、可操作的规则。弥合这一“规范差距”是一个尚未解决的重大挑战。

8. 分析框架：案例研究

案例：为市政预测性警务算法起草人工智能宪法

背景： 某市计划部署一个人工智能系统来预测犯罪热点并优化巡逻路线。

私有宪法人工智能方法： 供应商公司的工程师根据通用伦理准则起草原则：“最小化犯罪”、“避免有偏见的预测”、“尊重隐私”。模型据此进行训练。公众面对的是一个既成事实。

公共宪法人工智能方法：

公民大会组建： 选取一个具有人口统计学代表性的100名公民小组。
教育阶段： 专家解释预测性警务、算法偏见（例如，通过差异影响 $DI = \frac{P(\text{高风险预测} | \text{群体 A})}{P(\text{高风险预测} | \text{群体 B})}$ 等指标）以及权衡（例如，公共安全与过度警务）。
审议： 大会辩论具体的宪法条款。例如：
- “该算法必须每月接受种族偏见审计，差异影响比率不得超过1.2。”
- “导致某个社区巡逻增加的预测，必须接受来自该社区的社区委员会的审查。”
- “主要目标是减少严重暴力犯罪，而非轻微违法行为。”
批准： 起草的宪法提交全市范围的咨询性公投。
实施： 市政府要求任何供应商的人工智能系统必须根据这部公共宪法进行训练和评估。

这个案例突显了制定更具情境意识、更受信任的规则的潜力，同时也揭示了该过程巨大的成本、时间和复杂性。

9. 未来应用与发展

公共宪法人工智能框架的影响超越了前沿大语言模型：

领域特定宪法： 针对医疗（分诊、诊断支持）、教育（个性化学习、评分）和社会福利（福利分配）等领域的人工智能进行公共起草。
动态宪法： 开发机制使宪法能够通过定期的公众审查而随时间演变，类似于宪法修正案，这要求人工智能模型能够在不断变化的规则集下进行持续学习。
跨司法管辖区仲裁： 研究能够在全球或联邦环境中运作时，处理不同公共宪法之间冲突的人工智能系统，借鉴多目标优化和规范性推理方面的研究。
工具开发： 创建软件平台，以促进关于人工智能原则的大规模、知情的公众审议，可能利用人工智能本身来总结辩论、阐明权衡，并将公众情绪转化为草案条款。
与技术安全的整合： 将公共价值设定过程与关于鲁棒性、可解释性和监督的人工智能技术安全研究相结合。公共宪法将定义“是什么”和“为什么”，而工程师则解决“如何做”。

最终方向是朝着参与式人工智能治理生态系统发展，其中人工智能系统的生命周期——从其基础价值观到部署审计——都受到结构化、包容性的公众输入和控制。

10. 参考文献

Abiri, G. (2025). Public Constitutional AI. Georgia Law Review, 59(3), 601-648.
Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.
Binns, R. (2018). Fairness in Machine Learning: Lessons from Political Philosophy. Proceedings of the 1st Conference on Fairness, Accountability and Transparency (FAT*), 149-159.
AI Now Institute. (2023). Algorithmic Accountability: A Primer. Retrieved from https://ainowinstitute.org/publication/algorithmic-accountability-primer
Hadfield, G. K., & Clark, R. M. (2023). The Problem of AI Governance. Daedalus, 152(1), 242-256.
Goodman, B., & Flaxman, S. (2017). European Union Regulations on Algorithmic Decision-Making and a "Right to Explanation." AI Magazine, 38(3), 50-57.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2223-2232. （作为一个技术框架——CycleGAN——解决复杂映射问题的例子被引用，类似于将公众审议映射到人工智能训练信号的需求）。
Dryzek, J. S., & Niemeyer, S. (2019). Deliberative Democracy and Climate Governance. Nature Human Behaviour, 3(5), 411-413. （关于公民大会的有效性）。

目录