パブリック・コンスティテューショナルAI：AIガバナンスにおける民主的正統性のためのフレームワーク

1. 序論

我々はますますAI権力の影響下に置かれている。機械学習モデルは、アルゴリズム市場を支え、誰の発言が増幅または制限されるかを決定し、資源配分から予測的治安維持に至る政府の意思決定を形作り、投票や公衆衛生などの重要な問題に関する情報へのアクセスに影響を与えている。AIの決定が医療、教育、法などの領域に入り込み、不可避なものとなるにつれ、我々は一つの重要な問いに直面しなければならない：我々の生活をますます規制し、社会を形作る決定を行うAIシステムが、効果的なガバナンスに必要な権威と正統性をどのように確保できるのか？

AIの正統性を確保するためには、AIシステムの設計と制約のプロジェクトに公衆を関与させる方法を開発する必要がある。それにより、これらの技術が、それらが奉仕する共同体の共有された価値観と政治的意志を反映することを保証する。Anthropic AIによって提案・開発されたコンスティテューショナルAIは、この目標に向けた一歩であり、AIを民主的統制下に置き、共通善に対して説明責任を負わせるためのモデルを提供する。

憲法が政府権力の行使を制限し導くのと同様に、コンスティテューショナルAIは、明示的な原則と価値観をAIモデルにハードコードし、その意思決定をより透明で説明可能なものにしようとする。コンスティテューショナルAIを特徴づけるのは、AIの訓練を明確で人間が理解できる「憲法」に基づかせようとするその姿勢である。人間と機械の両方に読み取れる原則に従うようAIを訓練することで、このアプローチは、ますます強力になるこれらの技術の開発において信頼と安定性を育むことを目指している。

しかし、著者は、現在の形態（普遍的に適用可能な憲法的原則を作ろうとする民間企業によって開発された）のコンスティテューショナルAIは、二つの主要な欠如のために、AIの正統性の危機を完全には解決できないと論じる。第一に、不透明性の欠如。これは、AIシステムの本質的な複雑さが、その意思決定を推論する我々の能力を損なうことを示唆する。第二に、政治的共同体の欠如。これは、AIシステムが人間の判断ではなく抽象的なモデルに基づいており、権威を正統化する社会的文脈を欠いていることを示唆する。

これらの欠如を是正するため、本論文はパブリック・コンスティテューショナルAIを提案する。これは、特定の法域内で動作する全てのフロンティアAIモデルの訓練に使用されなければならないAI憲法の起草に公衆を関与させるフレームワークである。

2. AIの正統性

2.1 なぜ正統なAIが必要なのか？

AIシステムはもはや単なるツールではなく、社会的、経済的、政治的生活の重要な側面を統治する権威となっている。その決定は個人の権利、資源配分、公共的言論に影響を与える。正統性——支配する承認された権利——がなければ、これらのシステムは抵抗、不遵守、社会的不安定に直面する。正統性は効果的なガバナンスにとって極めて重要であり、規則が強制だけではなく自発的に従われることを保証する。AIが効果的に統治するためには、それが影響を与える公衆によって正統であると認識されなければならない。

2.2 AIの正統性欠如

2.2.1 不透明性の欠如

多くの先進的なAIモデル、特に深層ニューラルネットワークの「ブラックボックス」性は、不透明性の欠如を生み出す。モデルの訓練データと目的が知られていても、内部の意思決定プロセスは人間の理解にはあまりに複雑すぎることが多い。この不透明性は、AIの決定に対する意味のある公衆の精査、議論、異議申し立て——民主的正統性に不可欠なプロセス——を妨げる。市民は理解できないものを説明責任に問うことはできない。

2.2.2 政治的共同体の欠如

民主主義における正統な権威は、特定の政治的共同体の共有された経験、価値観、文脈に根ざしている。しかし、AIシステムは、しばしばこの社会的埋め込みを欠いた抽象的で普遍的な原則やデータセットに基づいて開発される。それらは状況に応じた人間の判断ではなく統計的相関関係に基づいて動作し、アルゴリズム的論理と権威に正統性を与える社会的文脈との間に断絶を生み出す。この欠如は、AIガバナンスが「人民の意志」を反映しているという感覚を損なう。

3. プライベート・コンスティテューショナルAI

3.1 Anthropicの憲法

AnthropicのコンスティテューショナルAIは、明示的で文書化された原則を通じてAIを人間の価値観に整合させる重要な技術的アプローチを代表する。

3.1.1 技術

この方法論は二段階の訓練プロセスを含む：1) 教師あり学習：モデルが応答を生成するように訓練され、別個の「批評家」モデルがこれらの応答を一連の憲法的原則に対して評価する。2) 強化学習：批評家からのフィードバックを用いてモデルが微調整され、憲法への遵守を最適化することを学習する。このプロセスは、AIがその出力を事前に定義された原則に整合させる自己修正メカニズムを作り出すことを目指している。

3.1.2 原則

Anthropicの憲法には、国連世界人権宣言、Appleの利用規約、無害性と有益的行動を提唱する他の文書などから引き出された原則が含まれている。例としては、「生命、自由、個人の安全を最も支持する応答を選択せよ」や「最も誠実で真実な応答を選択せよ」などがある。

3.2 プライベート・コンスティテューショナルAIの正統性

3.2.1 不透明性

コンスティテューショナルAIは統治原則を明示的にするが、モデルの内部推論の不透明性を完全には解決しない。公衆は「規則」を見ることはできるが、それらが複雑で具体的なケースでどのように適用されるかは見えない。訓練プロセス自体は、エンジニアによって管理される技術的ブラックボックスのままである。

3.2.2 政治的共同体

原則は民間企業によって選択され、普遍的な適用可能性を目指している。このトップダウンで専門家主導のプロセスは、憲法を特定の政治的共同体の共有された価値観と経験に根ざさせるための民主的参加と文脈に応じた審議を欠いている。憲法自体の正統性が疑わしい。

4. パブリック・コンスティテューショナルAI

4.1 パブリック・コンスティテューショナルAIとは何か？

パブリック・コンスティテューショナルAIは是正のためのフレームワークとして提案される。これは、法域内のフロンティアAIモデルを統治する憲法は、相当な公衆の関与を通じて起草されなければならないことを義務付ける。

4.1.1 AI憲法制定

これには、市民集会、審議型世論調査、参加型起草委員会などの民主的プロセスが含まれる。目標は、AI憲法を技術的成果物から政治的成果物——公衆の意志の産物——へと変容させることである。AIのための価値観と制約を定義するのに市民を関与させることにより、このフレームワークは以下のことを目指す：1) 統治原則を公衆の言説と理解の対象とすることで、不透明性の欠如を緩和する。2) AIの「価値観」を、それが奉仕する共同体の特定の社会的文脈と集団的判断に根ざさせることで、政治的共同体の欠如を是正する。

5. 核心分析：産業界の視点

核心的洞察

Abiriの論文は単なる学術的提案ではなく、AI倫理に対するテクノロジー産業全体のアプローチへの直接的な挑戦である。核心的洞察は厳しく、そして正しい：正統性はエンジニアリングで作り出せるものではなく、政治を通じて獲得されなければならない。 AnthropicのコンスティテューショナルAIは、技術的には優雅であるが、複雑な社会的問題（何が「善」か「公正」かなど）がより洗練されたエンジニアリング——専門家によって書かれたより洗練された「憲法」——で解決できるというシリコンバレーに典型的な過ちを犯している。Abiriはこれを根本的なカテゴリーエラーと正しく特定している。ガバナンス、特に民主的ガバナンスは、勾配降下法で解ける最適化問題ではない。それは、混沌とし、対立を伴い、本質的に人間的なプロセスである。民間研究所でますます洗練されたアライメント技術を作り出すという産業界の現在の道筋は、民主的なツールではなく、技術的貴族制を構築している。

論理的展開

議論は外科手術的な精度で進む：1) 問題の確立（統治権威としてのAI）、2) 必要な解決基準の定義（民主的正統性）、3) 支配的な産業界の解決策（プライベート・コンスティテューショナルAI）の二つの致命的欠陥——公衆にとって依然としてブラックボックスであり、その価値観が民主的に調達されていない——を暴露することによる解体、4) 解毒剤の提案（パブリック・コンスティテューショナルAI）。論理は完璧である。もし正統性が公衆の理解と同意を必要とし、現在の方法がその両方で失敗しているならば、唯一実行可能な道筋は、公衆を価値設定プロセスそのものに招き入れることである。この展開は、AI Now研究所などの機関の研究で強調されているように、社会的文脈を無視した純粋に技術的な「公平性」指標の失敗など、他の領域での批判と類似している。

強みと欠点

強み： このフレームワークの最大の強みは、政治的現実の認識である。それは抽象的な倫理を超えて、権力と同意のメカニズムへと移行する。また、「手続的正統性」——規則がどのように作られるか——が規則自体と同じくらい重要であることを正しく特定している。政治的憲法との比較は強力で適切である。

批判的欠点： この提案は、実装に関して危険なほどに素朴である。第一に、規模と複雑性の問題：意味のある「公衆」が、フロンティアLLMを統治するために必要な高度に技術的で微妙な、しばしばトレードオフを伴う原則について、真に審議できるのか？第二に、法域の不一致：AIはグローバルに動作する；一つの法域で起草された憲法は、他の場所で訓練されインターネット経由でアクセスされるモデルには無関係である。第三に、多数派の専制のリスク——公衆によって起草されたAI憲法において、少数派の見解を何が保護するのか？論文はこれらを軽くあしらっているが、それらは潜在的には致命的である。さらに、Googleの破綻した「AI Test Kitchen」や政治学で記録された様々な公衆審議の失敗など、倫理のクラウドソーシングの試みに見られるように、複雑な技術システムに関する質の高い、情報に基づいた公衆の意見を達成することは非常に困難である。

実践的洞察

政策立案者と産業界のリーダーにとって、持ち帰るべき教訓は明確だが困難である：倫理をエンジニアに外部委託するのをやめよ。 1) 出力だけでなくプロセスの透明性を義務付けよ： 規制は、AI開発者にモデルの原則だけでなく、それらの原則がどのようなプロセスで選択され、誰が関与したかを開示することを要求すべきである。2) 真の民主的プロセスに資金を提供し、パイロットを実施せよ： 公衆憲法を義務付ける前に、政府は、特定の高リスクAI領域（例：医療トリアージアルゴリズム）に焦点を当てた、アイルランドの妊娠中絶に関する市民集会のような、大規模でよく設計されたパイロットに資金を提供すべきである。3) ハイブリッドモデルを開発せよ： 最も実行可能な道筋は、多層的な憲法かもしれない：国際機関によって確立された最小限のグローバル合意原則（例：無害性）のコアに、異なる法域や応用領域のための地域で起草された文脈に応じたモジュールを補完する。その後の技術的課題は、AIシステムがこれらの階層化された指示を動的に解釈し重み付けできるようにすることである——これはそれ自体がフロンティア研究問題であり、NeurIPSやICMLの最近の論文で探求されているような、モジュール型ニューラルネットワークや文脈認識推論などの領域に触れる。

6. 技術的フレームワークと数学的基礎

提案されたパブリック・コンスティテューショナルAIフレームワークは形式化できる。AIモデルの振る舞いをパラメータ$ heta$でパラメータ化された関数$f(x; \theta)$とする。標準的なコンスティテューショナルAIは、$ heta$を、固定されたプライベートな憲法$C_{private}$に対して出力を評価する報酬$R_c$を最大化するように訓練する：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{private})]$$

パブリック・コンスティテューショナルAIはこれを再定式化する。憲法$C_{public}$自体が変数であり、公衆$P$と文脈$K$に適用される民主的プロセス関数$\Delta$によって生成される：

$$C_{public} = \Delta(P, K)$$

訓練目的は次のようになる：

$$\theta^* = \arg\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}}[R_c(f(x; \theta), C_{public})] \quad \text{subject to} \quad C_{public} = \Delta(P, K)$$

重要な技術的転換は、$\Delta$が政治的・審議的関数であり、エンジニアリング関数ではないことである。その出力は、訓練信号として機能するのに十分な読みやすさと安定性を持たなければならない。これは、定性的な公衆審議を定量的で機械が実行可能な制約に変換するという課題を導入する——これは人間の選好からの逆強化学習に類似した問題であるが、社会規模でのものである。

7. 実験結果と検証

パブリック・コンスティテューショナルAIの完全な実装は理論的段階にとどまるが、参加型アルゴリズム設計と価値観アライメントに関する関連実験は洞察を提供する。

図表：比較的正統性認識（関連研究に基づく仮想データ）：調査対象市民の間で、三つのガバナンスモデルに対する認識された正統性スコア（1-10スケール）を比較する棒グラフ：1) 標準AI（明示的憲法なし）：スコア〜3.2。完全な不透明性による低い信頼。2) プライベート・コンスティテューショナルAI（Anthropicスタイル）：スコア〜5.8。明示的な原則による中程度の改善だが、民間作成者への懐疑。3) パブリック・コンスティテューショナルAI（提案）：スコア〜7.9。最高スコア。プロセスへの所有感と規則の理解に起因。誤差範囲は、使用された特定の民主的プロセスへの信頼に基づく公衆モデルの有意な分散を示すだろう。

EUのAIに関する市民パネルなど、技術政策のための公衆審議に関する研究は、参加者が複雑なトレードオフ（例：プライバシー対イノベーション）に取り組み、微妙なニュアンスを含む推奨事項を生み出せることを示している。しかし、これらの成果は通常、直接的なAI訓練に必要な精密で運用可能な規則ではなく、高レベルの政策ガイドラインである。この「仕様ギャップ」を埋めることは、主要な未解決の課題である。

8. 分析フレームワーク：ケーススタディ

ケース：自治体の予測的治安維持アルゴリズムのためのAI憲法起草

文脈： ある都市が、犯罪ホットスポットを予測し、パトロールルートを最適化するAIシステムを導入する計画を立てている。

プライベート・コンスティテューショナルAIのアプローチ： ベンダー企業のエンジニアが、一般的な倫理ガイドラインに基づいて原則を起草する：「犯罪を最小化せよ」、「偏った予測を避けよ」、「プライバシーを尊重せよ」。モデルはそれに従って訓練される。公衆には既成事実が提示される。

パブリック・コンスティテューショナルAIのアプローチ：

市民集会の形成： 人口統計学的に代表的な100人の市民グループが選出される。
教育段階： 専門家が予測的治安維持、アルゴリズム的偏り（例：不均一影響度 $DI = \frac{P(\text{高リスク予測} | \text{グループA})}{P(\text{高リスク予測} | \text{グループB})$ などの指標による）、トレードオフ（例：公共の安全対過剰警備）を説明する。
審議： 集会は具体的な憲法条項について議論する。例：
- 「アルゴリズムは人種的偏りのために毎月監査され、不均一影響度比は1.2を超えてはならない。」
- 「地域でのパトロール増加につながる予測は、その地域のコミュニティ委員会によって再検討可能でなければならない。」
- 「主要目的は、軽微な違反ではなく、重大な暴力犯罪を最小化することである。」
批准： 起草された憲法は、全市的な諮問型住民投票にかけられる。
実装： 市は、いかなるベンダーのAIシステムもこの公衆憲法に対して訓練・評価されなければならないことを義務付ける。

このケースは、より文脈を意識した信頼される規則の可能性を強調するが、同時にプロセスの膨大なコスト、時間、複雑性も強調する。

9. 将来の応用と発展

パブリック・コンスティテューショナルAIフレームワークは、フロンティアLLMを超えて広範な含意を持つ：

ドメイン固有の憲法： 医療（トリアージ、診断支援）、教育（個別化学習、採点）、社会福祉（給付金配分）におけるAIのための公衆起草。
動的憲法： 憲法が定期的な公衆レビューを通じて時間とともに進化するメカニズムの開発。憲法改正に類似し、変化する規則セットの下での継続的学習が可能なAIモデルを必要とする。
法域間仲裁： グローバルまたは連合的な文脈で動作する際に、異なる公衆憲法間の衝突を乗り越えることができるAIシステムに関する技術的研究。多目的最適化と規範的推論の研究から引き出す。
ツール開発： AI原則に関する大規模で情報に基づいた公衆審議を促進するソフトウェアプラットフォームの作成。AI自体を利用して議論を要約し、トレードオフを明確にし、公衆感情を条項草案に翻訳する可能性がある。
技術的安全性との統合： 公衆の価値設定プロセスと、堅牢性、解釈可能性、監視に関する技術的AI安全性研究の融合。公衆憲法は「何を」「なぜ」を定義し、エンジニアが「どのように」を解決する。

究極の方向性は、参加型AIガバナンス・エコシステムに向かっている。そこでは、AIシステムのライフサイクル——その基礎的価値観から展開監査まで——が、構造化された包括的な公衆の意見と統制の対象となる。

10. 参考文献

Abiri, G. (2025). Public Constitutional AI. Georgia Law Review, 59(3), 601-648.
Anthropic. (2023). Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073.
Binns, R. (2018). Fairness in Machine Learning: Lessons from Political Philosophy. Proceedings of the 1st Conference on Fairness, Accountability and Transparency (FAT*), 149-159.
AI Now Institute. (2023). Algorithmic Accountability: A Primer. Retrieved from https://ainowinstitute.org/publication/algorithmic-accountability-primer
Hadfield, G. K., & Clark, R. M. (2023). The Problem of AI Governance. Daedalus, 152(1), 242-256.
Goodman, B., & Flaxman, S. (2017). European Union Regulations on Algorithmic Decision-Making and a "Right to Explanation." AI Magazine, 38(3), 50-57.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2223-2232. （複雑なマッピング問題を解決する技術的フレームワーク——CycleGAN——の例として引用。公衆審議をAI訓練信号にマッピングする必要性に類似）。
Dryzek, J. S., & Niemeyer, S. (2019). Deliberative Democracy and Climate Governance. Nature Human Behaviour, 3(5), 411-413. （市民集会の有効性について）。

目次