④ AIのセキュリティ確保のための技術的対策に係るガイドライン
④ AIのセキュリティ確保のための技術的対策に係るガイドライン
| 項目 | 内容 |
|---|---|
| タイトル | AIのセキュリティ確保のための技術的対策に係るガイドライン |
| 発行元 | 総務省 |
| 発行日 | 令和8年3月(2026年3月) |
| バージョン | 初版(別添の付属資料あり) |
| 対象者 | AI開発者・AI提供者(AI事業者ガイドラインが定義する事業者) |
| 総ページ数 | 25ページ(用語集含む) |
| リンクURL | https://www.soumu.go.jp/main_content/001064122.pdf |
📋 内容の詳細要約
策定背景
生成AIの急速な社会実装に伴い、AI自体へのサイバー攻撃リスクが顕在化。「デジタル社会の実現に向けた重点計画」(令和7年6月閣議決定)および「サイバーセキュリティ2025」に基づき、総務省がサイバーセキュリティタスクフォース傘下の「AIセキュリティ分科会」での検討(令和7年9月〜12月)を経て策定。
1. スコープ・位置づけ
- 主な対象AI:LLMおよびLLMを構成要素に含むAIシステム(AIエージェントは技術発展途上のため対象外)
- 他ガイドラインとの関係:「AI事業者ガイドライン」「AIセーフティに関する評価観点ガイド(AISI)」「レッドチーミング手法ガイド(AISI)」「デジタル庁の生成AI調達ガイドライン」と相互補完的な位置づけ
- セキュリティの定義:不正操作による機密情報漏えい・AIシステムの意図せぬ変更や停止が生じない状態の維持
2. 対象とする主な脅威
① プロンプトインジェクション攻撃
細工したプロンプトや参照データを用いてLLMに不正な出力をさせる攻撃。2種類に分類される。
| 種類 | 概要 | 手口の例 |
|---|---|---|
| 直接型 | 攻撃者が直接細工プロンプトを入力 | 指示の上書き、ロールプレイ、Unicode埋め込み、別タスクへの置き換え |
| 間接型 | LLMが参照する外部データに不正指示を仕込む | 細工したWebページ・メールを参照させる |
不正出力の例:RAGデータストアの内容漏えい、SQLインジェクション誘発、システムプロンプトの漏えい、誤情報の出力など。
② DoS攻撃(サービス拒否攻撃)
LLMに膨大な処理を要するプロンプトを送り込み、計算資源を枯渇させてサービスを遅延・停止させる攻撃。APIキーの利用上限到達による停止や経済的損失も含む(スポンジ攻撃など)。
③ その他の脅威(前提条件が必要なもの)
- データポイズニング攻撃:学習データに細工してLLMの挙動を操作
- 細工モデル導入攻撃:悪意あるモデルをAIシステムに組み込ませる
- モデル抽出攻撃:LLMへの繰り返しアクセスにより類似モデルを複製・機密情報を窃取
3. 脅威への対策
AI開発者の対策
- 安全基準等の学習による不正な指示への耐性向上(事後学習・ファインチューニング)
- 指示の優先度定義(システムプロンプトを優先処理)
- 活用ツール例:AISI「AIセーフティ評価ツール」、NII「AnswerCarefully」、NICT開発中の評価基盤
AI提供者の対策
- システムプロンプトによる制約・セキュリティ注意事項の設定(APIキー等を直接記述しない)
- ガードレール(外部機構)による入出力・外部参照データの検証・無害化・拒否
- オーケストレータ・RAG等の権限管理(最小権限の原則、ユーザ役割に応じたアクセス制御)
共通の基本対策
- 監査ログ保存によるトレーサビリティ確保
- レートリミットの導入
- 開発者の適切な権限管理
- 構成要素の信頼性確認(基盤モデルの開示情報確認等)
- 継続的なレッドチーミングによる有効性検証
なお、対策を講じ機密データを適切に管理している場合、情報漏えいが起きても「営業秘密」(不正競争防止法)による保護を受けられる可能性があるとも言及されている。
4. 想定事例による分析
| 事例 | 想定ユーザ | 外部連携 | 主な脅威 | 主な対策 |
|---|---|---|---|---|
| 事例1:内部向けチャットボット(RAG利用) | 組織内ユーザ(攻撃者含む) | 内部RAGデータストア | 直接・間接プロンプトインジェクション(RAGデータ窃取等) | 安全基準学習・システムプロンプト・ガードレール・権限管理 |
| 事例2:外部向けチャットボット(外部連携) | 組織外ユーザ(攻撃者含む) | インターネット公開情報 | 直接PI(システムプロンプト窃取)・DoS・間接PI(Webページ経由) | 安全基準学習・システムプロンプト・ガードレール |
5. 今後の課題・展望
VLM(画像×テキスト統合AI)・AIエージェント・MCP(Model Context Protocol)など複雑化する技術への対応は本ガイドラインの対象外であり、今後の技術進展を踏まえ追補・改訂を行っていく方針。
④ AIのセキュリティ確保のための技術的対策に係るガイドライン 別添(付属資料)
| 項目 | 内容 |
|---|---|
| タイトル | AIのセキュリティ確保のための技術的対策に係るガイドライン 別添(付属資料) |
| 発行元 | 総務省(サイバーセキュリティタスクフォース・AIセキュリティ分科会) |
| 発行日 | 令和8年3月(2026年3月) |
| バージョン | 記載なし(令和7年12月取りまとめを踏まえた版) |
| 対象者 | AI開発者・AI提供者(LLMや画像識別AIを開発・運用する事業者) |
| 総ページ数 | 20ページ |
| リンクURL | https://www.soumu.go.jp/main_content/001064123.pdf |
📚 内容の詳細な要約
I. LLMの脅威に対する対策
1. AI開発者における対策
安全基準等の学習による耐性向上として、以下の2つの手法が示されている。
- 安全基準の学習:RLHF(人間のフィードバックに基づく強化学習)やSFT(教師ありファインチューニング)を用いて、不法行為の助長・差別的表現・偽情報・機密漏えいを防ぐ安全基準をLLMに事後学習させる手法。プロンプトインジェクション攻撃への直接・間接的リスクを低減する。
- 指示の階層化:システムプロンプト等の優先度の高い指示を常に優先処理するよう学習させ、ユーザ入力や外部情報が上位の指示と矛盾する場合に低優先指示を無効化する仕組み。
2. AI提供者における対策
2.1 システムプロンプトによる耐性向上
- システムプロンプトの強化:制約事項やセキュリティ注意事項をシステムプロンプトに組み込む。具体的な指示内容例として、LLMの役割変更への警告、システムプロンプト内情報の非公開、SQLインジェクション対策(指定テーブルのみ参照・読み取り専用・全データ一括取得禁止)などが示されている。システムプロンプトの構成要素として「役割の定義」「遵守すべきルール」「禁止事項カテゴリ」「応答ルール」「入力解釈方針」の5要素が例示されている。
- 機密情報のシステムプロンプトからの分離:APIキー・認証情報・DB名等の機密情報をシステムプロンプトに直接埋め込まず、KMS(キー管理システム)・環境変数・コードによる設定で外部管理する。
2.2 ガードレール等による入出力・外部参照データの検証
- 入力プロンプトの検証:ブロックリスト方式("drop table"・"rm -rf"等の禁止文字列との照合)とガードレール用LLMによる方式を併用。DoS攻撃対策として入力長の制限も有効。
- 外部参照データの検証:LLMが参照する外部データを処理前に検証し、不正指示を検知した場合は拒否する。取得元の信頼性事前確認も推奨。
- 外部参照データの分離:ユーザ入力と外部参照データをタグ(例:
[USER_INPUT]・[EXTERNAL_DATA])で明確に区別し、セクション分離・メタデータ(信頼性レベル「高/低」)を活用してLLMに処理優先度を認識させる。 - 出力データの検証:ブロックリスト(メールアドレス・個人名・住所等の漏えい防止)・ガードレール用LLMによる応答評価・構造化出力(不正パラメータ注入防止)の3手法を提示。出力長の制限もDoS対策として有効。
- 回答する情報の制御:トークン出現確率等の追加情報はモデル抽出攻撃に悪用される恐れがあるため、出力しないか、ランダム値の付加・値の丸め等で加工する。
2.3 オーケストレータやRAG等の権限管理
- オーケストレータの権限管理:最小権限の原則に基づきオーケストレータを管理者権限で動かさない。DBロールによるSQLクエリ制限(SELECT権限のみ付与等)や、実行前のユーザ確認ダイアログ設置が有効。
sudo rm -rf /のような破壊的コマンド生成・実行リスクの低減が目的。 - RAGデータ・データストアのアクセス制御:ベクトルデータにメタデータタグ(部署限定・役職別等)を付与してアクセス制御、マルチテナント構造(名前空間を活用したユーザ・グループ別インスタンス分離)、データストアへの最小限アクセス権限設定の3手法を提示。
II. 画像識別AI(CNN)に対する脅威と対策
VLM(視覚言語モデル)の普及に伴い、CNN向け攻撃手法が転用できるケースがあることを踏まえ、3カテゴリに分類して整理されている。
1. 入力により実施可能な攻撃
- 敵対的サンプル(回避攻撃):微小ノイズを加えた画像で誤識別を誘発(例:通行止め標識→速度標識と誤認)。対策は「敵対的学習(Adversarial Training)」とカラービット深度低減による検知。
- DoS攻撃:処理負荷の高い細工画像を入力して応答遅延・停止を誘発。対策は閾値設定によるフィルタリングと最大遅延・最大消費の設計への織り込み。
2. 前提条件が必要な攻撃
- データポイズニング攻撃:学習データを汚染して誤認識を誘発。対策は学習データの信頼性確認。
- 細工モデルの導入攻撃:細工済みCNNを外部提供し組み込ませる。対策は導入モデルの信頼性確認。
3. 入出力分析を通じた攻撃
- モデル抽出攻撃:挙動観察によるモデル複製。対策は信頼度スコアの丸め・レートリミット導入。
- メンバーシップ推論攻撃:出力分析により学習データセットを推測。対策は過学習の抑制・スコアの丸め。
- モデル反転攻撃:出力(確信度)から学習画像データを逆算・復元。対策はスコアの丸め・内部情報出力の制限。
参考:新たな脅威・対策に係る情報源
arXiv、MITRE ATLAS、OWASP、AI Incident Database、AIセキュリティポータル、政府機関ホワイトペーパー(NIST・CSET等)、セキュリティベンダー製品情報、Black Hat等のカンファレンス、ニュースサイト・技術ブログ、SNS、GitHubの計10種類の情報源が紹介されている。
他のガイドラインは以下よりご覧ください
AIガイドライン 18本 構造化インデックス
【一覧】日本政府 AIガイドライン 18本【INDEX】