GRADUATION THESIS · ICSS 2026

POMDPを用いた自律型
攻撃エージェントの設計と評価

不完全情報下で自律的に攻撃経路を選択するエージェントを設計・実装し、 Phase 1〜7の段階的実験でその有効性と防御側への示唆を定量評価した卒業研究。
東京電機大学 学部長賞受賞 / 情報セキュリティ研究会(ICSS)2026年5月発表。

研究概要

サイバー攻撃の高度化に伴い、外部C&Cサーバなしで自律動作する攻撃エージェントが 現実的な脅威として認識されつつある。本研究では、攻撃者が環境の真の状態を観測できない という特性に着目し、攻撃プロセスを部分観測マルコフ決定過程(POMDP)で定式化。 信念状態のベイズ更新により適切なタイミングで攻撃行動を選択する 自律型エージェントを設計・実装し、シミュレーション・実ネットワークの両環境で評価した。

Python 3.13 NumPy pandas Paramiko VirtualBox / VMware GNS3 Ubuntu 22.04 約2,900行

モデル設計(7つ組)

S

状態空間(4状態)

initial — 偵察前の初期状態
probing — 脆弱性・サービス発見
compromised — 侵入成功(吸収)
detected — 検知・攻撃終了(吸収)

A

行動空間(5行動)

wait / ssh_scan / vuln_scan / ssh_login / exploit

Phase 6では水平展開用に11行動へ拡張 (mysql_exploit / credential_harvest / pivot_attack 等)

b

信念状態 & ベイズ更新

観測 o を得るたびに信念を更新:
b'(s') = η × Z(o|s',a) × Σ T(s'|s,a)×b(s)

初期信念:initial 0.85 / detected 0.10 / probing 0.05

R

報酬関数

侵入成功(exploit@compromised):+200
攻撃検知(detected 各行動):−100〜−160

報酬比率の設計がエージェントの行動選択を決定的に左右する。 修正前の wait 過剰問題を解決し成功率 0%→100% を達成。

実験結果

Phase 1–5:単一ホスト ベースライン比較

+340.73

POMDP 累積報酬

他3方策すべてが負の報酬の中、唯一正の値を達成

4 Steps

侵入完了ステップ数

ssh_scan → exploit×3 の最短経路を自律選択

×6678

N=4 計算量増加

先読み深度 H=1 が最良。深い先読みは検知リスクを累積させる

Phase 6:マルチホスト(4台・SSH/MySQL/Samba)

+14%

対 Greedy 改善率

低検知環境(感度0.1)でPOMDPが優位。高検知環境では逆転

+24.1%

認証情報活用の効果

credential_harvest により累積報酬が24.1%、侵害ホスト数が28.6%改善

6.2%

3ベクトル時の成功率

SSH単独62.5% → 3ベクトル6.2%。行動空間拡大で探索困難性が増大

Phase 7:ファイアウォール・セグメント分離(5台・3セグメント)

25.0%

Confidential 到達率

FWによる3段階分離でConfidentialセグメントへの到達を25%に制限。多層防御の有効性を確認

0回

FWブロック回数

POMDPエージェントが信念状態からFWルールを自律学習し、許可経路のみを選択

+68.8

累積報酬

段階的侵害戦略により正の累積報酬を達成

考察・防御側への示唆

今後の発展

01

深層強化学習との統合

16ホスト以上の大規模環境ではO(|A|^H)の計算量が実用限界を超える。 DQN・PPOによるパラメータ自動学習と組み合わせることで大規模環境へ対応する。

02

ローカルLLMとの統合

POMDPが行動選択・確率的意思決定を担い、ローカルLLMがログ解析・ コマンド出力の意味理解・未知環境での行動候補生成を担うハイブリッド型エージェントへ。 現在の大学院での研究テーマ。

03

マルチエージェント化

複数の自律型攻撃エージェントが協調・競合するDec-POMDPへ拡張。 偵察・侵入・横展開の役割分担や同時多方面攻撃のモデル化が可能になる。

発表・受賞

情報セキュリティ研究会(ICSS)登壇発表

「POMDPを用いた自律型攻撃エージェントの設計と評価 ― ネットワーク環境における実装と実験的評価 ―」
機械振興会館・2026年5月26日

筑波大学 理工情報生命学術院 / 指導:八槇 博史 先生(東京電機大学)

東京電機大学 システムデザイン工学部 学部長賞 受賞

学業成績・卒業研究・課外活動の総合評価による表彰。2026年3月卒業式にて授与。

2026.03

卒業論文 提出・審査

東京電機大学 情報システム工学科
「POMDPを用いた自律型攻撃エージェントのネットワーク環境における実装と評価」

2026.02