不完全情報下で自律的に攻撃経路を選択するエージェントを設計・実装し、
Phase 1〜7の段階的実験でその有効性と防御側への示唆を定量評価した卒業研究。
東京電機大学 学部長賞受賞 / 情報セキュリティ研究会(ICSS)2026年5月発表。
サイバー攻撃の高度化に伴い、外部C&Cサーバなしで自律動作する攻撃エージェントが 現実的な脅威として認識されつつある。本研究では、攻撃者が環境の真の状態を観測できない という特性に着目し、攻撃プロセスを部分観測マルコフ決定過程(POMDP)で定式化。 信念状態のベイズ更新により適切なタイミングで攻撃行動を選択する 自律型エージェントを設計・実装し、シミュレーション・実ネットワークの両環境で評価した。
initial — 偵察前の初期状態
probing — 脆弱性・サービス発見
compromised — 侵入成功(吸収)
detected — 検知・攻撃終了(吸収)
wait / ssh_scan / vuln_scan / ssh_login / exploit
Phase 6では水平展開用に11行動へ拡張
(mysql_exploit / credential_harvest / pivot_attack 等)
観測 o を得るたびに信念を更新:
b'(s') = η × Z(o|s',a) × Σ T(s'|s,a)×b(s)
初期信念:initial 0.85 / detected 0.10 / probing 0.05
侵入成功(exploit@compromised):+200
攻撃検知(detected 各行動):−100〜−160
報酬比率の設計がエージェントの行動選択を決定的に左右する。
修正前の wait 過剰問題を解決し成功率 0%→100% を達成。
他3方策すべてが負の報酬の中、唯一正の値を達成
ssh_scan → exploit×3 の最短経路を自律選択
先読み深度 H=1 が最良。深い先読みは検知リスクを累積させる
低検知環境(感度0.1)でPOMDPが優位。高検知環境では逆転
credential_harvest により累積報酬が24.1%、侵害ホスト数が28.6%改善
SSH単独62.5% → 3ベクトル6.2%。行動空間拡大で探索困難性が増大
FWによる3段階分離でConfidentialセグメントへの到達を25%に制限。多層防御の有効性を確認
POMDPエージェントが信念状態からFWルールを自律学習し、許可経路のみを選択
段階的侵害戦略により正の累積報酬を達成
16ホスト以上の大規模環境ではO(|A|^H)の計算量が実用限界を超える。 DQN・PPOによるパラメータ自動学習と組み合わせることで大規模環境へ対応する。
POMDPが行動選択・確率的意思決定を担い、ローカルLLMがログ解析・ コマンド出力の意味理解・未知環境での行動候補生成を担うハイブリッド型エージェントへ。 現在の大学院での研究テーマ。
複数の自律型攻撃エージェントが協調・競合するDec-POMDPへ拡張。 偵察・侵入・横展開の役割分担や同時多方面攻撃のモデル化が可能になる。
「POMDPを用いた自律型攻撃エージェントの設計と評価 ― ネットワーク環境における実装と実験的評価 ―」
機械振興会館・2026年5月26日
学業成績・卒業研究・課外活動の総合評価による表彰。2026年3月卒業式にて授与。
東京電機大学 情報システム工学科
「POMDPを用いた自律型攻撃エージェントのネットワーク環境における実装と評価」