Research - 森大地

OVERVIEW

研究概要

サイバー攻撃の高度化に伴い、外部C&Cサーバなしで自律動作する攻撃エージェントが現実的な脅威として認識されつつある。本研究では、攻撃者が環境の真の状態を観測できないという特性に着目し、攻撃プロセスを部分観測マルコフ決定過程（POMDP）で定式化。信念状態のベイズ更新により適切なタイミングで攻撃行動を選択する自律型エージェントを設計・実装し、シミュレーション・実ネットワークの両環境で評価した。

Python 3.13 NumPy pandas Paramiko VirtualBox / VMware GNS3 Ubuntu 22.04 約2,900行

POMDP MODEL

モデル設計（7つ組）

S

状態空間（4状態）

initial — 偵察前の初期状態
probing — 脆弱性・サービス発見
compromised — 侵入成功（吸収）
detected — 検知・攻撃終了（吸収）

A

行動空間（5行動）

wait / ssh_scan / vuln_scan / ssh_login / exploit

Phase 6では水平展開用に11行動へ拡張（mysql_exploit / credential_harvest / pivot_attack 等）

b

信念状態＆ベイズ更新

観測 o を得るたびに信念を更新：
b'(s') = η × Z(o|s',a) × Σ T(s'|s,a)×b(s)

初期信念：initial 0.85 / detected 0.10 / probing 0.05

R

報酬関数

侵入成功（exploit@compromised）：+200
攻撃検知（detected 各行動）：−100〜−160

報酬比率の設計がエージェントの行動選択を決定的に左右する。修正前の wait 過剰問題を解決し成功率 0%→100% を達成。

RESULTS

実験結果

Phase 1–5：単一ホストベースライン比較

+340.73

POMDP 累積報酬

他3方策すべてが負の報酬の中、唯一正の値を達成

4 Steps

侵入完了ステップ数

ssh_scan → exploit×3 の最短経路を自律選択

×6678

N=4 計算量増加

先読み深度 H=1 が最良。深い先読みは検知リスクを累積させる

Phase 6：マルチホスト（4台・SSH/MySQL/Samba）

+14%

対 Greedy 改善率

低検知環境（感度0.1）でPOMDPが優位。高検知環境では逆転

+24.1%

認証情報活用の効果

credential_harvest により累積報酬が24.1%、侵害ホスト数が28.6%改善

6.2%

3ベクトル時の成功率

SSH単独62.5% → 3ベクトル6.2%。行動空間拡大で探索困難性が増大

Phase 7：ファイアウォール・セグメント分離（5台・3セグメント）

25.0%

Confidential 到達率

FWによる3段階分離でConfidentialセグメントへの到達を25%に制限。多層防御の有効性を確認

0回

FWブロック回数

POMDPエージェントが信念状態からFWルールを自律学習し、許可経路のみを選択

+68.8

累積報酬

段階的侵害戦略により正の累積報酬を達成

KEY INSIGHTS

考察・防御側への示唆

信念状態による優位性 — Greedy は probing 状態で ssh_login を繰り返し exploit 機会を逃すが、POMDPは信念が閾値を超えた時点で exploit を選択できる
攻撃ベクトルの逆説 — 攻撃経路を増やすほど行動空間が拡大し成功率が低下。防御側はダミー経路の設置で攻撃エージェントを混乱させられる可能性
認証情報管理の重要性 — credential_harvest の効果から、bash_history・設定ファイルの適切な管理・定期ローテーションが横展開阻止に直結
多層防御の定量的効果 — ゼロトラスト・マイクロセグメンテーションがConfidential到達率を25%に制限。IDS感度0.2以上でPOMDP優位性を抑制可能

FUTURE WORK

今後の発展

01

深層強化学習との統合

16ホスト以上の大規模環境ではO(|A|^H)の計算量が実用限界を超える。 DQN・PPOによるパラメータ自動学習と組み合わせることで大規模環境へ対応する。

02

ローカルLLMとの統合

POMDPが行動選択・確率的意思決定を担い、ローカルLLMがログ解析・コマンド出力の意味理解・未知環境での行動候補生成を担うハイブリッド型エージェントへ。現在の大学院での研究テーマ。

03

マルチエージェント化

複数の自律型攻撃エージェントが協調・競合するDec-POMDPへ拡張。偵察・侵入・横展開の役割分担や同時多方面攻撃のモデル化が可能になる。

PUBLICATION

発表・受賞

情報セキュリティ研究会（ICSS）登壇発表

「POMDPを用いた自律型攻撃エージェントの設計と評価 ― ネットワーク環境における実装と実験的評価 ―」
機械振興会館・2026年5月26日

筑波大学理工情報生命学術院 / 指導：八槇博史先生（東京電機大学）

東京電機大学システムデザイン工学部学部長賞受賞

学業成績・卒業研究・課外活動の総合評価による表彰。2026年3月卒業式にて授与。

2026.03

卒業論文提出・審査

東京電機大学情報システム工学科
「POMDPを用いた自律型攻撃エージェントのネットワーク環境における実装と評価」

2026.02

POMDPを用いた自律型 攻撃エージェントの設計と評価