不完全情報下で自律的に攻撃経路を選択するエージェントを設計・実装し、 その有効性を実験的に評価した卒業研究
サイバー攻撃の高度化に伴い、AIによる自律的な攻撃が脅威として注目されています。 本研究では、攻撃プロセスを部分観測マルコフ決定過程(POMDP)で定式化し、 防御側のシステム状態を完全には把握できない状況下で、 信念状態に基づき最適な行動を選択する自律型攻撃エージェントを設計・実装しました。
限られた観測情報からベイズ更新で信念状態を推定し、 将来報酬を考慮した長期的に最適な行動を選択します。
仮想ネットワーク上に構築した実環境で攻撃を実行し、 3種のベースライン方策と比較して優位性を実証しました。
単一ホストから複数ホスト・ネットワーク分離環境へ段階的に拡張し、 横展開や段階的侵害戦略の設計を行いました。