2025年6月17日、国際航業の島田徹氏と理化学研究所 革新知能統合研究センターの岡谷貴之インフラ管理ロボット技術チームリーダー(東北大学教授兼務)、東京大学大学院 工学系研究科の全邦釘特任准教授、筑波大学システム情報系の永谷圭司教授らの共同研究グループは、大規模言語モデル(LLM)を活用し、ドローンなどで撮影した土砂災害の画像から専門家レベルの分析を行うマルチモーダル人工知能(AI)システムを開発したことを発表した。

 この研究成果は、土砂災害発生時の迅速かつ安全なリスク評価を可能にし、限られた専門家リソースを効率的に活用するための新たな枠組みを提供するものであり、今後の災害対応における意思決定支援の基盤になると期待される。

 共同研究グループは、専門家による解説音声を構造化データに変換し、大規模言語モデル(LLM)を用いて学習可能な形に整理。さらに、画像とテキストを統合的に扱うマルチモーダルAIを開発し、専門家に匹敵する解析と説明を実現した。

 なおこの研究は、JST(ムーンショット型研究開発)JPMJMS2032、JSPS科研費(20H05952、23H00482、21H01417)の支援を受けて実施したものとなる。

写真:ユーザーによる質問(指示プロンプト・災害画像)と、AIによる回答(分析結果)
地すべり災害の空撮画像から専門家レベルの分析を行うマルチモーダルAIシステムの活用イメージ

 気候変動の影響により、世界中で大規模な自然災害の発生頻度が高まっている。災害発生時は、被害の範囲、原因、追加的なリスクを迅速かつ正確に評価することが求められる。近年、高精度のデジタルカメラの普及や監視カメラネットワークの普及により、災害地域の画像データ収集は飛躍的に向上した。

 しかし現状では、災害発生箇所の高度な判断や予測ができる専門家の数は限られ、広範囲に及ぶ大規模災害で即時に意思決定を行うことは困難である。さらに、これらの専門家は複数の責任を担っていることが多く、人員を効率的に配置することは難しい。

 特に土砂災害は、地形と地盤条件(素因)と降雨や地震などの自然現象(誘因)の複雑な相互作用によって発生する。航空画像は、特に表層土が移動して下層の地盤条件が露出した災害後の状況において、これらの素因に関する豊富な視覚情報を提供する。専門家はこれらの視覚的手がかりから地質構造や風化条件を解釈できるが、この高度に専門的な解釈プロセスは、自動化が困難な暗黙知を多く含んでいる。

写真:土砂災害の現場の様子
【図1】土砂災害の画像の例

 今回開発したAIは「土砂災害の種類、原因、観察事項、将来リスクを説明してください」という固定の指示プロンプトと災害画像を与えると、土砂災害現場の分析結果を生成する。

 図1の画像に対して、開発したAIは災害タイプを正しく「Landslide」と識別し、原因を「人為的活動と自然侵食」と推測した。観察事項では「細長い山岳地域内の急斜面」「露出した岩石」などの特徴を正確に捉えており、将来リスクも「さらなる斜面崩壊と侵食の可能性」と妥当な予測を行った。

研究手法と成果

 土砂災害を分析するAIシステムの開発では、以下3つの課題に取り組んだ。

① 専門家の知識をAI訓練用のデジタルデータに変換する方法
② 限られたデータからの効果的な学習方法
③ AIシステムの評価方法

 ①の専門知識のデジタル化のため、過去の土砂災害現場の画像を専門家に提示し、彼らの観察や分析を音声記録。この記録をテキストに変換し、「災害タイプ」(土砂災害の種類)、「原因」(災害の推定原因)、「観察事項」(画像から観察される複数の特徴や状態)、「将来リスク」(将来的に発生する可能性のあるリスク)という標準的な構造に整理した。この標準形式は、AIモデルがより効果的に学習できるよう設計している(②の取り組み)。

 ③については、以下2つの異なるアプローチでAIシステムを開発した。

1. VQA-LLMハイブリッド
 画像から情報を抽出する視覚的質問応答(VQA)モデルと、その結果をもとに分析を行う大規模言語モデル(LLM)を組み合わせたアプローチ。

2. マルチモーダル大規模言語モデル(MLLM)
 画像エンコーダー、視覚プロジェクター、LLMからなり、画像と指示テキストを同時に処理するエンドツーエンドのアプローチ。

VQA-LLMハイブリッドの構造
開発したVQA-LLMハイブリッドの構造
マルチモーダル大規模言語モデル(MLLM)の構造
開発したマルチモーダル大規模言語モデル(MLLM)の構造

 これらのモデルは、日本各地の土砂災害現場の画像68枚(データ拡張により136サンプル)を用いて訓練した。評価では、従来のテキスト類似性指標に加え、大規模言語モデルを用いた意味的評価と専門家による評価も実施した。

AIによる土砂災害画像の判読結果
開発したAIによる土砂災害画像の判読結果。(a)入力された土砂災害の画像、(b)専門家による注釈、(c)VQA-LLMハイブリッド、(d)マルチモーダル大規模言語モデル(MLLM)による出力。正解となる(b)との比較スコアが「Scores」として最初に示されている。

 今回開発したAIシステムは、以下のような場面での活用が期待される。

  • 大規模画像コレクションの自動スクリーニング
    航空写真や衛星から収集された大量の画像を自動処理し、高リスクの地すべりを特定・分類。
  • 非専門家のための意思決定支援
    消防士、警察、自治体職員など、地すべりに関する専門知識を持たない初動対応者に、現場で撮影した画像から専門家レベルの分析を提供。
  • 専門家の効率向上
    地すべりの専門家が多数の現場を効率的に評価する際の補助ツールとして機能。
  • 時間的モニタリング
    同一エリアの時系列画像を分析することで、条件の変化を追跡し、将来のリスク予測精度を向上。

 この研究は、データサイエンス、土木工学、ロボット工学といった複数の異なる学問分野の専門家による学際的な取り組みである。国際航業は、土砂災害に関する画像データの収集方法や研究方法に関する企画・提案を行ったほか、同社の地形判読技術者が観察・分析した記録を、教師データとなる地形判読結果(アノテーション)として提供した。

 この研究は、「Computer-Aided Civil and Infrastructure Engineering」(Wiley)に掲載予定で、速報版がウェブに掲載されている(https://onlinelibrary.wiley.com/doi/full/10.1111/mice.13482)。

<論文情報>

Multimodal artificial intelligence approaches using large language models for expert-level landslide image analysis
Kittitouch Areerob, Van-Quang Nguyen, Xianfeng Li, Shogo Inadomi, Toru Shimada, Hiroyuki Kanasaki, Zhijie Wang, Masanori Suganuma, Keiji Nagatani, Pang-jo Chun, Takayuki Okatani
Computer-Aided Civil and Infrastructure Engineering
10.1111/mice.13482