リウマチ画像解析の学習データとAIベンチマークを公開

2026年4月1日 公開

1,048手のX線データセットがリウマチ診断支援の進化を加速

ポイント

  • 手首X線マルチタスクデータセット「RAM-W600」を公開。
  • セグメンテーションと標準的骨侵食スコアリングに対応し、高品質なアノテーションを提供。
  • 関節リウマチ自動評価AIベンチマークとして活用可能で、診断支援やアルゴリズム比較を促進。

概要

東京科学大学(Science Tokyo) 工学院 システム制御系の奥富正敏特任教授、博士後期課程の楊松暁氏、同大学 総合研究院の欧亜非研究員、北海道大学 大学院保健科学研究院の神島保教授、同大学 量子集積エレクトロニクス研究センターの池辺将之教授、同大学 大学院保健科学院 博士後期課程の王昊霖氏らの研究グループは、関節リウマチ(RA)の診断支援に向け、手首X線画像に基づく初のマルチタスクデータセットとAIベンチマーク[用語1]を公開しました。

RAは代表的な自己免疫疾患であり、臨床現場ではX線画像が関節破壊評価に広く用いられています。特に手首は診断上重要な部位ですが、複雑な骨構造や疾患進行による骨変形のため、高精度なアノテーションが難しく、コンピューター支援診断(CAD)研究は限られていました。

研究チームは手首X線画像に基づく初の公的マルチタスクデータセットRAM-W600を公開しました。対象は388名の患者のX線画像1,048枚で、618枚に骨インスタンスセグメンテーション注釈、800枚に標準的評価法である、Sharp/van der Heijde(SvdH)法による骨びらんスコアが付与されています。さらに、Unet、TransUNetなどの代表的な深層学習アーキテクチャや、SAMといった基盤モデルを用いた多様なAIベンチマーク実験が実施され、性能比較が行われました。

RAM-W600は、RA関連の多様な研究課題に資する可能性を有しています。また、手根骨骨折の局在化など、手首に関連する他の課題にも応用可能です。本データセットが手首領域におけるCAD研究の障壁を大幅に低減し、RA研究および臨床応用の発展を促進することを期待しています。

本研究成果は、2025年12月2日(火)から米国サンディエゴで開催されたAI関連難関国際会議NeurIPSのDataset and Benchmark Trackで発表されました。また、2026年6月10日(水)~12日(金)に横浜で開催される画像センシングシンポジウムにおいても発表される予定です。

公開されたマルチタスクデータセットとAIベンチマーク

背景

関節リウマチ(RA)は早期から手首関節を侵しやすい疾患であり、X線画像は広く用いられているものの、骨構造の複雑性や病的変形により、専門医による評価への依存度が高く、効率性に乏しいことがコンピューター支援診断(CAD)の発展を制限してきました。既存の公開データセットは、ピクセルレベルの分割アノテーションを欠くか、あるいは臨床的スコアが不足しており、RA特異的な研究ニーズを十分に満たしていませんでした。本研究では、RAに特化した世界初の手首関節X線画像多タスク大規模公開データセットRAM-W600を構築しました。本データセットは、手首関節骨のインスタンス分割及びSharp/van der Heijde(SvdH)骨侵食スコアという二つの主要タスクを網羅し、高品質なアノテーションとベンチマークを提供します。これにより、関節間隙狭小化の定量化や骨びらん検出といった多様な下流タスクを支援し、RA関連CAD研究のさらなる進展を後押しします。

研究成果

本研究では、RAに特化した大規模公開データセット RAM-W600 を構築しました。本データセットは、4つの医療機関から収集した1,048枚の手首関節X線画像(388名の患者に由来)で構成され、そのうち618枚には骨単位のピクセルレベル分割アノテーションが、800枚には SvdH基準に準拠した骨侵食スコアが付与されています(図1)。研究チームはこれを基盤として多タスクベンチマーク実験を実施し、手首関節骨インスタンス分割及びBE分類に対する性能評価を行いました。評価には、Unet、Unet++、TransUNet、SwinUMambaなどの多様なディープラーニングアーキテクチャや、汎用モデル(SAM、MedSAM)を採用し、DSC、NSD、BACC、F1-scoreといった指標を用いて体系的に性能比較を行いました(図2)。

図1. データベースにおけるデータ分布と統計情報。本研究で用いたデータベースの構成を示しており、
(A)患者単位での分布
(B)施設・性別の集計分布
(C)部位別のスコア分布
を通じて、データの全体像を可視化している。
図2. AIベンチマークの可視化結果。

結果として、分割タスクでは教師ありモデルが総じて優れた性能を示し、特に SwinUMamba は DSC 97.75% という高い精度を達成しましたが、骨重なり部位や骨侵食領域では依然として顕著な精度不足が見られました。一方、汎用モデルのSAMは明らかに劣る結果となりました。BE分類タスクでは、モデル全体の性能は限定的であり、最高でも平衡精度は約52.6%にとどまり、F1-scoreも低値で、クラス不均衡に起因する感度不足が課題として確認されました。総じて、RAM-W600はRA手首関節画像に対する高品質な分割・スコアリング資源を提供するとともに、既存手法が複雑な臨床病変に直面した際の限界を浮き彫りにし、今後より堅牢なCAD技術の開発に向けた基盤を提示しています(図3)。

図3. 公開されたマルチタスクデータセットとAIベンチマーク。

本研究成果は、2025年12月2日から米国サンディエゴで開催されたAI関連難関国際会議NeurIPSのDataset and Benchmark Trackで発表されました(論文名:RAM-W600: A Multi-Task Wrist Dataset and Benchmark for Rheumatoid Arthritis(RAM-W600:関節リウマチに向けた手首関節マルチタスクデータセットとベンチマーク))。また、2026年6月10日~12日に横浜で開催される画像センシングシンポジウムにおいても発表される予定です。

今後の展開

今後の研究は、多尺度コンテクストと境界感受性メカニズムを融合した専用ネットワークの開発に取り組み、骨重なり部位や骨侵食領域における分割精度の向上を目指す必要があります。同時に、微細な病理的特徴を捉えるモデル構造を設計することで、早期病変に対する感度を高め、病期の異なる症例に対する堅牢性を強化することが求められます。さらに、本データセットにおける骨侵食サンプルの分布不均衡を克服するために、少数クラスの拡張戦略やより効率的な特徴抽出法を探索することが不可欠です。また、多地域・多集団にわたるデータの拡充により、モデルの施設間及び集団間における汎化能力を高め、RA画像解析の自動化と臨床応用価値を一層推進していくことが期待されます。

用語説明

[用語1]
AIベンチマーク:統一されたデータセット、明確なタスク、標準化された評価指標に基づき、異なるモデルやアルゴリズムを体系的かつ客観的に比較・評価するための枠組みであり、再現性と対照性のある性能基準を提供することで手法の改良や課題の可視化を促し、医学画像解析においては臨床応用に資するCAD開発の基盤となる。

論文情報

学会名:
NeurIPS 2025(AI関連難関国際会議)
タイトル:
RAM-W600: A Multi-Task Wrist Dataset and Benchmark for Rheumatoid Arthritis(RAM-W600:関節リウマチに向けた手首関節マルチタスクデータセットとベンチマーク)
著者:
楊 松暁1、王 昊霖2、付 尭3、田 野4、神島 保5、池辺 将之3、欧 亜非6、奥富 正敏1
1東京科学大学工学院システム制御系、2北海道大学大学院保健科学院、3北海道大学量子集積エレクトロニクス研究センター、4東京大学生産技術研究所、5北海道大学大学院保健科学研究院、6東京科学大学総合研究院)
開催日:
2025年12月2日~12月7日

関連リンク

お問い合わせ

北海道大学 大学院保健科学研究院
教授 神島 保

東京科学大学 工学院 システム制御系
特任教授 奥富正敏

取材申し込み

東京科学大学 総務企画部 広報課

北海道大学 社会共創部 広報課