01画像診断AIの仕組み ── 何を学び、何を出しているのか
画像診断 AI の中心にあるのは、深層学習(=大量のデータから特徴を自動で学ぶ機械学習の一種)、とくに画像を扱うのが得意な 畳み込みニューラルネットワーク(=CNN、画像を小さな窓で少しずつ見て特徴を拾う仕組み)です。数万から数十万枚の画像と、その一枚ごとに付けられた「正解(=この画像に病変があるか、どこにあるか)」を突き合わせて学習します。
ここで大事なのは、AI が学んでいるのは「病気そのもの」ではなく、正解ラベルの付いた画像に共通するパターンだという点です。放射線科医や病理医が付けた診断を手本にしているので、AI の上限は基本的に「学習に使った医師たちの診断の質」で決まります。手本が偏っていれば、AI もその偏りを引き継ぎます。
出力の形も、製品によって違います。「異常の疑いあり/なし」を返すもの、病変の位置を四角い枠や色で示すもの、悪性の確率を数値で出すもの ── 用途によって設計が分かれます。どれにも共通するのは、AI が返すのは確率であって、断定ではないという点です。ここを外すと、後で述べる感度・特異度の話がすべてずれてしまいます。
02感度と特異度 ── 二つの「正しさ」は両立しにくい
画像診断 AI の性能を語るとき、最も基本になるのが感度と特異度です。言葉は難しく聞こえますが、中身は単純です。
感度
本当に病気の人を、正しく「陽性」と拾う割合(=sensitivity、真陽性率)。感度が高いほど見逃し(偽陰性)が減ります。がん検診で特に重視されます。
特異度
本当に健康な人を、正しく「陰性」と判定する割合(=specificity、真陰性率)。特異度が低いと、健康な人を「異常」と呼ぶ偽陽性が増えます。
トレードオフ
判定のしきい値を下げれば感度は上がるが特異度は下がる。逆も同じ。両方を同時に最大化はできず、用途に応じてどちらを優先するかを決めます。
「AI の精度は 95%」という宣伝文句は、しばしばこの二つを曖昧にしています。感度 95% と特異度 95% はまったく違う意味を持ちますし、そもそも対象集団に病気の人がどれだけいるか(=有病率)によって、同じ感度・特異度でも実際の当たり外れは大きく変わります。有病率が低い検診では、特異度が少し低いだけで偽陽性が大量に出ることもあります。数字を見るときは、必ず「何を、どの集団で測ったのか」まで確かめる必要があります。
03偽陰性の重み ── 見逃しは、なぜ特別に重いのか
誤りには二種類あります。健康な人を病気と呼ぶ偽陽性と、病気の人を見逃す偽陰性です。この二つは、医療のなかで重さがまったく違います。
| 誤りの種類 | 何が起きるか | その後の帰結 |
|---|---|---|
| 偽陽性 (過剰な陽性) | 健康な人を「異常の疑い」と判定する | 追加検査・精密検査で最終的に否定できる余地が残る。不安と費用は生むが、多くは可逆的 |
| 偽陰性 (見逃し) | 病気の人を「異常なし」と判定する | 受診・治療の機会そのものを奪う。次の検査までに進行し、取り返しがつかないことがある |
偽陰性が重いのは、誤りに気づく機会が失われるからです。偽陽性なら「念のため詳しく調べたら問題なかった」で終わることが多い。しかし偽陰性は「異常なし」と言われた時点で検査の流れが止まり、誰も間違いに気づかないまま時間が過ぎます。だから画像診断 AI、とくに検診に使うものは、多少の偽陽性を受け入れてでも感度を高く設計することが多いのです。
04承認された事例 ── 何が、どう認められているのか
画像診断 AI は、すでに絵空事ではありません。日本では、AI を含むソフトウェアが医療機器として扱われる プログラム医療機器(=SaMD、単体で医療機器として承認・認証されるソフトウェア)の枠組みで、糖尿病網膜症や大腸内視鏡のポリープ検出、脳 MRI の動脈瘤検出などを支援する製品が承認・認証されています。米国 FDA も、AI/機械学習を用いた医療機器を数百件の単位で承認しており、その多くが放射線・眼科・循環器の画像領域です。
ここで押さえたいのは、「承認された」が意味する範囲です。承認は「この製品を、この使い方(=使用目的)で、この対象に使ってよい」という限定つきの許可です。糖尿病網膜症の判定用に承認された AI を、別の眼疾患の判定に流用することはできません。使用目的の外で使えば、それは承認の範囲を超えた使用になります。製薬の実務でこの区別が効くのは、たとえば診断 AI と自社製品を絡めて語るときです。承認された使用目的を一歩でも超えて効能を示唆すれば、後述する薬機法の壁に触れます。
05運用上の注意 ── 承認と現場のあいだの落差
承認された性能は、あくまで審査に出したデータ上の性能です。現場に持ち込むと、そのままの数字が出るとは限りません。落差を生む要因はいくつもあります。
装置・施設が違う
学習に使った画像と、自院の装置・撮影条件が違うと精度が落ちる(=ドメインシフト、データの偏りによる性能低下)。メーカーや世代が変わるだけで影響が出ます。
患者集団が違う
学習データと年齢・人種・有病率が異なると、同じ AI でも当たり外れが変わる。海外データで学んだ製品を国内でそのまま信じるのは危うい。
過信と自動化バイアス
AI が「異常なし」と出すと、人もつられて見落としやすくなる(=automation bias、機械の判断に流される傾向)。支援のはずが、判断を丸投げにしてしまう。
性能の経年変化
装置更新や診療の変化で、時間とともに精度がずれることがある。導入して終わりではなく、稼働後の監視(=市販後の性能モニタリング)が要ります。
とくに automation bias は見落とされがちです。AI を入れると、人は無意識に AI を信頼し、自分で確かめる注意が薄れます。すると、AI が見逃した偽陰性を人が拾えなくなり、二重の網が一重に縮む。導入時に「AI が出した陰性も、人が独立に確認する」という運用ルールを決めておかないと、AI を入れたのに見逃しが増える、という本末転倒すら起こり得ます。
06医師との関係 ── 責任は、どこに残るのか
「AI が診断するなら、間違えたときの責任は誰が負うのか」 ── これは現場で必ず出る問いです。現在の枠組みの答えははっきりしています。最終的な診断の責任は、医師にあります。承認された画像診断 AI の多くが「支援」の位置づけなのは、この責任の所在を動かさないためでもあります。
だから医師と AI の望ましい関係は、主従がはっきりしています。AI は候補を挙げ、注意を促し、見落としを減らす道具。医師はそれを参考にしつつ、患者の背景や他の所見と合わせて総合的に判断する主体。AI の出力は「意見の一つ」であって「結論」ではないという立て付けです。この関係が崩れて AI の出力をそのまま結論にすると、automation bias の温床になり、責任の所在も曖昧になります。
製薬に関わる立場でこの点を語るときは、中立の事実にとどめることが肝心です。特定の診断 AI 製品を「医師より正確」「これがあれば安心」といった調子で持ち上げるのは、宣伝・推奨と受け取られかねません。事実として「支援ツールであり、最終判断は医師が担う」と述べるにとどめ、固有名詞での優劣づけは避けるのが安全です。
07検証 ── 何をもって「使える」と言えるのか
画像診断 AI が本当に使えるかは、宣伝の数字ではなく、検証の質で決まります。信頼できる検証には、いくつかの条件があります。
- 学習データと別のデータで測る(=外部検証) ── 学習に使った画像で好成績を出すのは当たり前です。まったく別の施設・別の集団のデータで性能が保てて、初めて実力と言えます。
- 前向きの臨床評価 ── 過去の画像を後からまとめて解析するだけでなく、実際の診療の流れのなかで、AI を使った場合と使わない場合で見逃しや診断がどう変わるかを調べる。
- 感度・特異度を対象集団つきで示す ── 「精度 95%」ではなく、「どの集団で、有病率いくらのもとで、感度・特異度がいくつか」まで示されているかを見る。
- 誰が査読したか ── 査読済み(=peer-reviewed、第三者の専門家が事前に内容を吟味した)の論文で報告されているか。メーカー発表の数字だけを鵜呑みにしない。
製薬のメディカル部門がこうした検証の目を持つ意味は大きいです。診断 AI の性能を評価する視点は、自社の臨床データを読む視点と地続きだからです。「どの集団で、何と比べて、誰が確かめたのか」 ── この三つを問う習慣が、AI の数字に振り回されないための土台になります。
08本サイトの他の章との接続
今回の内容は、次の章や領域と読み合わせると理解が深まります。
- AI Medical 第 4 回 ── 電子カルテとAI ── 画像という「見る」情報の次に、記録・要約・音声入力という「書く・残す」情報を AI がどう扱うか。
- AI Marketing 第 5 回 ── AI 生成コンテンツ戦略 ── AI の出力を、規制を守りつつ現場に届ける設計。診断 AI の「支援」と同じく、最終判断を人に残す発想が通底します。
- 資材審査シリーズ ── 承認された使用目的の範囲を超えて効能を語らない、という規律の実務的な担保。
画像診断 AI は、医療で最も実装が進んだ AI です。承認事例も増え、見逃しを減らす二重の網として現実に役立っています。けれどその実力は、感度と特異度という両立しにくい二つの正しさ、偽陰性という特別に重い誤り、そして承認データと現場のあいだの落差 ── これらを正しく理解して初めて語れます。AI は確率を返す支援ツールであり、最終判断と責任は医師に残る。automation bias に流されず、AI の陰性も人が独立に確かめる。この規律があって初めて、AI は見逃しを減らす味方になります。
製薬に関わる立場では、もう一つの柵があります。承認された使用目的の範囲を超えて効能を示唆しないこと、特定製品を宣伝・推奨に読める形で持ち上げないことです。診断 AI の性能を語るときも、中立の事実にとどめる。次回は、画像という「見る」情報から、電子カルテという「書き・残す」情報へ ── AI が診療記録をどう変えるかに進みます。
- 「精度 95%」は当てにならない。感度(見逃さない力)と特異度(間違えない力)は両立しにくく、実際の当たり外れは対象集団の有病率で大きく変わる。数字は必ず「何を、どの集団で測ったか」まで確かめる。
- 偽陰性(見逃し)は偽陽性より重い。誤りに気づく機会そのものを奪うからだ。だから承認された画像診断 AI の多くは「支援」であり、最終判断と責任は医師に残る。AI の陰性も人が独立に確認する運用が要る。
- 承認は「この使用目的で、この対象に」という限定つきの許可。範囲を超えた効能の示唆は薬機法(誇大は 66 条、未承認は 68 条、情報提供は 68 条の 2)に触れる。製薬の立場では、特定製品を宣伝・推奨に読める形で語らず、中立の事実にとどめる。
- 厚生労働省. 医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法). 第 66 条・第 68 条・第 68 条の 2. (広告規制・情報提供の一次条文)
- 独立行政法人 医薬品医療機器総合機構(PMDA). プログラム医療機器(SaMD)の承認・認証情報. PMDA 医療機器情報検索. (国内の画像診断支援 AI の承認事例)
- U.S. Food and Drug Administration(FDA). Artificial Intelligence and Machine Learning (AI/ML)-Enabled Medical Devices. FDA, 2024. (米国で承認された AI 医療機器一覧)
- Gulshan V, Peng L, Coram M, et al. Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs. JAMA, 2016;316(22):2402-2410. (糖尿病網膜症検出 AI の代表的検証研究)
- McKinney SM, Sieniek M, Godbole V, et al. International Evaluation of an AI System for Breast Cancer Screening. Nature, 2020;577:89-94. (乳がん検診 AI の外部検証、感度・特異度の報告)
- 厚生労働省 医薬・生活衛生局. 医療用医薬品の販売情報提供活動に関するガイドライン(販提 G). 医薬・生活衛生局長通知, 2018. (製薬の情報提供活動の物差し)
- 厚生労働省 医薬・生活衛生局 監視指導・麻薬対策課長. 医薬品等適正広告基準. 課長通知. (広告表現の判断基準)