【医療AI】嘘を信じて事故寸前?ハルシネーションを見抜く3つの回避術

当ページのリンクには広告が含まれています。
AIの嘘を見抜くポーズをとる女性薬剤師のイラスト

※本記事はAIツールの安全な活用方法を解説する教育記事です。

「ChatGPTに相互作用を聞いたら、添付文書と違う回答が返ってきた気がする…」

そんな経験はありませんか?

正直なところ、私も最初は「まさかAIが嘘をつくなんて」と甘く見ていました。ところがある日、論文要約をお願いした結果に違和感を覚え、原著を確認したところ、存在しない数値データがもっともらしく書かれていたのです。

これは「ハルシネーション」と呼ばれる現象で、生成AIが事実に基づかない情報をあたかも真実のように出力する現象です。一般的な業務であれば「間違いに気づいて訂正すればいい」で済むかもしれません。しかし医療現場では、1つの誤りが患者さんの生命やQOLに直結します。

「AIは危険だから使わない」という選択もあるでしょう。しかし医療DXが進む今、AIを完全に避けることは難しく、むしろリスクを正しく理解し、コントロールする力が求められています。

AIが「もっともらしい嘘(ハルシネーション)」をつく原因は、主に以下の2点に集約されます。

  • 学習データの限界: AIが学習した知識そのものに誤りがあったり、情報が古かったりする場合。
  • 確率的な推論: AIは「真実」を理解しているのではなく、統計的に「次に続く可能性が高い言葉」を繋げて作文しているに過ぎないため。

つまり、AIにとっての「正解」とは、事実との整合性ではなく「文章としての自然さ」なのです。

この記事では、医療AIにおけるハルシネーションの仕組みから実際の事故事例、そして明日から現場で使える3つの具体的対策までを解説します。読み終える頃には、「AIの嘘を見抜く目」と「安全に活用する武器」が手に入ります。

目次

医師も騙された?AIがつく「もっともらしい嘘」の正体

実際にあったハルシネーション事例:架空の論文・捏造された数値

「権威ある学術誌の論文を引用している」と思ったら、その論文自体が存在しなかった

2023年にNature誌で発表された研究によると、ChatGPT-3.5が精神医学関連の論文を引用した際、約55%が架空の論文だったことが判明しています。著者名、掲載誌、タイトルまで「それらしく」生成されており、専門家でも一見しただけでは見抜けないレベルでした。

出典: Fabrication and errors in bibliographic citations generated by ChatGPT(Nature, 2023)

さらに衝撃的な事例があります。2025年、米国の内科誌Annals of Internal Medicine: Clinical Casesで報告された症例では、60歳男性がChatGPTに「塩化ナトリウムの代替品」を質問し、提案された臭化ナトリウムを3ヶ月間摂取。結果、妄想・幻覚などの重篤な症状で精神科に入院しました。血中臭化物濃度は1,700 mg/L(正常値:0.9〜7.3 mg/L)と桁違いの数値でした。

出典: Eichenberger A, et al. “A Case of Bromism Influenced by Use of Artificial Intelligence.” Annals of Internal Medicine: Clinical Cases. 2025;4:e241260. doi:10.7326/aimcc.2024.1260

幸いなことにこの事例では入院治療により回復しましたが、「AIの提案をそのまま実行する」ことの危険性を示す象徴的な事例です。

音声AIも例外ではない:Whisperの「暴力的発言」捏造

ハルシネーションはテキスト生成AIだけの問題ではありません。

OpenAIの音声認識AI「Whisper」は、医療現場での文字起こしに使われることがあります。しかし2024年のAP Newsの調査報道によると、Whisperが患者の発言にない暴力的・人種差別的な内容を捏造して文字起こしする事例が確認されました。

例えば、沈黙の箇所に「テロリストナイフを持っていたから何人も⚪︎した」といった攻撃的なフレーズが挿入されたり、実在しない薬の名前が生成されるケースです。これが電子カルテに記録されれば、患者の評価に重大な影響を与えかねません。

音声のノイズや沈黙を「埋めよう」とするAIの特性が、事実にない発言を生み出してしまうのです。

出典: AP News: OpenAI’s Whisper hallucinates violent content in medical transcriptions(2024)

なぜ嘘をつく?「確率的オウム」の仕組みを3分で解説

ここで重要な前提があります。AIは「嘘をつこう」と思って嘘をついているわけではありません。では、なぜこのような「もっともらしい嘘」が生まれるのでしょうか。

ChatGPTやGPT-4などの大規模言語モデル(LLM)は、「オートレグレッシブモデル(自己回帰モデル)」と呼ばれる仕組みで動いています。簡単に言えば、直前の単語から「次に来そうな単語」を確率で予測し、繰り返すというものです。

例えば「薬剤師は病院で」という文の続きを予測するとき、LLMは膨大な学習データから「働く」「勤務する」などが確率的に高いと判断し、出力します。この過程で「事実かどうか」は検証されていません。

研究者はこれを「確率的オウム(Stochastic Parrot)」と呼ぶことがあります。オウムが人間の言葉を真似るように、LLMも「それらしい言葉の並び」を生成しているだけ。意味を理解しているわけではないのです。

医療の文脈で「この薬の禁忌は」と質問すれば、LLMは学習データから「禁忌」の後に来やすいパターンを予測します。正解を「知っている」わけではなく、統計的にありそうな回答を生成しているのです。

「嘘」ではなく「創造」?生成AIの本質的な設計思想

もう1つ押さえておきたいのは、LLMが「クリエイティブな能力」を称賛されて発展してきたという背景です。

小説を書く、詩を詠む、企画書を作成する——これらのタスクでは「学習データにない新しい組み合わせ」を生成する能力が求められます。LLMはまさにその能力において優れているからこそ、世界中で注目を集めました。

しかし医療においては、「創造性」は諸刃の剣です。存在しない薬剤の組み合わせ、根拠のない投与量、架空の論文——すべて「新しい組み合わせを生成する」能力の裏返しと言えます。

つまりハルシネーションは「バグ」ではなく、LLMの設計上の特性です。これを理解した上で「どう付き合うか」を考える必要があります。

医療現場でハルシネーションが「命取り」になる3つのリスク

AIの「もっともらしい嘘」が医療現場で引き起こす具体的なリスクを3つ解説します。いずれも実際の報告や研究に基づいた事例です。

これらの事例を知ることで、「どこでハルシネーションが起きやすいか」を予測できるようになります。予測できれば、対策も立てやすくなります。

1. 存在しない添付文書情報の捏造(相互作用・禁忌)

「この薬とあの薬、一緒に飲んで大丈夫ですか?」

DI業務で頻繁にある質問です。経験上、ChatGPTに聞くと一見正しそうな回答が返ってきます。しかし添付文書やインタビューフォームを確認すると、そのような記載が存在しないことがあります。

Mount Sinai医科大学の2024年の研究では、GPT-4oを使った臨床要約タスクにおいて、対策なしの場合53.3%の確率でハルシネーションが発生しました。別のモデル(DeepSeek)では80%という驚異的な数値も報告されています。

出典: Healthcare IT News / Mount Sinai(2024)

相互作用や禁忌の情報は、患者の生命に直結します。「AIが言っていたから」では済まされないリスクがあります。

具体例:CYP代謝の落とし穴

DI業務でよくある質問に「この抗がん剤と免疫抑制剤、併用できますか?」というものがあります。

ChatGPTに聞くと、CYP3A4やP糖タンパク質を介した相互作用について「一般論」を回答することがあります。しかし問題は、その説明が正確とは限らないことです。

例えば「〇〇はCYP3A4で代謝されるため、△△との併用で血中濃度が上昇する」という回答があったとします。しかし実際にはCYP3A4ではなくCYP2D6が主経路だったり、P糖タンパク質の関与が無視されていたりすることがあります。

こうした誤りは、添付文書やインタビューフォームを確認すれば発見できます。しかしAIの回答を「正しい」と思い込んでしまうと、確認作業がおろそかになりがちです。

経験上、CYP関連の質問ほど、AIの回答を鵜呑みにすると危険です。代謝経路は薬剤ごとに異なり、学習データの古さや不正確さが影響しやすい領域だからです。

2. 小児過量投与も見逃す?計算能力の意外な低さ

「3歳児に〇〇mgを投与」——その用量、本当に合っていますか?

2024年にJAMA Pediatricsで発表された研究(Barileら)では、ChatGPT-3.5に100件の小児科症例を診断させたところ、正確な診断はわずか17%でした。残りの83%は誤診や不十分な回答だったのです。

出典: Barile J, et al. “Diagnostic Accuracy of a Large Language Model in Pediatric Case Studies.” JAMA Pediatrics. 2024;178(3):313-315. doi:10.1001/jamapediatrics.2023.5750

LLMは計算が苦手という特性も知られています。体重換算、クレアチニンクリアランスからの用量調整など、数値計算を伴う業務では特に注意が必要です。

興味深いのは、LLMが計算ミスをしても自信満々に回答を出力する点です。「これで合っていますか?」と確認しても「はい、正しいです」と返答することがあります。この「自信」が、かえって人間の警戒心を緩めてしまいます。

3. ガイドラインの古い常識への先祖返り

医学は日進月歩です。昨日の常識が今日の非常識になることも珍しくありません。

しかしLLMの学習データには「いつの情報か」という時間軸の概念が乏しいです。最新のガイドラインと10年前のガイドラインを同等に扱ってしまう可能性があります。

例えば心不全の治療では、ここ数年で推奨される薬剤が大きく変わりました。しかしLLMに質問すると、古い治療方針を「正しい」として回答する場合があります。

経験上、「最新の」「2024年時点の」と指定しても、必ずしも最新情報が返ってくるとは限りません。学習データのカットオフ日以降の情報は、そもそもLLMには存在しないからです。

明日から使える!ハルシネーションを防ぐ「3つの防波堤」

ここからは具体的な対策を解説します。すべて明日から実践できる内容です。

対策1【心構え】Human-in-the-Loop(ヒトの監視)を義務化する

最も重要な対策は「AIを最終判断者にしない」ことです。

厚生労働省の「保健医療分野におけるAI活用推進懇談会報告書」でも、医療AIの最終責任は医師(人間)にあると明記されています。これは単なる建前ではなく、現時点のAI技術の限界を踏まえた実践的な方針です。

参考: HAIP: 医療・ヘルスケア分野における生成AI利用ガイドライン

私が実践しているルールは以下のとおりです。

  1. AIの回答は「仮説」として受け取る:確定情報ではなく、検証すべき候補として扱う
  2. 必ず一次情報源で裏取りする:添付文書、インタビューフォーム、ガイドラインで確認
  3. 判断の責任は自分が負う:「AIが言っていた」は言い訳にならない

ちなみに、この心構えがあるかないかで、AIの「使い勝手」も変わってきます。「AIに全部任せよう」と思うとストレスが溜まりますが、「仮説生成ツール」と割り切ると、驚くほど便利に使えます。

実践例:DI業務での確認フロー

具体的に、私がDI業務でAIを使う際のフローを紹介します。

ステップ1:AIで初期調査

「〇〇と△△の相互作用について、可能性のある機序を教えて」のように質問し、検討すべき候補を洗い出します。この時点ではAIの回答を「確定情報」ではなく「調査のスタート地点」として扱います。なお、ここでは添付文書インタビューフォームのPDFも同時に添付して質問を渡します。

ステップ2:一次情報源で検証

AIが挙げた相互作用の候補について、添付文書やインタビューフォームの原文を確認します。特に以下のポイントをチェックします:

  • 代謝経路(CYP関連)はAIの説明と一致しているか
  • 禁忌や併用注意の記載は正しいか
  • AIが挙げていない重要な相互作用がないか

ステップ3:判断と記録

検証結果に基づいて最終判断を行います。このとき、「AIの回答は参考にしたが、最終判断は添付文書とガイドラインに基づいた」という記録を残しておくと安心です。

AIを使う/使わないの判断基準

すべての業務でAIを使う必要はありません。私が実践している判断基準は以下のとおりです。

業務AIの活用理由
よくある相互作用の初期調査○ 活用候補の洗い出しに便利
用量計算(特に小児・高齢者)× 使わないLLMは数値計算が不得意で、体重換算やCCr補正で誤りやすいため
禁忌・警告の最終確認× 使わない添付文書を直接確認すべき
論文の要約○ 活用原著確認を前提に
ガイドラインの最新情報○ 活用概要をさっと知るため・公式サイトで直接確認

この使い分けを意識するだけで、ハルシネーションのリスクを大幅に低減できます。

対策2【技術】RAG(検索拡張生成)ツールの活用

ハルシネーションを技術的に抑制する方法として、RAG(Retrieval-Augmented Generation)があります。

RAGとは、AIに信頼できる外部知識ベース(データベース・ガイドライン・論文など)へのアクセス権を与え、その情報に基づいて回答させる技術です。

JMIR Cancerで発表された2024年の研究では、RAGを導入したAIシステムががん情報に関する質問でハルシネーション率0%を達成した事例が報告されています。信頼できるソースを参照することで、「創造」を抑制し「情報検索」に近い動作になるのです。

出典: JMIR Cancer / PMC12425422(2024)

実用ツール:Perplexity / Genspark

無料で使えるRAG搭載ツールとして、PerplexityGensparkがあります。

ツール名特徴医療への適性
Perplexityウェブ検索と連動した回答生成一般的な疑問調査に便利、ただし医療特化ではない
Genspark複数ソースを比較しながら回答情報の信頼性比較に便利

使い方の例として、「〇〇と△△の相互作用」をPerplexityで検索すると、回答とともに参照したウェブページのリンクが表示されます。この「出典が見える」点が、ChatGPT単体との大きな違いです。

私自身、日常的にPerplexityを使っています。

無料プランでも十分便利ですが、Perplexity Pro(有料プラン)にすると、GPTやClaudeなど複数のAIモデルを選べるようになり、リアルタイム検索の回数制限もなくなります。特にリサーチをしっかりしてくれるため、DI業務で頻繁に調べ物をする方は、一度試してみる価値があります。ChatGPTのDeepResearchも質が高くなってきましたが、月額20ドルのPlusプランだとすぐにDeepResearchライトに切り替わってしまうのですよね。

Perplexityの具体的な使い方(DI業務編)

Perplexityを使う際の実践的な手順を紹介します。

Step 1:質問を明確にする

「〇〇について教えて」ではなく、「〇〇と△△の併用禁忌について、添付文書やガイドラインの情報を教えて」のように、求める情報と信頼できるソースを指定します。

Step 2:出典リンクを確認する

回答の下に表示される参照元URLを必ずチェックします。PMDA、各学会のガイドライン、PubMedなどが引用されていれば信頼度が高いです。逆に、個人ブログやQ&Aサイトが中心なら、回答内容を慎重に検討しましょう。

Step 3:ソースを直接確認する

Perplexityの回答はあくまで「要約」です。気になる点があれば、リンク先の原典を直接確認してください。特に用量や禁忌に関する情報は、原典で正確性をダブルチェックすることが重要です。

Step 4:回答を「仮説」として活用

Perplexityで得た情報を、添付文書やインタビューフォームで照合します。一致していれば信頼できる情報、一致しなければさらなる調査が必要——という判断材料として使いましょう。

ただし注意点があります。PerplexityもGensparkも医療専用ツールではありません。参照先の信頼性は自分で判断する必要があります。PMDAや各学会のガイドラインにリンクしていれば信頼性が高い、個人ブログなら慎重に——という判断は、やはり人間が行う必要があります。

対策3【実践】「嘘を封じる」魔法のプロンプト(CoV/Role)

プロンプトの工夫だけでハルシネーション率を劇的に下げられることをご存知でしょうか。

Mount SinaiのIcahn School of Medicineの研究(2025年発表)では、6つのLLMを用いて臨床情報の要約タスクでハルシネーション率を測定。GPT-4oは対策なしでは53.3%のハルシネーションが発生しましたが、緩和プロンプトを適用することで20.7%まで低下。その鍵となるのがCoV(Chain of Verification)というプロンプト技法です。

出典: Healthcare IT News: Mount Sinai experts compare hallucinations across 6 LLMs(2025)

CoV(自己検証プロンプト)テンプレート

以下は私が実際に使っているプロンプトです。コピーしてそのまま使えます。

あなたは慎重な医療専門家です。以下のルールを厳守してください。

【回答前のルール】
1. 情報源を明記する:引用元(ガイドライン名・論文タイトル)を必ず示す
2. 不確かな場合は正直に申告する:「確認が必要です」「最新情報を参照してください」と明記

【回答後の自己検証(必須)】
回答を作成した後、以下の観点で自己チェックしてください:
- この情報は特定の公式ソースに基づいているか?
- 数値データは正確か?計算過程に誤りはないか?
- 最新のガイドラインと矛盾していないか?

自己検証で問題が見つかった場合は、修正した上で回答してください。

このプロンプトのポイントは2つあります。

  1. Role(役割付与):「慎重な医療専門家」と指定することで、推測や創造を抑制
  2. CoV(自己検証):回答後にAI自身が見直すプロセスを義務化

正直なところ、これで100%防げるわけではありません。しかし「何も対策しない状態」と比較すると、誤情報を出力する確率は明らかに下がります。

CoT(思考のステップ化)との併用

もう1つ有効なのがCoT(Chain of Thought)プロンプトです。

この質問に回答する前に、思考のステップを順番に示してください:
1. まず、質問の意図を確認する
2. 次に、関連する情報を列挙する
3. その後、矛盾がないか検証する
4. 最後に、結論を述べる

「いきなり答えを出す」のではなく「考えるプロセスを見せる」ことで、論理の飛躍——つまり捏造——を抑制できます。

医療用統合プロンプト(コピペ可)

最後に、CoVとCoTを組み合わせた医療向け統合プロンプトを紹介します。これをカスタマイズして使ってください。

【あなたの役割】
あなたは慎重な医療専門家です。推測や憶測ではなく、確認可能な事実のみ回答してください。

【回答の形式】
以下の手順で回答してください:

1. 【質問の確認】
   - 質問者が知りたいことを正確に把握する
   - 曖昧な点があれば確認を求める

2. 【情報収集】
   - 関連する情報を列挙する
   - 情報の出典を明記する(ガイドライン名、添付文書、論文タイトルなど)

3. 【分析】
   - 集めた情報を分析し、結論を導く
   - 複数の見解がある場合はそれぞれ示す

4. 【回答】
   - 結論を簡潔に述べる
   - 不確実な点は正直に「確認が必要です」と明記する

5. 【自己検証】※必ず実行
   - 上記の回答に事実誤認はないか?
   - 出典は実在するか?
   - 最新のガイドラインと矛盾していないか?
   - 問題があれば修正してから回答する

【禁止事項】
- 存在しない論文やガイドラインを引用しない
- 不確実な用量・禁忌情報を断定しない
- 「おそらく」「たぶん」で重要な医学情報を述べない

このプロンプトは長めですが、一度設定すれば繰り返し使えます。ChatGPTの「Custom Instructions」に登録しておくと便利です。

それでもAIへの不安が消えないあなたへ(まとめ)

AIは「完璧な医師」ではなく「疲れを知らない助手」

ここまで読んで、「やはりAIは怖い」と感じた方もいるかもしれません。

しかし冷静に考えてみてください。人間もミスをします。疲労、見落とし、思い込み——医療現場でヒューマンエラーがゼロになることはありません。

AIの価値は「完璧であること」ではなく、「疲れを知らないこと」「大量のデータを瞬時に処理できること」にあります。深夜の当直で疲弊しているとき、100件のカルテを確認するとき、AIは黙々と作業を続けます。

重要なのは「使いどころ」を見極めること。最終判断を任せるのではなく、「仮説生成」「情報整理」「ルーチンワークの効率化」にAIを活用する。その上で、判断責任は人間が負う。

この使い分けができれば、AIは強力なパートナーになります。

「Augmented Intelligence」という考え方

最近では、「Artificial Intelligence(人工知能)」ではなく「Augmented Intelligence(拡張知能)」という用語が使われることがあります。

これは「AIが人間を置き換える」のではなく、「AIが人間の能力を拡張する」という考え方です。医療において大切なのは、AIに仕事を奪われることを恐れるのではなく、AIを使いこなして自分の能力を高めること。

例えば、DI業務で膨大な文献を調査する際、AIが候補を絞り込んでくれれば、私たちは判断と確認に集中できます。これがAugmented Intelligenceの本質です。

AIのハルシネーションは確かにリスクですが、そのリスクを理解し管理できることが、これからの医療従事者に求められるスキルになるでしょう。

リスク管理ができる薬剤師こそ、これからの時代に重宝される

興味深いことに、ハルシネーションのリスクを正しく理解している薬剤師は、むしろ市場価値が上がる可能性があります。

医療DXが進む中で、「AIを導入したいが使い方がわからない」「リスク管理をどうすればいいか」と悩む医療機関は少なくありません。そこで「AIのリスクと対策を理解し、安全に運用できる薬剤師」が求められるようになります。

今日学んだ3つの対策——Human-in-the-Loop、RAGツールの活用、CoV/CoTプロンプト——は、そのままあなたのスキルセットになります。

「AIなんて怖くて使えない」ではなく、「AIのリスクを理解した上で活用できる」。この差は、今後ますます大きくなるでしょう。

「AI活用」以前に、DI体制すら整っていない職場に疲れていませんか?

ここまでAI活用の対策をお伝えしてきましたが、実はその大前提として「学ぶ余裕のある職場環境」が必要です。

最後に1つ、正直なお話をします。

どれだけAIの活用法を学んでも、そもそもDI業務の体制が整っていない職場では、活かしようがありません。

「毎回自分がDI係で疲れる」「上司はAIなんて使うなと言う」「新しいことを試す余裕がない」——そんな環境であれば、まず働く場所を見直す方が先かもしれません。

実際に私の周りでも、DI体制がしっかりしている職場に転職してから「AIを業務に取り入れる余裕ができた」という声をよく聞きます。最新の医療情報を追いかけ、AIツールを活用し、専門性を高めていく——そのための土台となる職場環境は、想像以上に重要です。

AIに雑務を任せて、「人間にしかできない」患者対応に集中できる職場。そんな環境を求めて転職を考えている薬剤師の方には、まずは情報収集から始めることをおすすめします。

最初の一歩としておすすめなのは、複数の転職サイトに登録して求人情報を比較すること。

転職エージェントは「非公開求人」を多数持っているため、登録しないと見えない好条件の求人が多いです。また、担当者と話すことで「自分の市場価値」を客観的に把握できます。

求人を見るだけなら無料ですし、転職を決めなくても「今の職場が適正なのか」を判断する材料になります。

良い求人ほど早く埋まってしまうので、気になる方はまず登録だけでも済ませておくと安心です。

よくある質問(FAQ)

Q1:GPT-5.2やClaude 4.5など、最新モデルならハルシネーションは起きない?

A:残念ながら、最新モデルでもハルシネーションは発生します。

確かに最新モデル(2025年の12月現在)であるGPT-5.2やClaude 4.5は、GPT-4時代より精度が向上しています。しかしMount Sinaiの研究でも示されているように、当時の最新モデルであるGPT-4oでも対策なしでは53.3%の確率でハルシネーションが発生しています。

モデルのアップデートで多少の改善は見られますが、「完全にゼロになる」ことは現時点では期待できません。どのモデルを使う場合でも、この記事で紹介した3つの対策は必須です。

Q2:ChatGPT Plusの有料版なら安全?

A:有料版でもハルシネーションのリスクは変わりません。

ChatGPT Plus(有料版)は回答速度やアクセス優先度が上がりますが、ハルシネーション耐性が劇的に向上するわけではありません。有料か無料かではなく、使い方が重要です。

むしろ「お金を払っているから安心」と油断すると危険です。有料版でも無料版でも、必ず一次情報で裏取りする習慣をつけましょう。

Q3:医療専用のAIツールを使えば大丈夫?

A:リスクは低減しますが、ゼロにはなりません。

医療特化のAIツール(例:一部の電子カルテ搭載AIなど)は、学習データや回答の範囲を医療情報に限定しているため、一般的なLLMよりハルシネーション率が低い傾向があります。

ただし、医療専用だからといって100%信頼できるわけではありません。最終確認は人間が行う、というHuman-in-the-Loopの原則は、どのツールを使う場合でも必須です。

Q4:AIを使わないで全部手作業の方が安全では?

A:手作業にも限界があります。AIとの協働が現実的な解です。

確かにAIを使わなければハルシネーションによる影響は全くありません。しかし、人間にもヒューマンエラーは起こります。疲労、見落とし、思い込み——特に忙しい医療現場では避けられません。

重要なのは「AIか人間か」ではなく、「AIと人間をどう組み合わせるか」です。AIに下調べや候補抽出を任せ、人間が最終確認と判断を行う。この役割分担が、現実的かつ安全なアプローチです。

Q5:このプロンプトを使えば100%ハルシネーションを防げる?

A:残念ながら、100%は保証できません。

CoV/CoTプロンプトはハルシネーション率を下げる効果が研究で確認されていますが、完璧ではありません。Mount Sinaiの研究でも、対策後でも20.7%のハルシネーションが残っています。

プロンプトは「第一の防波堤」であり、「最後の砦」ではありません。Human-in-the-Loop(人間による確認)と組み合わせて初めて、安全性が確保されます。

よくある誤解と正しい理解

誤解正しい理解
「AIは嘘をつこうとして嘘をついている」AIは悪意なく「それらしい言葉」を生成しているだけ。意図的な嘘ではない
「高価なAIは安全」価格とハルシネーション率に直接的な相関はない。使い方が重要
「AIが出典を示していれば正しい」出典自体が架空のことがある。必ずリンク先を確認
「医師がAIを使えば問題ない」資格では防げない。確認プロセスの有無が重要
「AIを避ければ安全」人間にもエラーはある。AIとの役割分担が現実的

本記事のまとめ:3つの防波堤

対策ポイント今日からできること
Human-in-the-LoopAIを最終判断者にしない回答は「仮説」として、必ず一次情報で裏取り
RAGツール信頼できるソースに基づく回答PerplexityやGensparkで出典を確認しながら使う
CoV/CoTプロンプトAIに自己検証させる記事内のテンプレートをコピーして使用

ハルシネーションを「ゼロ」にすることはできません。しかしリスクを理解し、対策を講じることで、AIは頼れるパートナーになります。

まずは今日学んだプロンプトを、次のDI業務で試してみてください。「AIが嘘をつく」と恐れる側から、「AIの嘘を見抜く」側に回りましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

薬剤師キツネのアバター 薬剤師キツネ 病院薬剤師(16年経験)&医療IT/AI戦略家
目次