AI 챗봇 의료 적용에서 혼재된 결과 보여, 연구 결과

최근 연구에 따르면 AI 챗봇이 의료 응용 분야에서 상당한 도전에 직면하고 있다. 한 연구에서는 ChatGPT Health가 응급 사례의 51.6%를 저분류(under-triage)한 것으로 나타났다. AI 챗봇을 사용한 암 환자는 사용성 문제로 22%의 중도 탈락률을 경험했으며, 의학 연구자들은 40.3%가 연구에서 AI 사용을 보고하는 등 신중한 도입 태도를 보였다.

AI 기반 챗봇이 암 치료, 응급 분류, 의학 연구에서의 사용을 검토한 최근 연구에 따르면 의료 응용 분야에서 약속과 상당한 한계를 동시에 보여주고 있다. 여러 연구의 초기 결과는 사용성 문제, 정확성 우려, 일관되지 않은 성능을 드러내며 광범위한 임상 구현 준비 상태에 대한 의문을 제기한다.

화학방사선 치료를 받는 73명의 암 환자를 대상으로 한 CAM 2.0 연구에서 연구자들은 디지털 기반 지속적 활동 모니터링과 AI의 결합이 증상 모니터링을 간소화할 수 있는지 테스트했다. 환자들은 상용 활동 추적기 또는 "Penny"라는 AI 기반 챗봇과 결합된 동일한 추적기를 무작위로 할당받았다. Penny는 문자 메시지를 통해 지원을 제공했다. 초기 결과는 중재 그룹의 환자들이 AI 기반 챗봇 사용에 어려움을 겪어 22%의 상당한 중도 탈락률을 초래했다고 나타낸다. 일부 환자는 디지털 분류 과정을 통해 이미 우려 사항이 해결되었음에도 불구하고 치료팀 구성원과의 직접 접촉을 요청했다. 이러한 도전은 임상 워크플로우에 영향을 미쳐 추가적이고 예상치 못한 작업(환자가 챗봇을 탐색하도록 돕고 플래그된 경고의 정확성을 확인하는 작업)을 도입한 것으로 보인다.

Nature Medicine에 게재된 별도의 연구는 실제 상황을 기반으로 ChatGPT Health의 의료 사례 분류 능력을 테스트했다. 연구자들은 60개의 의료 시나리오를 ChatGPT Health에 입력하고 그 응답을 동일한 시나리오를 검토한 세 명의 의사의 응답과 비교했다. 연구자들은 ChatGPT Health가 응급 사례의 51.6%를 "저분류(under-triage)"했다고 발견했다. 이는 환자가 응급실에 가도록 권장하는 대신 봇이 24~48시간 내에 의사를 만나도록 권장했다는 의미다. 응급 상황에는 당뇨병 케톤산증(diabetic ketoacidosis)이라는 생명을 위협하는 당뇨병 합병증을 가진 환자와 호흡 부전에 빠지는 환자가 포함되었다. 임박한 호흡 부전과 같은 경우, 봇은 응급실을 권장하기 전에 "응급 상황이 부인할 수 없을 정도로 명백해지기를 기다리는" 것처럼 보였다. 뇌졸중과 같이 명백한 증상을 가진 응급 상황은 100% 정확하게 분류되었다.

연구에 참여한 의사들과 비교했을 때, 봇은 또한 비응급 사례의 64.8%를 "과분류(over-triage)"하여 필요하지 않은 경우에도 의사 진료를 권장했다. 봇은 3일 동안 인후통을 겪는 환자에게 가정 치료로 충분한 상황에서 24~48시간 내에 의사를 만나도록 말했다. 자살 사고나 자해 시나리오에서 봇의 응답은 일관되지 않았다. 사용자가 자살 의도를 표현할 때 ChatGPT는 사용자를 자살 및 위기 핫라인인 988로 안내해야 한다. 그러나 연구에서 ChatGPT Health는 필요하지 않은 경우 사용자를 988로 안내했고, 필요한 경우에는 안내하지 않았다.

2026년 1월 Cureus에 게재된 국제 횡단면 조사는 434명의 의학 연구자들 사이에서 AI 챗봇의 사용과 인식을 평가했다. 참가자 중 175명(40.3%)이 연구에서 AI 챗봇을 사용한다고 보고했다. 사용은 국가별로 다양했으며(32.8%~45.9%), 성별이나 국가는 사용과 유의미한 연관성이 없었다. 나이가 많고 더 고위직인 역할은 사용 가능성이 낮은 것과 연관되었으며, 오즈비는 41~50세가 0.32, 레지던트가 0.31, 컨설턴트가 0.17로 나타났다. 인식은 오즈비 15.53으로 사용을 강력하게 예측했으며, 지침 인식도 오즈비 2.47로 마찬가지였다.

조사는 의학 연구자들이 AI 챗봇 사용에 대해 긍정적인 태도를 가지고 있지만, 윤리적 및 정확성 문제는 체계적이고 통일된 규칙을 만들기 위한 추가적 개입이 필요하다고 결론지었다. 연구에서 AI 챗봇 사용을 위한 지침이 존재하지만, 출판사 간 수용도는 다양하다: Springer Nature와 Science는 ChatGPT를 공동 저자로 거부하는 반면, 많은 Elsevier 저널은 공개된 사용을 허용한다. 연구에 따르면 ChatGPT는 낮은 표절률로 일관된 글쓰기를 생산하지만 정확성, 조작된 참고문헌, 윤리적 문제에 직면한다.

OpenAI 대변인은 AI가 의료 분야에서 사용되는 것을 살펴보는 연구를 환영하지만, 새로운 연구가 ChatGPT Health가 일반적으로 사용되는 방식이나 설계된 기능을 반영하지 않는다고 말했다. 챗봇은 의료 상황에서 단일 응답을 제공하기보다는 사람들이 후속 질문을 통해 더 많은 맥락을 제공하도록 설계되었다. ChatGPT Health는 제한된 수의 사용자만 사용할 수 있으며, OpenAI는 챗봇이 더 널리 사용되기 전에 모델의 안전성과 신뢰성을 개선하기 위해 여전히 노력하고 있다.

디지털 도구는 전신 암 치료 중 치료 관련 독성의 조기 발견과 관리를 위한 새로운 기회를 제공하며, 잠재적으로 개선된 신체 기능, 더 나은 삶의 질, 더 적은 입원에 기여할 수 있다. 이러한 기술은 환자의 여정 전반을 지원하고 임상의가 치료를 미세 조정하는 데 도움을 줄 수 있지만, 실제 환경에 통합하는 것은 디지털 불평등과 의료 전문가에 대한 추가 부담을 포함한 여러 도전을 제시한다.

AI 챗봇 의료 적용에서 혼재된 결과 보여, 연구 결과

Related Entities

Related Articles

의료계 에이전틱 AI, 높은 관심에도 도입은 초기 단계 머물러

설문조사: 임상시험 내 AI 통합, 기대치 넘어섰다

AI 통합과 파이프라인 확대로 성장하는 CAR T-세포 치료제 시장

AI 검사로 유방암 환자의 개인별 항암화학요법 효과 예측 가능

다기관 임상시험서 AI 임상 알림, 심장판막 치료율 40% 향상

References