研究显示:AI聊天机器人在医疗应用中表现参差不齐
近期研究揭示AI聊天机器人在医疗应用中面临重大挑战,一项研究显示ChatGPT Health对51.6%的急诊病例进行了低度分诊。使用AI聊天机器人的癌症患者因可用性问题出现了22%的退出率,而医学研究人员对AI的采用持谨慎态度,40.3%的研究人员报告在研究中使用AI。
根据近期研究AI聊天机器人在癌症护理、急诊分诊和医学研究中的应用,AI驱动的聊天机器人显示出既有前景又存在显著局限性。多项研究的早期发现揭示了可用性挑战、准确性问题和表现不一致等问题,这引发了对其是否准备好广泛临床应用的疑问。
在涉及73名接受放化疗的癌症患者的CAM 2.0研究中,研究人员测试了数字化连续活动监测结合AI是否能简化症状监测。患者被随机分配接受市售活动追踪器,或相同的追踪器结合名为"Penny"的AI聊天机器人,后者通过短信提供支持。早期发现表明,干预组的患者在使用AI聊天机器人时遇到困难,导致显著的22%退出率。一些患者要求直接联系护理团队成员,即使他们的关切已通过数字分诊流程得到解决。这些挑战似乎影响了临床工作流程,引入了额外且意外的任务,包括帮助患者使用聊天机器人以及验证标记警报的准确性。
发表在《自然医学》杂志上的一项独立研究测试了ChatGPT Health根据真实场景进行医疗分诊的能力。研究人员向ChatGPT Health输入了60个医疗场景,并将其回答与同样审查这些场景的三名医生的回答进行比较。研究人员发现,ChatGPT Health对51.6%的急诊病例进行了"低度分诊",这意味着机器人建议患者在24至48小时内看医生,而不是建议前往急诊室。这些急诊病例包括患有危及生命的糖尿病并发症——糖尿病酮症酸中毒的患者,以及出现呼吸衰竭的患者。在即将发生呼吸衰竭等情况下,机器人似乎在"等待紧急情况变得不可否认"后才建议前往急诊室。对于中风等具有明确症状的急诊情况,机器人的分诊准确率达到100%。
与研究中的医生相比,机器人还对64.8%的非紧急病例进行了"过度分诊",建议安排不必要的医生预约。机器人告诉一名喉咙痛三天的患者在24至48小时内看医生,而实际上家庭护理就足够了。在自杀意念或自伤场景中,机器人的反应不一致。当用户表达自杀意图时,ChatGPT本应引导用户拨打988自杀与危机热线。然而,在该研究中,ChatGPT Health在不必要时引导用户拨打988,而在必要时却没有引导。
2026年1月发表在Cureus上的一项国际横断面调查评估了434名医学研究人员对AI聊天机器人的使用和看法。在参与者中,175人(40.3%)报告在研究中使用AI聊天机器人。使用情况因国家而异(32.8%-45.9%),性别和国家与使用情况均无显著关联。年龄较大和职位较高与较低的使用几率相关,比值比显示41-50岁为0.32,住院医师为0.31,顾问医师为0.17。认知度强烈预测使用情况,比值比为15.53,指南认知度的比值比为2.47。
调查得出结论,医学研究人员对使用AI聊天机器人持积极态度,但伦理和准确性问题需要进一步干预以制定系统化、统一的规则。虽然存在AI聊天机器人在研究中的使用指南,但出版商的接受程度各不相同:Springer Nature和《科学》杂志拒绝将ChatGPT列为合著者,而许多爱思唯尔期刊允许其披露使用。研究表明,ChatGPT能产生连贯且低抄袭率的写作,但在准确性、捏造参考文献和伦理关切方面面临挑战。
OpenAI的一位发言人表示,公司欢迎研究AI在医疗保健中的应用,但表示这项新研究并未反映ChatGPT Health的典型使用方式或其设计功能。该聊天机器人设计用于让人们提出后续问题以提供更多医疗情境背景,而不是对医疗场景给出单一回应。ChatGPT Health目前仅对有限数量的用户开放,OpenAI仍在努力改进模型的安全性和可靠性,然后才会更广泛地提供该聊天机器人。
数字工具为系统性癌症治疗期间治疗相关毒性的早期检测和管理提供了新机会,可能有助于改善身体功能、提高生活质量和减少住院次数。虽然这些技术可以支持患者在整个治疗过程中的旅程,并帮助临床医生微调护理,但将其整合到现实世界环境中面临若干挑战,包括数字不平等和增加医疗专业人员的负担。