Skip to content
mahler83 blog v2

Pharmacology, IoT, LLMs

mahler83 blog v2

Pharmacology, IoT, LLMs

온라인 게시판 의학 질의응답에 ChatGPT가 인간의사보다 나은 답변을 – 2023.4

온라인 게시판 의학 질의응답에 ChatGPT가 인간의사보다 나은 답변을 – 2023.4

mahler83, 2023-05-012023-05-01

온라인 환자의 질문과 의사의 답변을 수집해 같은 질문에 ChatGPT로 답변을 생성했고, 의사의 답변과 챗봇의 답변을 비교한 연구. 챗봇이 생성한 답이 더 높은 평가를 받고 79:21로 선호받음. JAMA IM에 올라온 논문 (2023 4/28)

원문 https://jamanetwork.com/journals/jamainternalmedicine/fullarticle/2804309

Data

  • 레딧 r/AskDocs에 올라온 질문과 의사 인증 받은 유저의 답을 2022년 10월 기간 동안 195건 랜덤하게 수집
  • ChatGPT에 2022년 12/22~23 기간에 환자의 질문을 입력해서 답변을 받아냄

Methods

I am an AI라든가 response 1 같이 챗봇임이 직접적으로 드러나는 내용은 삭제해서 인간 의사가 한 답변과 blind로 3인의 의료인에게 평가를 받음

  • 어느 쪽이 낫나요?
  • Quality of the information? 1~5점
  • Empathy or bedside manner? 1~5점

Results

  • 인간의 답변이 유의하게 짧음 (52 vs 211 words)
  • 78.6%에서 챗봇의 답변을 더 선호함
  • 여러 수치 면에서 챗봇의 답변이 점수가 높음
  • quality 4.13 vs 3.26 / empathy 3.65 vs 2.15
  • quality-empathy score 상관관계
  • 인간 r=0.59, 챗봇 r=0.32
  • 인간의사의 답변은 길수록 quality, empathy 점수가 모두 올라감

Discussion

  • 온라인 포럼의 질문 답변 세팅에서 챗봇이 품질과 공감 면에서 더 좋은 답을 하는 것으로 결과가 나왔다.
  • 실제 임상 상황에 대해서는 알 수 없지만, 의료 관련 messaging에 도움이 될 수 있다는 근거자료가 될 수 있다. (도입부에 코로나19로 메세지를 이용한 상담 폭증이 언급되었음)
  • 챗봇이 도입되어 빠르고 품질 높고 공감을 갖춘 답변이 제공되면 불필요한 병원 방문을 줄여 의료자원 낭비를 막을 수 있을 것이다.
  • 병원 접근성이 떨어지는 취약집단에게 의료 형평성을 증대하는 데 도움이 될 것이다.
  • 치료 순응도를 높여 건강증진에 도움이 될 것이다.

Limitations

  • 온라인 포럼의 질문 답변이 일반적인 진료 상황에서 질문 답변과 매우 다르다는 점.
  • 실제 환경에서는 의사가 사전지식을 가지고 진료하는데, 챗봇에게 과거 기록을 제공하고 실험하지는 않았음.
  • 챗봇의 도움이 의사의 답변에 얼마나 도움을 주는지 측정하는 방식으로 실험하지 않았음.
  • 의학적 지식에 대한 질문 답변은 hospital messaging의 일부에만 해당하고, 실제로는 진료 날짜 변경, 약 추가처방, 검사결과 문의, 치료계획이나 예후에 대한 질문 등 다양함.
  • 평가자의 평가 능력에 대한 검증이 이루어지지 않음
  • 답변의 길이에 차이가 많이 나기 때문에 직접적인 비교가 어려움
  • 답변의 품질을 평가할 때 정보의 정확도에 대해서 엄밀한 검증을 거치지 않았음.
  • 품질과 공감에 대한 척도를 더 세분화하는 방식으로 평가하는 것이 가능함.
  • 환자 입장에서 공감에 대해 평가하지 않았음. (평가자들이 의료인)
  • 의료에 AI를 활용하는 것은 오류의 가능성에 대한 철저한 검증이 필요함.

My thoughts

  • 좋겠다… 이런 걸로 JAMA internal medicine에 나가는구나
  • 답변 길이가 극도로 차이나는데 애초에 이걸 서로 비교 하는 게 말이 되나? 답을 짧게 해서 길이는 맞출 수 있도록 프롬프트 조정이 필요했음. 반년 전 논문이니 너그럽게 읽자…

Originally tweeted by 말러팔산 (@mahler83) on 2023-05-01.

Share this:

  • Twitter
  • Facebook
Large language model Medicine Social studies

Post navigation

Previous post
Next post

Related Posts

Generative AI

Google AI에서 발표한 환자 데이터 생성 모델 EHR-Safe

2022-12-222022-12-22

오늘 아침에 올라온 Google AI에서 발표한 환자 데이터 생성 모델 EHR-Safe에 대한 논문을 훑어봤다. https://ai.googleblog.com/2022/12/ehr-safe-generating-high-fidelity-and.html (블로그)https://www.researchsquare.com/article/rs-2347130/v1 (논문 preprint) 1.환자 개인정보 보호 2.Encoder-Decoder와 GAN을 조합한 형태 3.충실도가 매우 높음 4.결측치도 실제와 가깝게 생성 5.추후 자연어 의무기록과 영상데이터도 생성하도록 발전시킬 예정(헐) 생성모델의 구조가 특징적인데, 의무기록 데이터는 sparse, heterogeneous하기 때문에 GAN으로 직접 생성하기가…

Share this:

  • Twitter
  • Facebook
Read More
Large language model

Radiation oncology 분야에서 LLM의 성능 평가

2023-04-062023-04-06

Radiation oncology physics라는 특정 주제에 대한 LLM 성능 평가 논문 (4/1) 원문: https://arxiv.org/abs/2304.01938 It is therefore important to also study LLMs on more obscure and specialized topics where the size of the training data is likely much smaller Radiation oncology physics therefore represents a topic that is relatively unknown to…

Share this:

  • Twitter
  • Facebook
Read More
Large language model

ChatGPT fine-tuning 기능 신설

2023-08-232023-08-23

GPT-3.5 Turbo의 fine tuning 기능이 생겼다.이전까지는 GPT-3까지만 가능해서 fine-tuning이 필요한 작업에 GPT-3를 사용하는 것을 봤는데 잘 된 것 같다. GPT-3.5 turbo fine-tuning 사용처 사실 위의 내용은 지금까지는 instruction을 잘 주거나 1-shot, few-shot으로 어느 정도 해결 가능한 문제이긴 했다. 하지만 fine-tuning을 해놓으면 instruction이나 exemplar가 필요 없어진다. 그러면 그만큼 prompt가 짧아지고 사용할…

Share this:

  • Twitter
  • Facebook
Read More

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Meta

  • Log in
  • Entries feed
  • Comments feed
  • WordPress.org
  1. mahler83 on 공부 잘하는 과학적 방법 – Weinstein 2018.12023-07-30

    접속자가 갑자기 늘어서 홈페이지가 오동작을 했습니다. 시간이 지나면 나아질 것 같습니다.

  2. SkyHigh on 공부 잘하는 과학적 방법 – Weinstein 2018.12023-07-30

    PC에선 잘 보이는데 모바일(아이폰)에선 한번 보이고 이후부턴 계속 나오질 않네요. 뭔가 문제가 있어보입니다. 한번 확인해봐주세요

  3. mahler83 on DadGPT 한자능력검정시험 교재 4급II (자체제작)2023-07-19

    참고로 이번 주가 어문회 시험 신청 기간입니다. 좋은 결과 있으시길!

  4. Jin on DadGPT 한자능력검정시험 교재 4급II (자체제작)2023-07-19

    감사합니다~ 어이 말고 재가 해야 겠어요~

  5. mahler83 on GPT에게 한의사 국시를 풀게 했더니 57% 정답률 – 2023.32023-06-14

    안녕하세요, 댓글이 스팸필터에 걸려있어 뒤늦게 확인했습니다. 트위터에서 멘션이나 DM주셔도 되는데 번거로운 방식을 선택하신 이유가 궁금하네요. 일단 메일 드리겠습니다.

  • 3D Printing
  • Academic writing
  • Adsense
  • AI
  • AWS
  • Creativity
  • DIY
  • favorites
  • Gaming
  • Generative AI
  • hands-on
  • Home Assistant
  • Ideas
  • IT
  • Lab Stuff
  • Large language model
  • Law
  • Machine Learning
  • Medical Education
  • Medicine
  • My Thoughts
  • Neuroscience
  • Parenting
  • Pedagogy
  • Pharmacology
  • PHP
  • PokemonGo
  • Precision medicine
  • Reasoning
  • Science
  • Social studies
  • Statistics and Math
  • Tips & Techs
  • Twitter API
  • Ubuntu
  • Uncategorized
  • Web development
  • Web News
©2023 mahler83 blog v2 | WordPress Theme by SuperbThemes