온라인 게시판 의학 질의응답에 ChatGPT가 인간의사보다 나은 답변을 – 2023.4 mahler83, 2023-05-012023-05-01 온라인 환자의 질문과 의사의 답변을 수집해 같은 질문에 ChatGPT로 답변을 생성했고, 의사의 답변과 챗봇의 답변을 비교한 연구. 챗봇이 생성한 답이 더 높은 평가를 받고 79:21로 선호받음. JAMA IM에 올라온 논문 (2023 4/28) 원문 https://jamanetwork.com/journals/jamainternalmedicine/fullarticle/2804309 Data 레딧 r/AskDocs에 올라온 질문과 의사 인증 받은 유저의 답을 2022년 10월 기간 동안 195건 랜덤하게 수집ChatGPT에 2022년 12/22~23 기간에 환자의 질문을 입력해서 답변을 받아냄 Methods I am an AI라든가 response 1 같이 챗봇임이 직접적으로 드러나는 내용은 삭제해서 인간 의사가 한 답변과 blind로 3인의 의료인에게 평가를 받음 어느 쪽이 낫나요?Quality of the information? 1~5점Empathy or bedside manner? 1~5점 Results 인간의 답변이 유의하게 짧음 (52 vs 211 words) 78.6%에서 챗봇의 답변을 더 선호함 여러 수치 면에서 챗봇의 답변이 점수가 높음 quality 4.13 vs 3.26 / empathy 3.65 vs 2.15 quality-empathy score 상관관계인간 r=0.59, 챗봇 r=0.32인간의사의 답변은 길수록 quality, empathy 점수가 모두 올라감 Discussion 온라인 포럼의 질문 답변 세팅에서 챗봇이 품질과 공감 면에서 더 좋은 답을 하는 것으로 결과가 나왔다.실제 임상 상황에 대해서는 알 수 없지만, 의료 관련 messaging에 도움이 될 수 있다는 근거자료가 될 수 있다. (도입부에 코로나19로 메세지를 이용한 상담 폭증이 언급되었음)챗봇이 도입되어 빠르고 품질 높고 공감을 갖춘 답변이 제공되면 불필요한 병원 방문을 줄여 의료자원 낭비를 막을 수 있을 것이다.병원 접근성이 떨어지는 취약집단에게 의료 형평성을 증대하는 데 도움이 될 것이다.치료 순응도를 높여 건강증진에 도움이 될 것이다. Limitations 온라인 포럼의 질문 답변이 일반적인 진료 상황에서 질문 답변과 매우 다르다는 점.실제 환경에서는 의사가 사전지식을 가지고 진료하는데, 챗봇에게 과거 기록을 제공하고 실험하지는 않았음.챗봇의 도움이 의사의 답변에 얼마나 도움을 주는지 측정하는 방식으로 실험하지 않았음.의학적 지식에 대한 질문 답변은 hospital messaging의 일부에만 해당하고, 실제로는 진료 날짜 변경, 약 추가처방, 검사결과 문의, 치료계획이나 예후에 대한 질문 등 다양함.평가자의 평가 능력에 대한 검증이 이루어지지 않음답변의 길이에 차이가 많이 나기 때문에 직접적인 비교가 어려움답변의 품질을 평가할 때 정보의 정확도에 대해서 엄밀한 검증을 거치지 않았음.품질과 공감에 대한 척도를 더 세분화하는 방식으로 평가하는 것이 가능함.환자 입장에서 공감에 대해 평가하지 않았음. (평가자들이 의료인)의료에 AI를 활용하는 것은 오류의 가능성에 대한 철저한 검증이 필요함. My thoughts 좋겠다… 이런 걸로 JAMA internal medicine에 나가는구나답변 길이가 극도로 차이나는데 애초에 이걸 서로 비교 하는 게 말이 되나? 답을 짧게 해서 길이는 맞출 수 있도록 프롬프트 조정이 필요했음. 반년 전 논문이니 너그럽게 읽자… Originally tweeted by 말러팔산 (@mahler83) on 2023-05-01. Share this:TwitterFacebook Large language model Medicine Social studies
Generative AI Google AI에서 발표한 환자 데이터 생성 모델 EHR-Safe 2022-12-222022-12-22 오늘 아침에 올라온 Google AI에서 발표한 환자 데이터 생성 모델 EHR-Safe에 대한 논문을 훑어봤다. https://ai.googleblog.com/2022/12/ehr-safe-generating-high-fidelity-and.html (블로그)https://www.researchsquare.com/article/rs-2347130/v1 (논문 preprint) 1.환자 개인정보 보호 2.Encoder-Decoder와 GAN을 조합한 형태 3.충실도가 매우 높음 4.결측치도 실제와 가깝게 생성 5.추후 자연어 의무기록과 영상데이터도 생성하도록 발전시킬 예정(헐) 생성모델의 구조가 특징적인데, 의무기록 데이터는 sparse, heterogeneous하기 때문에 GAN으로 직접 생성하기가… Share this:TwitterFacebook Read More
Large language model Radiation oncology 분야에서 LLM의 성능 평가 2023-04-062023-04-06 Radiation oncology physics라는 특정 주제에 대한 LLM 성능 평가 논문 (4/1) 원문: https://arxiv.org/abs/2304.01938 It is therefore important to also study LLMs on more obscure and specialized topics where the size of the training data is likely much smaller Radiation oncology physics therefore represents a topic that is relatively unknown to… Share this:TwitterFacebook Read More
Large language model ChatGPT fine-tuning 기능 신설 2023-08-232023-08-23 GPT-3.5 Turbo의 fine tuning 기능이 생겼다.이전까지는 GPT-3까지만 가능해서 fine-tuning이 필요한 작업에 GPT-3를 사용하는 것을 봤는데 잘 된 것 같다. GPT-3.5 turbo fine-tuning 사용처 사실 위의 내용은 지금까지는 instruction을 잘 주거나 1-shot, few-shot으로 어느 정도 해결 가능한 문제이긴 했다. 하지만 fine-tuning을 해놓으면 instruction이나 exemplar가 필요 없어진다. 그러면 그만큼 prompt가 짧아지고 사용할… Share this:TwitterFacebook Read More