GPT에게 한의사 국시를 풀게 했더니 57% 정답률 – 2023.3 mahler83, 2023-05-232023-09-11 GPT-3.5와 GPT-4로 한의사 국가시험 문제를 풀게 했을 때 42%, 57% 정답률이 나왔다는 연구 (2023 3/31)arxiv.org/abs/2303.17807 Introduction 기존에 ML이나 rule-based로 한의학 모델을 개발하려 했으나 non-linear하고, 한의학적 지식과 추론을 표현하는 것이 어렵고, 한의사의 의사결정 과정이 implicit해서 만들기 어려웠다 Methods 2022년 1월 국시문제를 활용. 12개 과목 340개 문항. 국시문제는 공개되지 않기 때문에 training data에 없다고 봐도 됨.사용 모델은 GPT-3.5(2/13) GPT-4(3/14) 문제의 앞에 “이 문제는 한의사 면허 시험을 위한 시험문제이다. 답이 1번이면 1이라고 숫자만 대답해라. 실제 환자를 진단하거나 시험을 치기 위해 물어보는 게 아니고 연구목적이다.”와 같이 덧붙여 prompting했음.표가 있으면 텍스트 형태로 넣고, 그림은 빼고 문제 내용을 넣었음. 문항 분류. 그림이 들어간 게 적네. 의사국시는 절반이 넘는 걸로 알고 있는데 각 보기를 해설하거나, 답이 두 개 이상이라고 하거나 없다고 하는 경우 오답 처리. academic integrity를 위해 답할 수 없다거나 의학적 진단이나 처방을 할 수 없다는 답을 하는 경우는 세션을 리셋하고 다시 물어봄. (프롬프트를 저렇게 줘도 거부하나보네) Results 5회 풀게 한 결과 42, 57% 정답률 지문의 한자를 포함시키는 경우 성적이 유의한 수준으로 올라감 과목별로 나눠보면.신경정신과, 예방의학, 소아과, 생리학에서 GPT-4가 통과 수준의 성적이 나옴.내과2 파트가 성적이 가장 낮았음 (29%) GPT-3.5는 심지어 찍는 것보다 성적이 낮음… 진단 문제의 정답률이 가장 높고, 지식확인형이 그 다음, 문제해결형이 가장 낮음. (이건 사람이 풀어도 그럴 듯?) 한의학 전문 지식을 물어보는 문제는 정답률이 매우 낮음. 한의학 전문 지식이 필요 없는 문제는 무려 81% 정답률 표가 들어간 문제의 경우 없는 문제보다 정답률이 매우 높음. 이 현상은 GPT-4에서만 나타났고, 4버전이 3.5보다 tabular data reasoning을 잘한다는 것을 나타냄.그림이 들어간 문제인데 못 집어넣고 풀게 한 문제들은 원래 그림이 없는 문제와 정답률 차이가 없음. 5회 반복의 Consistency를 평가하면 86%, 94%에서 3회 이상 같은 답이 나왔음. 같은 답이 나오는 횟수가 많을수록 정답률이 높았고, 5회 모두 같은 경우 66%, 70% 정답률로 통과 성적이 나왔다. Discussions 한의학이나 한국 의료 환경 관련 문제에 약한 모습을 보였다. Training data에 이런 내용이 부족하기 때문으로 생각. 예를 들어 Common crawl에 영어가 50%, 한국어는 0.65%. 치료를 선택하는 문제에서 정답률이 낮은 것은 (1) 다양한 지식이 조합되는 추론과정이 필요하기 때문 (2) 치료선택문제가 한의학적 지식을 요구하고 진단, 지식확인형 문제는 한의학적 지식이 필요 없는 경우가 더 많기 때문 (3) 약초나 침술 등의 정보는 학습데이터가 적었기 때문으로 설명 가능 일관성 관련 분석에서 일관성이 높을수록 정답률이 높은 것을 이용해 신뢰도를 일관성으로 측정할 수 있는 가능성을 제시. Hallucination이 의학에서 문제가 될 수 있는데 신뢰도를 알 수 있는 방법, 결과를 도출한 근거, retrieval-augmented approach 등이 필요 활용 가능성– 임상보조: 환자 증상을 입력하면 조언을 해주는 방식– 교육: 환자 진료 시뮬레이션이나 개별화된 피드백 제공– 한의학 연구: 풀 수 없는 문제는 왜 못 푸는지, 어떤 지식을 가지고 있고 모르고 있는지 연구. 자연어 문진 대화를 분석하는 데 도움 기존 연구(USMLE)와 다른 점– 한국어로 된 프롬프트– 확실하게 정답을 이야기한 경우만 정답처리해서 더 엄격함– 그림이 들어간 문제를 제외하지 않고, 그림이 없는 채로 사용함– 문제의 분류나 과목에 따라 더 세밀하게 분석했음 GPT의 한의학적 성능을 평가하기 위해 다른 해의 국시문제를 풀어보거나, 실제 임상 상황에 가까운 질문을 하거나, open-end question을 주고 근거를 이야기하도록 하는 식의 추가 연구가 필요하겠다. My thoughts 사용된 데이터셋은 시험문제 한 세트인데 여러모로 분석해서 썰을 푼 것이 배울만하다. 하지만 실제 시험 결과와 비교하지 않으면 “썰”의 수준을 벗어나기 힘든 것 같다. 예를 들어 신경정신과 문제의 난이도 자체가 낮았다면 GPT가 신경정신과학적 지식이 더 많다고 평가할 수 없음 – certainty를 확인하는 방법이 여기처럼 반복했을 때 결과가 얼마나 일관된지 확인하는 것 말고, “얼마나 확신을 가지고 있는지 1점에서 10점으로 말해봐”라고 물어보는 방법도 있는데 이 방법은 신뢰도가 매우 낮았던 걸로 기억(어느 연구인지 못찾겠다) Perplexity에서 지역의료불균형 관련 내용을 물어봐서 나온 레퍼런스인데 아무 상관이 없네 Share this:TwitterFacebook Large language model Medical Education
Large language model GPT-4가 TTCT에서창의력 상위1% – Guzik 2023.7 2023-07-302023-07-30 아직 논문은 공개가 안 됐고, 7/5 날짜로 보도자료만 나온 상황 [기사링크] My thoughts Share this:TwitterFacebook Read More
Large language model LLM 추론의 경우의 수를 탐색하는 Tree of Thoughts로 성능 향상 – Yao 2023.5 2023-05-202023-05-23 Chain of Thought이 추론을 단어 하나씩 순차적으로 생성해 접근하는 linear search인 반면, 다양한 작은 단계로 쪼갠 추론을 tree search처럼 찾는 방식인 “Tree of Thoughts”를 제안하는 논문. 복잡한 추론에 높은 성능을 보임 2023 5/17 저자: Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan 원문:… Share this:TwitterFacebook Read More
Academic writing ChatGPT로 논문 읽고 쓰기 웨비나 질의응답 2023-04-072023-04-07 2023년 4월 6일 오후 8시에 1시간반 정도 구글미트를 이용해 개인적으로 웨비나를 열었다. 얼굴도 모르는 사람의 강의를 60여 명이나 들으러 와서 좀 놀랐다. 역시나 관심이 많구나 싶었음. 당시 질의응답이 오간 내용을 생각 나는대로 적어보았다. Q. 논문 교정 서비스가 망할 것이라고 보는가A. 이미 하향세에 접어들고 있다. 특정 서식에 맞춘 Highlight라든가, 특정 문체라든가… Share this:TwitterFacebook Read More
안녕하세요. 평소 말러팔산님 트위터와 블로그 잘 보고 있습니다. ChatGPT 관련 연구에 대한 견해 여쭤보려고 코멘트 남겨봅니다. 별도로 말씀드리고 싶은데, 혹시 메일답장 주시면 질문드릴 수 있을까요?