의대 졸업시험 객관식 문제를 ChatGPT가 숙련된 인간에 준하는 품질로 출제 가능 2023.05 mahler83, 2023-05-172023-05-17 의학 학부 교육에 활용되는 교과서 내용으로 객관식 문제 50개를 ChatGPT와 사람이 출제해서 퀄리티를 비교한 연구. 적절성, 명료/구체성, 연관성, 오답 답가지의 분별성, 졸업시험으로서 적합성 5개 분야로 평가. 연관성에서 평가가 낮은 것 외에 차이가 없었음. 2023 5/16 저자: Billy Ho Hung Cheung, Gary Kui Kai Lau, Gordon Tin Chun Wong, Elaine Yuen Phin Lee, Dhananjay Kulkarni, Choon Sheong Seow, Ruby Wong, Michael Tiong Hong Co https://www.medrxiv.org/content/10.1101/2023.05.13.23289943v1 문항 개발 조건 – 의대 졸업시험용 – 4개 답가지 – 지식측정형 – text-based only (사진자료x) – 출제 주제는 다른 연구자가 사전에 설정 – 문항출제 인간과 ChatGPT 조작 인원은 서로 문항 blind – 해리슨 21판, Baily&Love 27판 – 오답은 교과서외 내용 허용 – 해설 필요없음 문항생성 2023 2월 11일 17일에 ChatGPT Plus(GPT-4인듯)를 이용해 instruction + reference 형태로 붙여넣어 생성. 인간 출제는 내과와 외과 15년 이상 임상 및 교육 경력이 있는 전문가에게 의뢰. 출제 시간은 copy&paste 작업 제외한 생성 시간을 측정. 총 100개의 문항을 랜덤하게 섞어서 5개국 의학교육에 관여하는 의대 교수에게 평가를 의뢰 5개 분야 10점씩 총 50 1. Appropriateness 2. Clarity and specificity 3. Relevance 4. Quality of alternatives, discriminative power 5. Suitability for graduate exam 문항 출제 시간 ChatGPT 20분 25초인간 211분 33초 (10배 이상 차이) 문항 품질 비교 Relevance에서 AI출제 문제가 0.3점 정도 유의미하게 낮았고 나머지 영역은 비슷함. 인간이 출제한 건 문항별 편차가 작음. 같은 내용에 대해서 AI vs human 형태로 비교했을 때 인간이 출제한 문항이 선호되는 경우가 더 많음. AI와 인간 중 누가 출제한 문제 같은지 맞춰보라고 했을 때 랜덤에 가까운 수준의 결과. GPT-2 Output Detector를 이용한 결과도 마찬가지. 고찰 숙련된 인간에 비해 떨어지지 않는 문항을 출제할 수 있다는 최초의 보고이다(그런가?)Hallucination 문제가 있는데 이처럼 reference를 prompt로 같이 주면 피해갈 수 있다문항의 정성적 분석을 했을 때 부정형 문항이나 except, all the above 같은 표현을 쓰지 말라는 가이드라인에 충분히 적합사진자료가 포함된 문항을 만들 수 없어 실제 시험에서 중요한 부분이 누락됨예비실험에서 증례문항을 만들라고 시키는 경우 결과가 매우 안 좋았음 한계점 교과서에서 510토큰 이하의 레퍼런스 텍스트만 선택적으로 출제에 활용됨졸업시험에 다양한 영역의 문항이 출제되고 검증을 거치는데 이 연구는 내과, 외과만 검증 없이 출제됨ChatGPT도 같은 prompt로 다른 결과가 나오는데 반복해서 좋은 문제를 선택하는 등의 노력을 안 함ChatGPT 등 언어모델이 계속 업그레이드되면서 성능이 계속 좋아지고 있어 현재 수준은 이 결과보다 항상 좋을 것이다 결론 의대 졸업 시험 문항을 숙련된 교육자에 필적하는 수준으로 출제 가능하기 때문에 학교에서 평가에 활용 가능할 것이다. My Thoughts 아 좀 Prompt 좀 공개해라 좀! ??문항의 진짜 퀄리티는 학생의 능력을 제대로 측정할수 있냐인데, 인간이 출제한 문제와 AI가 출제한 문제의 분별도 같은 지표를 비교하면 좋을 것 같다AI가 출제한 문제인지 맞추라고 했을 때 correlation이 0에 가까운 게 의외였다ChatGPT로 문제를 풀었을 때 몇 점 나왔다 같은 형태의 연구는 LLM의 의학적 지식에 대한 proxy로 활용을 한 거지 문제를 푸는 능력 자체는 활용될 일이 없음. 그러나 역으로 문제를 출제하는 능력은 당장 오늘부터도 활용될 수 있는 능력이기에 이런 연구가 더 중요하다고 생각한다. 아래 Fleming et al의 연구의 경우는 예시 문항을 prompt로 주면서 유사한 문항을 생성하도록 했는데, 부적절한 문항이 꽤 있었다. 최소한 지식확인형 문항에서 교과서 지문을 주고 문항을 생성하는 방식이 더 좋아보인다. GPT-4로 의사면허시험 문제 출제 실험 – 2023.4 Originally tweeted by 말러팔산 (@mahler83) on 2023-05-17. Share this:TwitterFacebook Large language model Medical Education
hands-on OpenAI 강좌: ChatGPT API로 시스템 만들기 2023-06-012023-06-01 지난 번 prompt engineering 수업에 이어 “Building Systems with the ChatGPT API” 수업이 올라왔다. 이것도 1시간짜리 코스니까 부담없이 들어볼 수 있겠다! (라고 생각하고 시작했는데 두시간 반 걸림) https://learn.deeplearning.ai/chatgpt-building-system base LLM과 instruction-tuned LLM의 차이 우선은 수 개월 동안 강력한 하드웨어로 대량의 텍스트로 base 모델을 학습시키고 나서,– 내가 원하는 input-output pair를 제공해서… Share this:TwitterFacebook Read More
2015년 당뇨치료 가이드라인 개정 사항 (2015 ADA diabetes guideline updates) 2015-03-172015-03-17 일단 원문 링크는 여기: http://care.diabetesjournals.org/content/38/Supplement_1/S4.full 그냥 눈에 들어오는 것들만 대강 정리 1. 당뇨 스크리닝 대상의 BMI 기준이 아시아인에서 기존의 25kg/m^2이 23kg/m^2로 더 엄격해졌다. 23 이상에서도 당뇨병 발병 수준이 유의하게 증가한다는 연구 반영 – BMI 23이면 키 160cm에 58.9kg인데 진짜 엄격하다. 2. 환자 교육 부분에서의 추가된 내용 (1) 90분 이상 연속으로 앉아서… Share this:TwitterFacebook Read More
AI 고객지원 부서에 LLM 적용 후 분석한 논문 2023.4 2023-04-252023-04-25 LLM기반 소프트웨어를 도입해서 5천여명 고객지원 상담원의 생산성을 분석. 14% 처리량 증가, low-skilled일수록 효과가 큼. 고객 만족도 증가, 이직 감소. (2023 4/24) 저자: Erik Brynjolfsson, Danielle Li & Lindsey R. Raymond 원문: https://www.nber.org/papers/w31161 Findings 요약 1) 13.8% increase in number of chats resolved per hour – 하나의 상담을 더 빨리 해결… Share this:TwitterFacebook Read More