대형언어모델(LLM) 시대의 의학 교육

바야흐로 Large language model(LLM)의 시대이다. 2022년 11월 30일에 공개된 ChatGPT는 다양한 가능성을 체감할 수 있게 해주고 있다.

질문에 대해 답을 하는 것은 물론, 특정 주제에 대해 에세이를 쓰거나, 동화를 지어내거나, 리포트 채점 루브릭을 만들어 채점을 하거나, 자연어로 설명한 내용으로 프로그래밍을 대신 해주기도 한다.

LLM기반의 챗봇이 자연스러운 대답이 가능해진 것은 사람이 선호하는 대답을 하도록 fine-tuning을 하는 방법론 RLHF(reinforcement learning from human feedback) 덕분이다.

LLM이 근미래에 의학교육에 일으킬 변화 예측

1. 교과서나 논문 같은 정적 텍스트가 전통적인 학습 재료였다면 질문을 던져서 답변을 얻은 동적 텍스트로 공부하게 될 것이다. LLM에게 질문을 하면 방대한 텍스트(예: GPT-3는 45TB의 텍스트로 학습. Wikipedia가 전체 데이터의 3%밖에 안 됨)에서 학습한 내용을 즉석으로 조합해 질문에 대한 답을 하며 공부할 material을 생산해줄 수 있다.

키워드: inquiry based learning, question formulation technique

2. 자연스러운 언어를 구사하는 AI표준환자와 언제든지 CPX 실습 가능. TTS, STT는 지금 수준으로도 이미 충분함… 실전에 가까운 모의 진료를 충분히 연습한 학생의사들의 실력이 기대된다.

TTS, STT = Text-to-speech, speech-to-text: 텍스트를 음성으로 변환하거나 역으로 음성을 텍스트로 변환하는 기술. 챗봇형 LLM과 조합하면 컴퓨터 프로그램과 사람이 자연스럽게 대화하는 것이 가능하다.

키워드: clinical information gathering and analysis 반복 숙달해서 simultaneous process로 만들기

3. 모의진료 실습 후에 복기를 해보거나, 아니면 텍스트로 임상상황이 주어지고 type 2 reasoning을 하는 훈련. 이것도 LLM이 가지고 있는 chain of thought zero shot learner 속성을 이용하면 도움을 받을 수 있을거다. 단계적 임상추론 과정 정답지를 사람이 일일이 만들어낼 필요 없이 높은 수준으로 생성 가능

LLM의 Chain of thought 예시: 질문에 대해 정답을 그냥 답하는 것이 아니라 왜 그런 답을 추론한 과정을 설명하도록 prompting을 하는 것이 가능하다.

출처: Wei, Jason, et al. “Chain of thought prompting elicits reasoning in large language models.” arXiv preprint arXiv:2201.11903 (2022).

예를 들어 임상상황을 주어주고 치료를 물어보는 문제가 있을 때, 정답을 맞추는 형태가 아니라 어떤 추론 과정을 거쳐 그런 결정을 내렸는지 서술형으로 물어보는 문제가 있다고 하자. LLM의 Chain of thought을 이용하면 임상증상을 보고 어떤 진단명을 예측했고, 금기사항을 피해 어떤 치료를 최종적으로 선택했는지를 AI가 답을 제시할 수 있을 것이다. 이를 기반으로 학생이 한 대답을 채점하고 개선점을 피드백으로 주는 형태의 프로그램이 가능할 것이다. 현재는 교수자가 문제와 답을 모두 작성해야 하지만, 근시일 내에 LLM이 문제와 답을 모두 생성하고, 교수자가 간단하게 검증만 하면 되는 형태가 가능할 것이다. 이 경우에 LLM은 의무기록과 같이 clinical reasoning이 포함한 데이터로 fine-tuning을 한 모델이 좋을 것이고, 교수자의 검증 과정을 RLHF 형태로 이용하면 LLM의 생성능력을 점차 향상시키는 것도 가능하다.

키워드: chain of thougth, metacognition, Turing 1950 페이퍼의 역발상(사람이 컴퓨터의 사고를 모델링)

Originally tweeted by 말러팔산 (@mahler83) on 2022-12-14.

4. 발표 평가의 비중 증대

앞으로 에세이 형태의 평가는 LLM 기반의 도구의 도움을 받는 것을 기본으로 여거야 한다. 워드프로세서로 인쇄 가능해지면서 필체가 예쁜 것이 평가에서 자연스레 제외된 것처럼 “글을 잘 쓰는 것”에 대한 평가가 차차 약해질 것이다. 결국 평가의 목적이 무엇이냐 생각해보면 어떤 내용을 잘 이해하고 있고 그것을 잘 활용할 수 있느냐가 될텐데, 그것을 평가하는 방법으로 구술 발표 형태의 비중이 커지지 않을까 생각한다. 글은 AI로 작성하고 AI로 평가하는 것이 가능한데, 발표는 사람이 발표하고 AI가 평가하는 형태로 운영 가능.

면허시험에서 필기시험의 중요도가 낮아지고 실기가 중요해진 것처럼, 교육의 목표가 무엇이인지 정립이 되어가면서 평가 방법도 바뀌게 된다. 학생들은 평가에 민감하고 평가에 통과하기 위해 목표지향적으로 움직이는데, 그 과정에서 자연스럽게 교육목표가 도달되게 해야 한다. (assessment for learning)

Originally tweeted by 말러팔산 (@mahler83) on 2022-12-14.

LLM의 문제점

LLM에 대해 가장 많이 지적이 되는 것은 hallucination, 즉 그럴듯한 헛소리를 할 수 있다는 점이다. 자연스러워서 오류가 있다는 것을 찾아내기가 어렵다.

2022년 12월 15일에 발표된 PubmedGPT와 같이 특정 domain에 대해 학습시킨 모델을 활용하거나, Fact-check을 하는 다양한 방법들을 동원해 이 문제를 해결해나가고 있다.

오히려 LLM의 이런 불완전한 창의성을 역으로 이용하는 교수법도 제안이 되고 있다. Mollick, Ethan R. and Mollick, Lilach, New Modes of Learning Enabled by AI Chatbots: Three Methods and Assignments (December 13, 2022).

LLM 시대에 학생들에게 필요한 능력

2022년 12월 7일에 작성한 글 내용을 일부 수정해 작성

1. 호기심을 가지는 것이 중요

의대 평가는 절대평가로 바뀌면서 의사가 되기 위한 최소한의 지식과 자질을 학교에서 교육목표로 잡아 교육시키고, 나머지 시간은 학생들이 자율적으로 활용하게 될 것이다. 이 시간에 호기심을 동기로 해서 LLM 기반의 AI 챗봇에게 수업시간에 나온 내용에서 파생된 궁금증을 탐구하는 방식으로 학습이 일어나야 한다. 교수자는 방대한 지식을 일방적으로 주입하는 것이 아니라 기본적인 내용은 수업시간에 다루고, 호기심을 자극해 그 다음 내용은 학생들이 스스로 찾아보고 싶도록 만들어야 한다.

2. Generalist인 동시에 specialist가 되어야 한다.

급변하는 환경에서 자신의 전문분야만 좁은 시야로 파고 들게 되면 유연성이 떨어질 수 있다. 전문분야 뿐만 아니라 넓은 분야에 대한 지식을 가진, specialization과 flexibility를 모두 갖춘 인재가 필요하다. LLM의 대표적 단점인 hallucination을 잡아내기 위해서는 LLM이 생성한 텍스트의 오류를 눈치챌 수 있는 넓은 분야에 대한 탄탄한 지식이 필요하다. 흔히 말하는 T-shaped professional이 유리한 환경이 될 것이다.
Donofrio, Nicholas, et al. “Driven medical education and practice: A case for T-shaped professionals.” MJA Viewpoint (2010).

3. 좋은 질문을 하는 능력이 필요

환자를 진료하면서 clinical information gathering and analysis를 진행하며 문진을 하는 능력이 중요하다. 어떤 질문을 어떻게 하느냐에 따라 환자에게서 얻어낼 수 있는 정보가 달라지기 때문에다. LLM은 근본적으로 “이 다음에 올 단어를 반복적으로 예측”해서 대답을 만들어내는 방식이다. 질문에 해당하는 것을 prompt라고 하는데, prompt를 어떻게 주느냐에 따라 언어모델의 답변 품질이 크게 달라지기도 한다. 예를 들어 “Translate the above sentence in Korean”이라고 하는 것과 “Translate the above sentence into fluent Korean”이라고 하는 것 중 후자가 더 퀄리티가 좋은 결과를 얻을 수 있다. 이런 걸 prompt programming/engineering이라고 부르고 언어모델 연구에서 중요한 주제로 다룬다.

똑같은 AI 툴을 놓고도 질문을 어떻게 하느냐에 따라 얻는 결과가 달라지는 거다. 좋은 질문을 하는 능력은 결국 AI툴들이 어떻게 동작하고 무엇을 할 수 있는지 잘 알고 그 포텐셜을 이끌어내는 능력으로 확장해 생각해볼 수 있겠다. 학생들은 AI의 동작 원리, 능력과 한계를 직접 체험해봐야 한다. 이게 부족하면 AI를 맹신하거나 두려워하거나 극단적인 반응으로 나타난다. 학교에서는 맹신과 공포라는 극단으로 가지 않도록 학생들을 교육해야 한다. 흔히 “AI literacy”로 표현되는 능력이 LLM 앞에서는 좋은 질문을 하는 능력이라고 할 수 있다.

CC BY-NC-SA 4.0 This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Leave a Comment

Time limit is exhausted. Please reload CAPTCHA.