자연어 의무기록에 생성모델을 적용해 미래 건강 예측

의무기록은 자연어로 되어있어서 활용하기 어렵다 같은 소리를 하던 시절은 정말 저물어가는 것 같다.

Foresight — Deep Generative Modelling of Patient Timelines using Electronic Health Records
https://arxiv.org/abs/2212.08072

환자의 의무기록 텍스트에서 의학 용어를 추출해서 timeline 형태로 만듦 (중간에 나이가 들면 나이 먹는 이벤트 삽입)
이걸 GPTv2로 학습시켜 앞으로 어떤 이벤트들이 일어날지 예측

대단하다 싶은 점
– 자연어 형태의 기록만 있으면 다 사용 가능
– 데이터의 시간해상도 영향을 안 받음
– 생성모델이니까 iteration하면 사망할 때까지 어떤 의학적 이벤트가 일어날지 연대기처럼 예측 가능

충분한 데이터로 학습한 뒤 what if 실험이 가능하다는 게 활용도가 좋아보인다. 부산시 인구집단 300만명 만들어놓고, 혈당 관리를 빡세게 하는 정책을 취했을 때와 그러지 않았을 때 20년 뒤에 기대여명 차이나 의료비 차이 같은 걸 시뮬레이션 가능할 듯

근본적으로는 시간에 따른 건강 관련 정보가 어떤 형태로든 쌓여있으면 transformer를 이용해서 미래를 예측 가능하다는 것. 개인 단위에서는 정확도가 떨어지는 것이 부담스러울 수 있지만, 인구집단 수준으로 시뮬레이션할 수 있으면 이게 healthcare 정책 관련해서는 최고의 도구 아닐까.

Originally tweeted by 말러팔산 (@mahler83) on 2022-12-31.

부연설명:

Transformer라는 머신러닝 알고리즘은, 시계열 데이터가 있을 때 앞서서 있는 데이터에 뒤이어서 어떤 데이터가 출현할지를 예측하는 모델이다. RNN이나 LSTM에 비해 가지는 장점은 context window(미래 예측에 사용하는데 사용하는 과거 데이터 범위)를 넓게 가지게 하면서 그 안에서 어떤 요소들에 특별히 더 “attention”을 가져야 하는지를 학습할 수 있다는 점이다. (병렬연산이 가능하다는 것도 물론 중요) 텍스트 데이터라는 것이 단어들이 순차적으로 배열되어있고, 순서가 중요한 형태의 데이터이기 때문에 자연어 처리에 Transformer 모델이 많이 사용되고 있는 것이다. 건강정보도 텍스트 정보처럼 여러가지 건강관련 컨셉들이 순차적으로 연결되어있는 시계열 데이터로 이해하면 똑같은 모델을 적용해 다음에 나올 단어를 예측하듯 다음에 일어날 건강관련 이벤트를 예측할 수 있게 된다.

CC BY-NC-SA 4.0 This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Leave a Comment

Time limit is exhausted. Please reload CAPTCHA.