최신 LLM일수록 인간처럼 논리적 오류를 범한다 mahler83, 2023-04-082023-04-10 성능이 좋은 언어모델일수록 인관과 유사한 논리적 오류를 범한다는 내용 논문의. Garbage in, Garbage out을 비튼 제목이 재미있다. (3/30) https://arxiv.org/abs/2303.17276 Erotetic Theory of Reason (ETR) 인간 논리적 추론 방식을 설명하는 모델 중 하나로 – 참으로 생각하는 전제조건을 나열하고 – 의문문으로 바꿔서 그에 대한 답을 함. 그 답에 따라서 경우의 수가 나뉨 – 각각의 경우의 수에 대해 전제조건과 어긋나는 경우를 소거해나가면 합리적인 결론만 남음 erotetic equilibrium 모든 가능한 alternative를 탐색해서 소거하고 진실임이 확실한 경우의 수 하나만 남긴 상태 modus ponens A이면 B이다라는 전제조건이 참이면 A가 선행사건으로 일어난 것이 확실하면 B도 일어날 것이라는 것을 추론하는 방식 예시 카드 더미에 A와 Q가 함께 존재하거나, K와 J가 함께 존재하고 있다. 만약 카드를 한 장 열어서 A가 나왔다면 함께 존재해야 할 카드는? 인간의 ETR 방식은 “내가 AQ 상황과 KJ 상황 중 어느 쪽에 있을까?”하고 탐색하게 한다. 그러면 AQ상황이라고 생각하고 Q도 있어야 한다고 착각하게 된다. modus ponens 방식으로 추론해도 비슷하다. A가 있다면 Q가 있다. 지금 A가 있다. 그러므로 Q도 있다. 이렇게 착각하기가 쉽다 확률에 대한 착각 확률에서 두가지를 동시에 만족하는 것의 확률을 한가지를 만족하는 확률보다 높다고 여기는 경향이 있다. 수학을 잘하고 야외활동을 좋아하는 사람을 두고 “수학자이며 등산모임에 나가는 사람”일 확률을 “등산모임에 나가는 사람”일 확률보다 높다고 착각할 수 있다 잠깐 생각나서 물어봄. 아직 멀었구나 GPT ㅎㅎㅎ Irrational opportunity-cost neglect. 1) 재미있는 비디오를 살까? 아니면 재미있는 비디오를 사지 말까? 2) 재미있는 비디오를 살까? 아니면 다른데 쓸 수 있게 아껴둘까? 사실상 1,2번의 선택에 의해 일어나는 결과는 같은데, 1번에 사라고 답하는 경향이 있다 Methods 이런 문제 61개를 담은 ETR61 benchmark를 만들어 GPT-3, GPT-3.5, GPT-4에게 질문함. 엄청 어렵다… Results What if anything follows?라고 답을 하도록 질문한 경우 3.5가 가장 성적이 낮음 Does it follows that 정답? 형태로 정답이 맞는지 판별하게 시킨 경우는 점점 높아지는 양상 Consistency를 봤을 때는 3, 3.5는 비슷하고 4에서 많이 올라감 In Table 2 we observe upward trends in rates of answers produced and answers endorsed that are predicted by ETR as common-sense judgments. 인간이 하기 쉬운 실수를 재현하는 경우. GPT-3보다 GPT-4가 모든 면에서 비율이 더 높음. intra-generational comparison에서 GPT-4가 오류를 맞다고 하는 경우보다 오류를 생성하는 경우가 매우 높은 것이 특징 Discussion Discussion에서 GPT3.5가 GPT3보다 model size가 커졌다는 식으로 기술되어있는데, 이건 아니라고 알고 있는데? 아무튼 exact details of the model differences have not been made public, making it difficult to theorise more specifically라는 말에는 동의 Discussion에 나온 예시를 직접 넣어봤는데, GPT-3.5는 중간 과정은 틀렸지만 결론은 맞음 GPT-4는 인간이 저지르기 쉬운 형태의 오류를 범함 신기하다 ?? 그러면 어떻게 사고하도록 유도해야 오류를 줄일 수 있을까? 일반적인 CoT prompt와 ETR prompt를 주고 다시 물어봐서 오류가 얼마나 줄어드는지 실험. GPT-3.5에서 ETR의 효과가 유의미하게 컸음(매우크네) Conclusions 3.5와 4가 3보다 common sense judgement를 잘함4에서 오류 생성을 많이 함ETR가 prompt engineering에 활용될 수 있음앞으로 모델 크기가 커지고 훈련데이터가 커져도 인간이 저지르는 논리적 오류가 계속 문제가 될텐데, ETR를 이용해 훈련데이터를 생성해 논리적 오류를 줄인 모델을 훈련시킬 수 있을 것이다. My thoughts Medical reasoning에 대한 benchmark을 해보고 prompt에 어떤 전략을 넣느냐에 따라 오류가 줄어드는지를 관찰하는 실험심리, 인지 관련 전문가들이 LLM을 많이 파헤치면 좋겠다 Originally tweeted by 말러팔산 (@mahler83) on 2023-04-08. Share this:TwitterFacebook Large language model
Large language model ChatGPT를 활용한 flipped learning을 위한 프롬프트 2023-07-142023-07-14 의예과에서 의학 용어를 배우는 “의학입문”이라는 수업이 있는데, 이 수업은 flipped learning(거꾸로 수업)을 적용하고 있다. Flipped learning은 교수가 강의를 하지 않고, 학생들이 각자 미리 공부해온 내용을 발표하고 토론하는 형태의 수업이다. 작년까지는 학생들에게 조를 배정하고 각 조별로 교과서의 소주제를 배정한 뒤 알아서 공부해오는 방식이었는데, 올해는 ChatGPT와 같은 인공지능 챗봇을 이용해 공부할 수… Share this:TwitterFacebook Read More
Large language model ChatGPT가 일본 의사면허시험 통과 2023.4 2023-04-252023-04-25 GPT-3.5, GPT-4를 이용해 일본 의사면허시험을 풀게 한 결과 필수문항 82.7%(80%이상) 기초 및 임상 문항 77.2%(74.6%이상) 합격함. 틀린 문제는 의학지식의 부족, 일본 가이드라인에 대한 무지, 수학적 오류가 주요 원인이었다는 논문 (2023 4/24) 저자: Yudai Tanaka, Takuto Nakata, Ko Aiga, Takahide Etani, Ryota Muramatsu, Shun Katagiri, Hiroyuki Kawai, Fumiya Higashino, Masahiro Enomoto,… Share this:TwitterFacebook Read More
Large language model LLM에 대해 알아야 할 8가지 2023.4 2023-04-102023-04-10 LLM에 대해 알아야 할 8가지 (4/2)Samuel Bowman님의 글: https://arxiv.org/abs/2304.00612 1. Scaling law: 학습데이터, 모델 크기(파라미터 개수), 학습에 들어간 연산(FLOPs단위)가 커질수록, 즉 투자를 많이 할수록 예측 가능한 형태로 성능이 증가한다. Figure1을 보면 조작이라도 한 것처럼 추세가 확실함 2. 예측 가능한 성능 증가의 부산물로 emergent behavior가 예측 불가능한 형태로 나타난다. 예를 들어… Share this:TwitterFacebook Read More