CoT prompt에서 중요한 것은 relevance와 coherence 2022.12 mahler83, 2023-04-112023-04-11 작년 논문이긴 하지만 Chain of thought에 대한 후속연구 (2022 12/20)왼쪽에 있는 Wei 2022가 CoT 처음 보고한거고 오른쪽 아래 Wang 2022가 오늘 읽을 논문 https://arxiv.org/abs/2212.10001 사용한 task arithmetic reasoningmulti-hop factual question answering 결과 요약 validity of reasoning은 크게 상관 없다. invalid reasoning step을 줘도 80-90% 성능이 나옴중요한 건 relevant to the query, correct order of reasoning steps CoT rationale의 구성 요소 두 가지 Bridging objects: 숫자 또는 subject/object entitiesLanguage templates: 관계나 추론과정을 유도하는 언어 연구 질문 ground truth bridging objects, language templates가 중요한가?그게 아니라면 LLM의 추론에 중요한 것은 무엇인가? 사용 데이터 GSM8K: mathematical reasoning benchmark (비용 때문에 1319개 중 800개. 하아… 그놈의 비용)Bamboogle: multi-hop factual QA (125문제 전부) 사용 모델 text-davinci-002, text-davinci-003 평가 평가를 정답 맞춘 것(extrinsic eval)으로 하면 너무 strict하니까 bridging objects에 대해 intermediate recall/F1도 평가함(intrinsic eval) – GSM8K: 중간에 출현하는 숫자 (자동) – Bamboogle: intermediate entity (수동…) Invalid reasoning (IR) 실험 잘못된 추론을 examplar로 주면서 prompting하면 악영향을 미칠 것이라는 intuition을 가지고 실험을 진행. bridging object와 language template를 크게 바꿔서 추론에 도움이 아예 안 되도록 변형을 가함 (와 진짜 말도 안 되게 바꿔놓네 ㅎㅎㅎ) 일관성있게 invalid reasoning prompt를 준 경우에 성능이 약간씩 감소함 CoT와 IR이 각각 틀리는 문제에서 어떤 방식으로 틀리는지 20개씩 뽑아서 분석함. 결론은 비슷한 방식으로 틀림 추가 질문 제대로 된 추론이 CoT prompt에서 중요한 게 아니면 어떤 점이 중요할까? IR에서 사용했던 prompt를 생각해보면 잘못된 추론이라도 질문에서 나온 내용을 바탕으로 하고 있다. 같은 숫자나 같은 이름을 이용해 잘못된 추론을 구성했음.IR도 exemplar와 같은 단계를 밟음. 그 구체적 논래 전개가 틀렸을 뿐이지 전반적인 내용은 논리적인 것처럼 보임 (인간이 hallucination한 거네 ㅎㅎ) 여기서 중요한 포인트 2개 Relevance: query에 있는 숫자나 object를 정확하게 이용해서 answer를 만들었음Coherence: 논리 전개의 순서는 맞음. 내용이 틀렸을 뿐. 그럼 이 두가지에 대해 ablation 실험을 진행해보자 bridging object와 language template에 대한 각각의 relevance와 coherence를 없애버리는 식으로 4가지 실험이 가능함. 거기에 추가로 relevance와 coherence를 없앤 실험도 2가지 추가 1) Relevance: Query에서 나오지 않은 숫자로 바꾸거나, 나오지 않은 사람 이름으로 바꿔버림. 계산의 경우 처음 숫자들만 바뀌고 그 이후 계산은 제대로 했음2) Coherence: examplar의 순서를 뒤섞어버림 결과 1) IR의 영향에 비해 C, R을 건든 경우 확실히 성능이 저하됨2) Relevance가 제일 중요(7): 틀린 경우를 분석하면 엉뚱한 논리를 이용했고, cats and dogs, passengers and buses와 같이 수학문제에서 자주 출현하는 관계 없는 주제를 가져와 답을 구성했음 3) bridging object에 대해서 relevance가 중요 (2)vs(3). 즉 순서가 좀 뒤섞이더라도 bridging object가 정확하게 언급되는 것이 중요4) Language template에서는 coherence가 중요 (2)vs(4) 틀린 경우를 분석하면 incoherent language template을 사용하고 있었음 Discussion LLM은 이미 사전 학습을 통해 추론 능력을 가지고 있고, CoT 예시에서 거의 배우지 않는다. IR은 format으로 인식하고 그 내용에는 신경 안 쓰는 듯하다. 또 다르게 보면 IR 자체를 해결해야 할 task의 일부로 보는 것일수도 있다.기존의 LLM이 “good few-shot learners of reasoning”이라는 주장은 문제가 있을 수 있다. 이미 추론 능력을 가지고 있는 것으로 보인다. 그렇다면 few-shot으로 새로운 방식의 추론을 가르치는 것도 어려울 수 있겠다LLM이 학습한 데이터를 얼마나 잘 “활용”하는지 보려면 pretraining corpora를 알아야 하는데, 요즘 그게 확인하기 어렵다. 단순히 질문에 답을 맞추냐로 성능을 평가하기 보다는 이 연구처럼 추론능력 자체를 측정하는 방식이 좋을 것 같다 My thoughts Prompt의 구성요소(BO, LT)와 양상(C, R)을 환원적으로 접근해서 ablation experiment를 구성한 것이 인상적Few-shot에서 내용의 엄밀함은 좀 떨어지더라도 format만 잡아주면 역할을 하면 된다는 점에서 조금 안심이 됨. PGx 프로젝트에서 prompt 변형 실험은 조금만 해도 될 듯 Originally tweeted by 말러팔산 (@mahler83) on 2023-04-11. Share this:TwitterFacebook Large language model
Large language model GPT-4가 TTCT에서창의력 상위1% – Guzik 2023.7 2023-07-302023-07-30 아직 논문은 공개가 안 됐고, 7/5 날짜로 보도자료만 나온 상황 [기사링크] My thoughts Share this:TwitterFacebook Read More
Large language model ChatGPT를 활용한 flipped learning을 위한 프롬프트 2023-07-142023-07-14 의예과에서 의학 용어를 배우는 “의학입문”이라는 수업이 있는데, 이 수업은 flipped learning(거꾸로 수업)을 적용하고 있다. Flipped learning은 교수가 강의를 하지 않고, 학생들이 각자 미리 공부해온 내용을 발표하고 토론하는 형태의 수업이다. 작년까지는 학생들에게 조를 배정하고 각 조별로 교과서의 소주제를 배정한 뒤 알아서 공부해오는 방식이었는데, 올해는 ChatGPT와 같은 인공지능 챗봇을 이용해 공부할 수… Share this:TwitterFacebook Read More
LLM을 활요한 연구분야 주제분석 실습 – ChatGPT API, Embeddings API, Pubmed API 2023-07-19 실습 영상을 유튜브에 올렸습니다. 다음과 같은 과정으로 진행합니다. Share this:TwitterFacebook Read More