GPT-4는 논문 피어리뷰를 제대로 할까? – Liang 2023.10 mahler83, 2023-10-06 GPT-4로 논문 심사 의견(peer review)을 생성해 실제 사람들이 해놓은 리뷰와 비교하는 실험(후향연구)과 자신의 논문을 업로드해 심사의견을 생성하고 그에 대한 평가를 설문한 실험(전향연구) Can large language models provide useful feedback on research papers? A large-scale empirical analysis Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou 원문: https://arxiv.org/abs/2310.01783 Methods 후향연구 네이처 자매지 논문 3096개+리뷰 8745개, ICLR 논문 1709개+리뷰 6506개에 대해서 GPT-4로 생성한 리뷰와 항목별로 비교해서 얼마나 겹치는지 비교 전향연구 연구자들이 자기 논문을 업로드하면 GPT-4로 리뷰를 생성하고 그에 대한 평가를 받는 방식 Results 네이처 자매지 인간과 LLM 내용 일치도 인간 리뷰 내용은 서로 29%가 겹침 AI와 인간 리뷰 둘 중 하나와 58% 겹침, 각 리뷰어와 비교하면 31% 겹침. 즉 인간 리뷰 하나와 비슷한 수준. (Fig 2a) ICLR 인간과 LLM 내용 일치도 인간끼리 35% AI는 둘 중 하나와 77%, 각 리뷰어와 39% 겹침 (Fig 2b) 구연발표(상위5%), 스포트라이트(25%) 선정 논문일수록 AI-사람간, 사람-사람간 일치도가 낮아짐. 리젝된 논문일수록 일치도가 높음. 리젝된 경우 AI나 사람들이 공통되게 지적하는 확연한 문제가 있다는 의미. 프로세싱 초반에 AI가 큼직한 문제를 잡아줄 수 있는 가능성. LLM은 논문 특이적이지 않고 뻔한 소리만 하나 AI가 만든 리뷰를 뒤섞고 인간 리뷰와 일치도를 분석했더니 31%에서 0.43%로 감소함. 즉 non-generic feedback을 하고 있다는 소리. (Fig 2ab) LLM의 지적사항이 사람들과 유사한가 리뷰어 1인, 2인, 3인이 지적한 내용일수록 LLM도 공통으로 지적할 확률이 높아졌다 (Fig 2ef) 리뷰어가 보통 중요한 문제를 앞에서부터 순서대로 제시하는데, 리뷰 내용을 4등분해서 앞에 나오는 내요일수록 GPT와 겹칠 가능성이 높았다 (Fig 2gh) LLM과 인간의 지적 분야가 유사한가 ICLR 리뷰 내용을 11개 분야로 나눠 분석 인간 지적: novelty 10.7x, ablation실험 6.7x LLM 지적: implication of research 7.3x, 추가데이터 실험 2.2x 집중하는 분야가 다르니 일종의 collaboration이 가능함 전향연구 설문결과 후향연구와 비슷함: 70%에서 partial alignment이상 있다고 응답(4b) 33% 일부 인간보다 구체적임, 17% 인간만큼 구체적, 14% 대부분 인간보다 구체적이라고 응답(4d) 50% 도움이 된다. 7% 매우 도움이 된다.(4a) 20% 인간수준만큼 도움 된다. 20% 인간보다 도움이 된다(4c) 51% 이 시스템 또 쓰고 싶다.(4g) 인간 피어리뷰 시스템에 도움이 될 것이라는 낙관적 기대(4ef) 리뷰어보다는 저자가 제일 도움 많이 받을 것이라고 생각(4h) 기타의견 인간 리뷰어에게 지적받지 않았던 내용을 GPT에게 지적받았다는 의견 65% concrete and actionable feedback이 부족하다는 의견 Discussions 학회에 참석하거나 제대로 된 리뷰 없이 데스크리젝 당하는 “비주류” 연구자들이 LLM의 도움을 받을 수 있다 저자들이 투고 전 미리 활용해야지 진짜 리뷰 과정에 주로 활용되면 인간과 LLM의 상보적 시너지가 안 생긴다 LLM이 연구의 여러 단계에 도움이 된다는 최근 결과에 기여함 잘 써진 논문에 오류를 만들어서 LLM이 잡아낼 수 있는지 추가실험 필요 앞으로 AI assisted review 시스템을 잘 만들기 위해 LLM의 약점을 정확히 파악하는 것이 필요 영어가 모국어가 아닌 연구자들에 대한 연구도 필요. My thoughts 전향, 후향 연구를 하나로 합친 연구 설계가 정말 대단하다 LLM과 인간 리뷰어의 리뷰 내용 차이를 부정적인 것이 아니라 “서로 부족한 것을 채워주는 collaboration을 할 수 있다”라고 해석하는 것이 탁월하다 LLM을 논문 작성 후 피드백 받는 데에 잘 쓰고 있다는 경험담을 설파하고 있었는데, 근거자료로 쓸 수 있는 결과라서 매우 반갑다 “Be thoughtful and constructive” 프롬프트를 써봤는데 꽤 좋다. 앞으로 써먹어야지! Share this:FacebookX Academic writing Large language model
AI LLM으로 작은 LM을 가르칠 때 추론과정을 포함시켜 학습효율 증가 2023.5 2023-05-092023-07-19 Distilling step-by-step이라는 방식으로 적은 학습데이터와 작은 모델로 높은 성능을 낼 수 있다는 논문 (2023 5/3) 저자: Rylan Schaeffer, Brando Miranda, Sanmi Koyejo 원문 https://arxiv.org/abs/2305.02301 SOTA 대형 모델들의 문제는 memory, compute가 부담스럽고 low latency가 필요한 경우에 쓰기 어려움. 그래서 사용하는 방식이 finetuning이나 distillation finetuning: update pretrained small model with human annotated… Share this:FacebookX Read More
Large language model GPT에게 한의사 국시를 풀게 했더니 57% 정답률 – 2023.3 2023-05-232023-09-11 GPT-3.5와 GPT-4로 한의사 국가시험 문제를 풀게 했을 때 42%, 57% 정답률이 나왔다는 연구 (2023 3/31)arxiv.org/abs/2303.17807 Introduction 기존에 ML이나 rule-based로 한의학 모델을 개발하려 했으나 non-linear하고, 한의학적 지식과 추론을 표현하는 것이 어렵고, 한의사의 의사결정 과정이 implicit해서 만들기 어려웠다 Methods 2022년 1월 국시문제를 활용. 12개 과목 340개 문항. 국시문제는 공개되지 않기 때문에 training… Share this:FacebookX Read More
Large language model LLM 추론의 경우의 수를 탐색하는 Tree of Thoughts로 성능 향상 – Yao 2023.5 2023-05-202023-05-23 Chain of Thought이 추론을 단어 하나씩 순차적으로 생성해 접근하는 linear search인 반면, 다양한 작은 단계로 쪼갠 추론을 tree search처럼 찾는 방식인 “Tree of Thoughts”를 제안하는 논문. 복잡한 추론에 높은 성능을 보임 2023 5/17 저자: Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan 원문:… Share this:FacebookX Read More