LLM으로 작은 LM을 가르칠 때 추론과정을 포함시켜 학습효율 증가 2023.5 mahler83, 2023-05-092023-07-19 Distilling step-by-step이라는 방식으로 적은 학습데이터와 작은 모델로 높은 성능을 낼 수 있다는 논문 (2023 5/3) 저자: Rylan Schaeffer, Brando Miranda, Sanmi Koyejo 원문 https://arxiv.org/abs/2305.02301 SOTA 대형 모델들의 문제는 memory, compute가 부담스럽고 low latency가 필요한 경우에 쓰기 어려움. 그래서 사용하는 방식이 finetuning이나 distillation finetuning: update pretrained small model with human annotated data distillation: train with larger LLM generated label 저자들이 제시하는 distilling step-by-step은 단순 label generation이 아니라 label+rationale 형태의 데이터를 larger LLM으로 생성해 그걸로 finetuning/distillation하는 것. 결과 1. 절반의 학습데이터로 더 높은 성능 2. 최대 2000x까지 줄인 크기로 더 높은 성능, compute 감소 3. 학습데이터와 모델크기 모두 줄여서 더 높은 성능(80% 데이터 770M T5모델로 540B모델보다) 4. unlabeled data로도 더 효율적으로 작은 모델 distillation 가능 관련 기존 연구 – Knowledge distillation from large models – Learning with human rationales – Learning with LLM generated rationales Distilling step-by-step 1. Unlabeled data에 대해 rationale과 label을 생성시킴 2. 작은 모델에게 이 데이터가 왜 이 레이블을 가지는지 설명하는 데이터를 줘서 train 방법 modality의 구애를 받지 않는 방식이지만 text-to-text에 대해서만 실험을 진행 dataset e-SNLI, ANLI, CQA, SVAMP, ASDiv Finetuning with human-labeled examples – 220M Tb-Base 모델 – DSS가 성능이 높음 – SNLI의 경우 1/8 데이터만 사용해도 전체를 사용한 것보다 높음 Unlabeled dataset을 가지고 해도 결과가 유사 Reduce model size 220M TB-Base, 770M T5-Large, 11B T5-XXL baseline model 540B PaLM Few-shot CoT, 220M T5-Base PINTO tuning 작은 모델로도 baseline LLM보다 높은 성능을 보임 예외가 unlabeled SVAMP 실험인데, 800개로 사례가 너무 적어서인 것으로 추정해 ASDiv(2305)로 augmentation실험을 추가 (Fig 7, panel 4) 뛰어넘진 못했지만 유의미하게 올라감. training example size (x축) task performance (y축) model size (size of shaded area) 에 대한 시각화 DSS가 standard finetuning에 비해 같은 데이터를 더 효율적으로 사용. SNLI의 경우 0.1% 데이터만 활용해도 LLM보다 높음 Discussion 10-shot example을 사람이 생성해야 함. 최근 발표된 자동화된 방법을 이용하면 극복 가능더 복잡한 reasoning, planning이 필요한 작업에 대해서는 LLM이 제대로 된 rationale을 생성하지 못한다는 최근 연구가 있음(Valmeekam 2022) rationale quality의 영향 추후 연구 필요.teacher LLM의 bias를 물려받을 수 있다는 문제가 존재. anti-social behavior를 줄이는 작업이 이런 과정에도 추가되어야 한다고 생각 My thoughts – Are Emergent Abilities of Large Language Models a Mirage? 논문처럼 지표를 all-or-none으로 측정하는 것의 단점을 건들인 것이 아닌가 싶다 – augmentation 실험에서 추가 dataset을 가져다 쓰는 것이 아니라 LLM 자체로 ChatAug처럼 augmentation시키는 방식도 가능하지 않았을까 싶음 Originally tweeted by 말러팔산 (@mahler83) on 2023-05-09. Share this:TwitterFacebook AI Large language model Reasoning Uncategorized
Large language model ChatGPT를 활용한 flipped learning을 위한 프롬프트 2023-07-142023-07-14 의예과에서 의학 용어를 배우는 “의학입문”이라는 수업이 있는데, 이 수업은 flipped learning(거꾸로 수업)을 적용하고 있다. Flipped learning은 교수가 강의를 하지 않고, 학생들이 각자 미리 공부해온 내용을 발표하고 토론하는 형태의 수업이다. 작년까지는 학생들에게 조를 배정하고 각 조별로 교과서의 소주제를 배정한 뒤 알아서 공부해오는 방식이었는데, 올해는 ChatGPT와 같은 인공지능 챗봇을 이용해 공부할 수… Share this:TwitterFacebook Read More
Large language model ChatGPT가 직업적 글쓰기에 미치는 영향에 대한 정량적 연구 2023-03-142023-07-19 ChatGPT가 업무 효율에 어떤 영향을 미치는지 측정한 논문(피어리뷰 거치지 않음) 2023년 3월 6일자로 올라옴 444명의 marketer, grant writer, consultant, data analyst, HR professional, manager에게 ChatGPT 사용 그룹 vs 미사용 그룹으로 나눠 20-30분짜리 작업을 시키고 평가함 Noy, Shakked and Zhang, Whitney, Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence… Share this:TwitterFacebook Read More
Uncategorized 리눅스 원하는 포트 막기 2008-12-212020-10-22 linux 특정 port 차단, ubuntu(우분투)에서 일정 포트 닫기 by mahler83 예를 들어 pop3가 이용하는 포트인 110/tcp 포트를 막고 싶다면 iptables -A INPUT -p tcp –dport 110 -j DROP 이렇게 하면 된다. 막힌 것을 확인하려면 다음과 같이 한다. > nmap localhost Not shown: 1705 closed ports PORT STATE SERVICE 21/tcp open … Share this:TwitterFacebook Read More