Large language model Navigating the Jagged Technological Frontier – DellAcqua 2023.9 mahler83, 2023-09-18 healthcare, energy, finance등 다양한 분야의 management consultant 758명을 GPT-4를 사용한 그룹과 그렇지 않은 그룹으로 나누어 업무 효율성을 확인한 연구 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321 창의적 작업 AI 사용 그룹이 25% 짧은 시간내에 12% 더 많은 작업을 끝냄. 결과물에 대한 평가 점수도 40% 더 높음 performance 상하위 50%를 나누어 비교한 경우 하위 그룹이 도움을 더…
Creativity 작가에게 GPT-4의 아이디어를 제공하면 더 창의적 글쓰기가 가능하다 – Doshi 2023.8 mahler83, 2023-08-142023-08-14 작가가 GPT-4의 도움을 받을 경우 더 창의적인 결과가 나왔다는 연구 – Doshi 2023.8 원문: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4535536Generative artificial intelligence enhances creativityAnil R Doshi, Oliver Hauser 창의력을 올리는 기전 방해하는 기전 위 두가지가 동시에 일어날 수도 있다. 예: novelty는 있지만 usefulness는 낮음 Methods 293명의 작가에게 8문장의 창의적 이야기를 작성하게 함.사람 혼자, GenAI 아이디어…
Generative AI GPT-4와 인간 크라우드소싱 비교 연구 – 2023.8 mahler83, 2023-08-132023-08-13 사업 아이디어를 얻기 위한 크라우드소싱과 GPT-4를 비교한 연구. LLM은 얼마나 창의적일까? – Boussioux 2023.8 원문: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4533642The Crowdless Future? How Generative AI Is Shaping the Future of Human Crowdsourcing 크라우드소싱을 하는 이유 하지만 AI는 적은 시간과 비용으로 scalable and consistent하게 아이디어 제공이 가능함 Croudsourcing 실험 Results AI level 1, 3가 novelty,…
Large language model GPT-4가 TTCT에서창의력 상위1% – Guzik 2023.7 mahler83, 2023-07-302023-07-30 아직 논문은 공개가 안 됐고, 7/5 날짜로 보도자료만 나온 상황 [기사링크] My thoughts
Large language model 온라인 게시판 의학 질의응답에 ChatGPT가 인간의사보다 나은 답변을 – 2023.4 mahler83, 2023-05-012023-05-01 온라인 환자의 질문과 의사의 답변을 수집해 같은 질문에 ChatGPT로 답변을 생성했고, 의사의 답변과 챗봇의 답변을 비교한 연구. 챗봇이 생성한 답이 더 높은 평가를 받고 79:21로 선호받음. JAMA IM에 올라온 논문 (2023 4/28) 원문 https://jamanetwork.com/journals/jamainternalmedicine/fullarticle/2804309 Data 레딧 r/AskDocs에 올라온 질문과 의사 인증 받은 유저의 답을 2022년 10월 기간 동안 195건 랜덤하게…
AI 고객지원 부서에 LLM 적용 후 분석한 논문 2023.4 mahler83, 2023-04-252023-04-25 LLM기반 소프트웨어를 도입해서 5천여명 고객지원 상담원의 생산성을 분석. 14% 처리량 증가, low-skilled일수록 효과가 큼. 고객 만족도 증가, 이직 감소. (2023 4/24) 저자: Erik Brynjolfsson, Danielle Li & Lindsey R. Raymond 원문: https://www.nber.org/papers/w31161 Findings 요약 1) 13.8% increase in number of chats resolved per hour – 하나의 상담을 더 빨리 해결…
Large language model ChatGPT에게 트윗 분류 작업을 시켜봤다 2023.4 mahler83, 2023-04-232023-04-23 ChatGPT에게 트윗을 분류하는 작업을 시켰을 때 60.9% 정확도가 나왔고, 작업의 종류별로 성능은 다양하게 나왔다는 결과 (2023 4/20) 원문: https://arxiv.org/abs/2304.10145 Croud-sourced annotation에서 ChatGPT가 어느 정도의 역할을 해줄 수 있을지를 확인함. 기존 연구는 대부분 단일 task를 시켰는데, 이 연구에서는 다양한 작업을 시켜 비교분석함. Dataset Human annotation이 되어있는 다음 4가지 주제 1) Stance…
AI ChatGPT로 뉴스를 분석해 일일주가 예측이 가능하다 2023.4 mahler83, 2023-04-192023-07-19 ChatGPT로 뉴스를 분석해 주가(daily return)를 예측할 수 있다는 실험결과. 더 약한 언어모델로는 정확도가 떨어졌다고. (2023 4/10) 원문: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4412788 연구의 출발 LLM은 온갖걸 다 잘하는데 주가 예측을 위한 학습은 되어있지 않음. 하지만 언어의 맥락을 파악하는 능력(sentiment analysis)이 있으니까 가능성이 있음. Contributions 1) LLM을 금융시장 관련해 사용하는 효용과 위험을 밝힘. 누구나 다…
Large language model 대중매체를 학습한 언어모델로 설문조사 결과 추정 2023.3 mahler83, 2023-04-182023-07-19 미디어에 fine-tuning시킨 언어모델로 대중의 의견을 예측 가능하다는 논문 (2023 3/28)저자: Eric Chu, Jacob Andreas, Stephen Ansolabehere, Deb Roy https://arxiv.org/abs/2303.16779 Introduction 기존에는 public opinion(민심?)을 설문을 통해 수집되었는데, 설문 응답률이 갈수록 떨어지고 있음. 온라인 설문으로 응답률은 어느 정도 극복되지만 대표성 있는 표본을 얻는 것이 어려움. 비용도 많이 들어감. 대중매체의 영향에 대한 연구에서…
Large language model ChatGPT가 데이터 라벨링 작업을 인간보다 싸고 정확하게 mahler83, 2023-03-282023-07-19 ChatGPT에게 트윗 내용을 분석해서 레이블링하는 작업을 시켜봤는데, 인간보다 싸고 빠르다는 내용의 논문 (3/27) https://arxiv.org/abs/2303.15056 레이블링이 이전 연구에서 이미 진행된 2382개 트윗을 이용. 작업1: “content moderation”이라는 주제와 관련이 있는지 여부(RELEVANT/IRRELEVANT) 작업2: content moderation이 문제점이라고 하는지 어떤 문제에 대한 해결책으로 언급하는 것인지(PROBLEM/SOLUTION) 작업3: 주제분류(economy/capacity&resource/morality/fairness&equality/constitutionality&jurisprudence/law&order,crime&justice/security&defense/health&safety/QOL/cultural identity/public opinion/political/external regulation and reputation/other) 작업4: positive/neutral/negative stance…