ChatGPT에게 트윗 내용을 분석해서 레이블링하는 작업을 시켜봤는데, 인간보다 싸고 빠르다는 내용의 논문 (3/27)
https://arxiv.org/abs/2303.15056

레이블링이 이전 연구에서 이미 진행된 2382개 트윗을 이용.
- 작업1: “content moderation”이라는 주제와 관련이 있는지 여부(RELEVANT/IRRELEVANT)
- 작업2: content moderation이 문제점이라고 하는지 어떤 문제에 대한 해결책으로 언급하는 것인지(PROBLEM/SOLUTION)
- 작업3: 주제분류(economy/capacity&resource/morality/fairness&equality/constitutionality&jurisprudence/law&order,crime&justice/security&defense/health&safety/QOL/cultural identity/public opinion/political/external regulation and reputation/other)
- 작업4: positive/neutral/negative stance
- 작업5: 관련 이슈(Section230/Trump ban/twitter support/platform policies/complaints/other)
아마존 MTurk이라는 데이터 레이블링 작업을 하는 인력시장(…)이 있음. 여기에 아웃소싱한 결과와 chatGPT API(gpt-3.5-turbo)에 temperature값을 0.2와 1로 놓은 것을 비교함
ChatGPT는 $68, MTurk은 $657 비용 발생. ChatGPT는 온도값을 두가지로 반복했으니까 사실상 $34인 셈. 시간도 비교해줬으면 좋았을 것 같은데 그건 안 나옴. 100k annotation에 약 $300정도 비용 발생을 예상함
Results
관련성 유무, 6개 Topic 분류하는 것을 제외하고는 ChatGPT가 훨씬 성적이 좋음. 평가자간 일치도도 ChatGPT쪽으 높음. 특히 14개 주제 분류하는 애매한 문제에서 성능이 좋고 trained annotator보다도 우수해보이는 경향.

Discussion
- Temperature 값은 낮게 잡는 것이 intercoder agreement를 높이는데 도움이 되니까 이쪽을 추천
- 훈련된 연구자가 레이블링하기에도 어려운 문제인데 ChatGPT가 0-shot으로 이정도 결과를 낼 수 있다는 것이 고무적
- GPT 4.0을 이용하면 또 어떨지가 궁금
My thoughts
- annotation이 안 된 텍스트를 많이 쌓아두고 있는 연구자들이 적극 활용해서 가지고 있던 데이터 털어내는데 아주 좋은 툴이 될 듯
- 주관식 설문조사가 많아질 듯
- Hypothesis generation과 classification작업 모두 LLM이 하는 사회학 연구가 엄청 많아질 듯
Originally tweeted by 말러팔산 (@mahler83) on 2023-03-28.
More from my site
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Leave a Comment