환자 데이터로 예측모델 만들어 분석하는 연구를 하면 대부분의 경우 Tree-based model (XGBoost, Random Forest, Gradient Boosting Tree, AdaBoost)들의 성능이 높게 나오는 것을 경험적으로 알고 있었는데, 왜 그런지 연구한 논문. 이런 건 나도 해볼 수 있었을텐데?싶음
https://arxiv.org/pdf/2207.08815.pdf
결론:
- Neural network는 smooth function을 fitting하는 경향이 있기 때문에 irregular function을 가지는 경우 약함
- Uninformative feature에 의해서 타격도 많이 입음
- 의외로 categorical feature가 섞이는 건 영향이 적음(의외였음)
- Tabular data가 non rotationally-invariant한 특징도 중요
Feature elimination하면서 제거된 변수들만 모아서 트레이닝시켜 성능측정을 해보는 실험도 있었는데 이게 굉장히 인상깊다. "정보가 얼마나 담겨있는가"에 대한 지표를 뽑아내는 실험으로 괜찮을 듯. 예전 논문에 이런 실험 넣었으면 좋았겠다 싶었다.

여튼 결론은 트리 만세! 올해 마지막으로 읽은 논문으로 대만족😆
Originally tweeted by 말러팔산 (@mahler83) on 2022-12-31.
More from my site
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Leave a Comment