Reference

Calibration for Actual Probabilities

Random Forest is not a Calibrated Classifier

Calibrating a Random Forest Classifier

Scikit correct way to calibrate classifiers with CalibratedClassifierCV

Calibration — Applied Machine Learning in Python

A Beginner's Guide to Random Forest Hyperparameter Tuning

Decision Trees and Random Forests(Building and optimizing decision tree and random forest models)

개별 트리들 간의 heteroskedasticity를 늘리기 위한 방향으로 하이퍼 파라미터를 튜닝해야함

min_weight_fraction_leaf / min_samples_leaf 리프노드가 되기 위한 최소 비율/ 개수 (2023.3) min_weight_fraction_leaf 0.01이 대세인 상황 너무 깊숙히 나누면 안된다(2023.4) min_samples_leaf 1로 고정

min_samples_split 트리가 나눠지기 위한 최소한의 샘플 수 (2023.4) 2로 고정

(2023.4) ccp_alpha : 위 변수들을 사용하지 않고 ccp_alpha를 사용하는 것으로 결정

학습할때 나머지 파라미터 중 min_samples_split이랑 min_sample_leaf는 디폴트 값으로 두고 ccp_alpha만 조절해서 오버피팅을 방지하면 좋아요!

추가로 시간나면 ccp_alpha에 대해서도 정리해두면 좋을 것 같구요

flow

  1. sklearn의 prob cali를 잘 읽어본다.
  2. random forest의 predict proba가 어떻게 계산되는지 살펴본다
  3. 랜덤포레스트에 관한 샘플 모델 하나를 선정하고 predict proba에 probability calibration을 적용해본다 (calibration display 를 살펴보고 잘 calibrate 되는지 본다 : 개인적 추측으로는 sigmoid가 잘될 것 같아요)
  4. 랜덤포레스트 criterion 을 바꿔가면서 실험해보고 정리한다