Reference
Calibration for Actual Probabilities
Random Forest is not a Calibrated Classifier
Calibrating a Random Forest Classifier
Scikit correct way to calibrate classifiers with CalibratedClassifierCV
Calibration — Applied Machine Learning in Python
A Beginner's Guide to Random Forest Hyperparameter Tuning
Decision Trees and Random Forests(Building and optimizing decision tree and random forest models)
개별 트리들 간의 heteroskedasticity를 늘리기 위한 방향으로 하이퍼 파라미터를 튜닝해야함
min_weight_fraction_leaf / min_samples_leaf 리프노드가 되기 위한 최소 비율/ 개수 (2023.3) min_weight_fraction_leaf 0.01이 대세인 상황 너무 깊숙히 나누면 안된다(2023.4) min_samples_leaf 1로 고정
min_samples_split 트리가 나눠지기 위한 최소한의 샘플 수 (2023.4) 2로 고정
(2023.4) ccp_alpha : 위 변수들을 사용하지 않고 ccp_alpha를 사용하는 것으로 결정
학습할때 나머지 파라미터 중 min_samples_split이랑 min_sample_leaf는 디폴트 값으로 두고 ccp_alpha만 조절해서 오버피팅을 방지하면 좋아요!
추가로 시간나면 ccp_alpha에 대해서도 정리해두면 좋을 것 같구요
flow