본문 바로가기

혼자서

Kaggle 정리

[K-Fold 교차 검증]

 

과적합과 같은 데이터 편중을 막기 위해서 별도의 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행

n_splits : 분할할 세트의 갯수, 1세트만 test데이터로 사용. 나머지는 train 데이터

shuffle : True로 설정할 경우 데이터셋 내의 순서를 섞어서 샘플링. False로 설정할 경우 순서대로 분할

random_state : 특정 정수로 지정 시 샘플링 결과 고정

 

[Optuna]

 

하이퍼 파라미터 최적화 task를 도와주는 프레임워크.

파라미터의 범위 지정, 혹은 파라미터가 될 수 있는 목록을 설정하면 매 trial마다 파라미터를 변경하면서 최적의 파라미터를 찾는다.

 

optuna는 study 개체를 기반으로 한다. 이 개체에는 필요한 파라미터 공간에 대한 정보와 sampler 방법과 pruning에 대한 모든 정보가 포함되어 있음. 

 

[Standardization(표준화), Standard Scaler]

 

정규분포에서 표준정규분포로 변환할 때 사용하는 방법을 사용한다.

표준화를 적용한 Feature들은 모두 평균 0과 표준편차 1을 가진다.

각 컬럼의 최소와 최대는 반드시 0과 1은 아니다.

 

[MinMaxScaler]

 

각 칼럼의 최소값과 최대값이 각각 0과 1이 되도록 스케일해주는 것.

Standard Scaler과는 다르게 각 칼럼의 평균과 표준편차는 0과 1이 아니다.

 

 

(skew 함수를 잘 모르겠음..........................................................)