Python notes/Others

Scikit Learn의 기본 데이터셋 목록들 (sklearn.datasets)

성실한 나무 2021. 12. 20. 16:20

Scikit learn 기본 데이터셋 목록들

 Sickit Learn에서는 다양한 머신러닝, 통계기법을 사용해볼 데이터셋들을 제공하고 있다. 나는 주로 분류(classification)나 회귀(regression)에 적합한 데이터 셋들을 활용해서 연습한다. 데이터 목록은 아래와 같다.

 

Scikit learn 기본 데이터셋 불러오기

Scikit learn의 기본 데이터셋을 불러오는 방법은 매우 간단하다. 아래와 같이 datasets에서 원하는 데이터셋 함수를 불러오고, 그 안에 들어있는 데이터들을 활용하면 된다. dataset은 딕셔너리 형태로 데이터셋과 데이터 관련 정보, feature의 이름들, data(feature의 데이터), target 데이터 등을 담고 있다. dataset마다 담고 있는 내용이 다르기 때문에 dataset을 불러온 후 해당 객체에.keys()를 하면 어떤 데이터들을 가지고 있는지 확인할 수 있다. 

sklearn datasets 불러오기

 

 불러온 데이터는 데이터 프레임 형태로도 가공해서 사용할 수 있다.

 데이터에 대한 설명은 dataset['DESCR']을 통해 확인할 수 있다. 총 데이터의 수, 각 feature명이 뜻하는 바 등이 기술되어 있다.

 

 


https://scikit-learn.org/stable/datasets/toy_dataset.html
https://scikit-learn.org/stable/datasets/real_world.html
https://scikit-learn.org/stable/datasets/sample_generators.html
https://scikit-learn.org/stable/datasets/loading_other_datasets.html