Scikit learn 기본 데이터셋 목록들
Sickit Learn에서는 다양한 머신러닝, 통계기법을 사용해볼 데이터셋들을 제공하고 있다. 나는 주로 분류(classification)나 회귀(regression)에 적합한 데이터 셋들을 활용해서 연습한다. 데이터 목록은 아래와 같다.
Scikit learn 기본 데이터셋 불러오기
Scikit learn의 기본 데이터셋을 불러오는 방법은 매우 간단하다. 아래와 같이 datasets에서 원하는 데이터셋 함수를 불러오고, 그 안에 들어있는 데이터들을 활용하면 된다. dataset은 딕셔너리 형태로 데이터셋과 데이터 관련 정보, feature의 이름들, data(feature의 데이터), target 데이터 등을 담고 있다. dataset마다 담고 있는 내용이 다르기 때문에 dataset을 불러온 후 해당 객체에.keys()를 하면 어떤 데이터들을 가지고 있는지 확인할 수 있다.
불러온 데이터는 데이터 프레임 형태로도 가공해서 사용할 수 있다.
데이터에 대한 설명은 dataset['DESCR']을 통해 확인할 수 있다. 총 데이터의 수, 각 feature명이 뜻하는 바 등이 기술되어 있다.
https://scikit-learn.org/stable/datasets/toy_dataset.html
https://scikit-learn.org/stable/datasets/real_world.html
https://scikit-learn.org/stable/datasets/sample_generators.html
https://scikit-learn.org/stable/datasets/loading_other_datasets.html
'Python notes > Others' 카테고리의 다른 글
VSCode) html 기본코드 띄우기, 코딩 창 아래 위로 분할 하기, 터미널 창 내부에 띄우기 (0) | 2021.11.21 |
---|---|
크롤링) OpenAPI로 코로나19 예방접종 및 감염현황 데이터 크롤링 (+파이썬 Beautifulsoup으로 xml, json 파싱, 엑셀 저장) (0) | 2021.09.18 |
JupyterLab) 쥬피터랩에서 자바스크립트 사용하는 방법 (윈도우, 맥) (0) | 2021.08.04 |
파이썬) 파이썬으로 zipfile 만들기 (+zipfile 패키지 설치) (0) | 2021.06.01 |
JupyterLabs) Ipynb파일을 실행가능한 파일로 변환하기 (+확장자 변경, excutable 하게 바꾸기) (4) | 2021.05.24 |
댓글