본문 바로가기

Python notes/Data Science & Machine Learning14

분류 결과 평가지표, AUC(Area Under the ROC Curve)와 Gini coefficient 비교 #1. 분류 결과 평가지표인 AUC, Gini coefficient 머신러닝을 통해 분류 결과를 예측했을 때 예측한 값과 실제 값을 비교해서 예측 결과를 평가한다. 그 중에서도 결과가 0과 1 두 개의 클래스로 분류되는 경우를 평가할 때 평가지표로 ROC curve, AUC, Gini coefficient를 사용할 수 있다. 클래스가 세개 이상인 경우일지라도 이진형태로 타겟 데이터를 변환하면 (scikit learn의 OneVsRestClassifier를 사용) 0과 1,2,3을 분류해내는 성능 혹은 1과 0,2,3을 분류해내는 성능을 위의 평가지표로 평가할 수 있다. #2. AUC ? (+ROC curve) ROC curve는 Receiver Operating Characteristics curve로서.. 2022. 11. 22.
데이터전처리) Pandas로 각종 데이터 전처리 1탄 (+엑셀 불러오기/저장, 일부 행/열만 추출, 일부 행/열만 삭제, 데이터 수정/추가, 결측치 확인/삭제) 경기지역과 전남지역의 미세먼지를 비교하기 위한 데이터를 가공하면서 정리한 데이터전처리 방법들을 아래에 요약해 본다. 데이터 전처리는 파이썬의 pandas 패키지를 활용해서 진행하였다. 기본 파이썬 환경에서는 pandas 패키지가 제공되지 않고, 명령프롬프트 혹은 터미널에 pip install pandas 명령어를 실행함으로써 패키지를 설치해야 한다. #1. 데이터 불러오기/저장하기: 불러오기) read_excel('경기ndf.xlsx') 저장하기) 데이터프레임객체.to_excel('파일명.xlsx') pandas의 read_excel 함수를 사용하기 위해서는 먼저 함수를 불러와야 한다. 코드는 from pandas import read_excel이다. 엑셀 파일로 전처리를 하는 경우 엑셀 관련 패키지도 .. 2021. 11. 23.
머신러닝) 분류 모델을 평가하는 방법: 혼동행렬 (+다중분류모델 평가 예제) 적합된(fitted) 분류 모델이 데이터를 얼마나 잘 분류해 낼 수 있는지 성능을 평가하기 위한 여러가지 방법이 있다. 그 중에서 가장 보편적으로 쓰이는 방법 중 하나가 혼동행렬이다. 여기서는 이진분류 모델을 기준으로 혼동행렬의 개념을 확인하고, 파이썬으로 혼동행렬을 구해보려고 한다. 혼동행렬은 수기 계산법과 파이썬의 함수를 이용하는 방법으로 계산한다. 그 다음 다중분류 모델을 평가하는 혼동행렬을 파이썬 함수를 통해 구하고 그 내용을 파악하고자 한다. 혼동행렬(Confusion matrix)이란 무엇인가? 혼동행렬은 응답 유형별로 정확한 예측과 잘못된 예측의 수를 한 번에 보여주는 표다. 또한, 혼동행렬에 나타나는 예측의 수들(TP, FN, FP, TN)을 조합하여 각종 지표들(정확도, 민감도, 특이도,.. 2021. 9. 18.
머신러닝) K-최근접이웃 분류/회귀 이해하기 (+ 아이리스 예제, 시각화 ) K-최근접이웃(K-nearest neighbor, KNN)이란? K-최근접이웃 알고리즘의 아이디어는 아주 간단하다. 각 레코드를 다음과 같이 분류 혹은 예측(KNN 회귀라고도 함)한다. 특징들이 가장 유사한(즉, 예측변수들이 유사한) k개의 레코드(이웃)를 찾는다. 분류: 이 유사한 레코드들 중에 다수가 속한 클래스가 무엇인지 찾은 후에 새로운 레코드를 그 클래스(반응변수)로 분류한다. 예측(회귀): 유사한 레코드들의 평균을 찾아서 새로운 레코드에 대한 예측값으로 사용한다. 이와 같이 KNN 알고리즘으로부터 얻게 되는 분류 혹은 예측의 결과들은 필연적으로 이웃과 유사한 경향을 띄게 된다. 결과값을 얻기 위해, 특징들이 유사한 이웃들의 값을 살펴보고 그들의 클래스를 채택하기 때문이다. (혹은, 그 레코드들.. 2021. 9. 18.
머신러닝) 의사결정나무(Decision tree)의 개념 및 실습 의사결정나무(Decision tree)란 무엇인가? '의사결정나무'는 지도적으로 학습하는 예측적 분류/회귀 모델링 기법 중의 하나이다. 의사결정나무는 그냥 '트리'라고도 불리며, 트리를 만드는 데 사용하는 알고리즘의 이름(예: CART)으로 불리기도 한다. 이 모델은 각각의 피처(feature)들로 이루어진 트리의 노드들을 루트에서부터 차례로 살펴보고 마지막 잎 노드에 도달하면 분류 혹은 예측을 결정한다. 여기서 피처란, 데이터를 분리하는 규칙 혹은 질문을 의미한다. 이 규칙들은 데이터를 하위 영역으로 연속적으로 분할하는 것과 관련이 있다. 각 분할 혹은 분기는 어떤 한 예측변수 값을 기준으로 데이터를 위아래 두 부분으로 나누는 것이다. 의사결정나무는 변수가 범주형(categorical)인 경우는 분류 .. 2021. 9. 18.