본문 바로가기

Python notes118

JupyterLab) 쥬피터랩에서 자바스크립트 사용하는 방법 (윈도우, 맥) 윈도우: npm install -g ijavascript ijsinstall 맥: brew install pkg-config node zeromq sudo easy_install pip pip install —upgrade pyzmq jupyter sudo npm install -g ijavascript ijsinstall 2021. 8. 4.
파이썬) 범주형 변수의 상관관계 확인을 위한 교차분석 하기 (+카이제곱 검정) #1. 교차분석이란? 교차분석(cross-tabulation anlaysis)은 두 범주형 자료 간의 상관관계를 확인하기 위한 분석방법이다. 즉, 상호 관련성을 확인하고자 하는 두 변수가 명목척도일 때 사용하는 분석 방법이다. 교차분석을 하기 위해서 먼저 교차표를 만들어 두 변수 간의 관계를 정리하고, 관측빈도(observed frequency)와 기대빈도(expected frequency)를 확인할 수 있다. 이를 바탕으로 카이제곱 통계량을 계산하고, 이 검정통계량의 p-value를 통해 둘의 상관관계가 유의한지 유의하지 않은지를 판단할 수 있다. #2. 파이썬에서 pandas와 scipy 패키지로 교차분석 하기 파이썬을 이용해 간단하게 교차분석을 할 수 있다. 이를 위해 먼저 pandas와 scipy.. 2021. 7. 22.
파이썬) 혼동행렬 그리고 정확도, 정밀도, 민감도, f1 score 등 계산하기 (+heatmap, confusion_matrix, classification_report) #1. 혼동행렬은 무엇인가? 혼동행렬은 분류 모델의 성능을 평가하는 지표로서 영어로는 confusion matrix라고 하며 혼돈행렬, 정오행렬, 오분류표 등으로도 불린다. 지도학습을 통해 모델링한 "분류 모델이 예측한 값"과 레이블되어 있는 "원래의 값" 간의 관계를 표로 나타낸다. 이 표를 통해 해당 모델의 정확도(accuracy), 정밀도(precision), 민감도(sensitivity), f1 score 등을 파악할 수 있으며, 이 중에서도 특히 정확도를 통해 해당 모델이 정확하게 분류해 낼 수 있는 비율을 지 확인할 수 있다. 실제값(P-실제로 맞다) 실제값(N-실제로 틀리다) 모델의 예측값 (P로 예측-맞다고 예측) TP FP 모델의 예측값 (N로 예측-틀리다고 예측) FN TN 일반적으로 .. 2021. 7. 18.
파이썬) Mac에서도 Tensorflow 사용하는 방법 (+사용 중인 HW 정보 GPU, CPU 확인하기) #1. 파이썬의 머신러닝 패키지인 Tensorflow는 안타깝게도 HW 의존성이 있다고 한다. 머신러닝 연산들은 GPU를 통해서 처리를 하는데 Tensorflow는 GPU 중에서도 Nvidia의 GPU 환경 하에서만 정상 동작한다고 한다. ...그런데 내 컴퓨터는 Mac이고 Mac은 AMD의 GPU를 내장하고 있다. (윈도우 컴퓨터를 하나 장만해야 하는 것인가 ^^;) #2. Tensorflow 설치 및 내 컴퓨터의 HW 정보 확인하기 일단 터미널(명령프롬프트)에서 pip3 install tensorflow 명령으로 Tensorflow 패키지를 설치하고, 쥬피터랩이나 기타 IDE 환경에서 아래 python 코드를 실행하면 현재 사용 중인 리소스 정보를 확인할 수 있다. 1 2 3 from tensorfl.. 2021. 7. 5.
R) 연관성 분석 association 예제 (+Groceries 데이터로) #1. 연관성 분석(Association Analysis)이란? - 일련의 거래 또는 사건들 간의 규칙을 발견하여 If-Then의 구조로 분석 결과의 연관성을 파악하는 데이터마이닝 방법론 - 장바구니분석(장바구니에 무엇이 같이 들어 있는지 분석) 또는 서열분석(A를 산 다음에 B를 사는 규칙 분석)이라고도 불림 - 연관규칙의 측도: 지지도(support), 신뢰도(confidence), 향상도(lift) 1) 지지도 = A와 B가 동시에 포함된 거래수 / 전체 거래수 2) 신뢰도 = A와 B가 동시에 포함된 거래수 / A를 포함하는 거래수 3) 향상도 = (A와 B가 동시에 포함된 거래수* 전체거래수) / (A를 포함하는 거래수 * B를 포함하는 거래수) - 연관성 분석 알고리즘: 1세대 Apriori .. 2021. 6. 29.