본문 바로가기

분류 전체보기196

ADP 기출문제 풀이) 다중선형회귀, 베이지안 회귀 문제 w/Python ADP 실기 기출문제 풀이 세번째 포스팅의 내용은 베이지안 회귀와 2차 교호작용항을 고려한 다중선형회귀 문제이다. 대부분의 회귀 문제는 오차제곱합을 최소화하는 방식으로 회귀식을 찾아갔는데, 베이지안 회귀 문제가 나와서 '이런 것도 있어?' 하고 당황했던 기억이 난다. 통계와 머신러닝은 공부할 수록 모르는 것이 화수분처럼 나오는 그런 학문이다^^ 여튼, 이번 포스팅에서는 ADP 실기 17회와 26회에서 나왔던 문제들을 풀어보았다. 만점짜리 풀이는 아니기 때문에 참고로 해주시길 바라며... 4. 부동산 가격 예측 데이터 (ADP 실기 17회) Id: id LotArea: Lot size in square feet LotFrontage: Linear feet of street connected to prope.. 2023. 8. 25.
ADP 기출문제 풀이) 데이터 전처리 관련 문제들 w/Python 나의 풀이가 만점짜리 풀이가 아닐지라도 누군가에게는 참고와 도움이 되기를 바라면서^^ (내용 상 오류나 질문들은 댓글로 달아주시면 대환영입니다) ADP 실기 기출문제 풀이 두번째 포스팅 시작 ! 3. 매출액 예측 데이터 (ADP 실기 24회) features: 광고횟수, 광고비 target: 매출액 [출처] https://www.datamanim.com/dataset/ADPpb/00/24.html # 3-1. 광고비 변수를 가변수 처리후 다중회귀를 수행하여 회귀계수가 유의한지 검정하시오. 범주형 변수인 광고비를 get_dummies로 더미코딩 하는 전처리를 진행하였다. 범주의 수준보다 1개의 개수가 적은 가변수를 생성함으로써 다중공선성을 피할 수 있다. 회귀계수의 유의성을 위해 회귀계수가 0인지 0이 아.. 2023. 8. 24.
ADP 기출문제 풀이) 탐색적 분석 관련 문제들 w/Python 예전부터 기출문제 풀이 관련 포스팅을 해보려고 생각만 하고 있었는데, 드디어 ADP 실기 기출문제에 대한 포스팅을 시작해본다. ADP와 빅분기를 준비하는 분들이 많이 사용하고 있는 데이터마님 사이트(https://www.datamanim.com/)에서 복원해놓은 문제들을 내 방식대로 풀어보고자 한다. 나의 풀이가 만점짜리 풀이가 아닐지라도 누군가에게는 참고와 도움이 되기를 바라면서^^ (내용 상 오류나 질문들은 댓글로 달아주시면 대환영입니다) ADP 실기 기출문제 풀이 포스팅 시작 ! 1. 학생특성과 결석 빈도 데이터 (ADP 실기 24회) 성별(sex) 바이너리 : ‘F’ - 여성 또는 ‘M’ - 남성 나이(age) 숫자: 15 - 22 부모님동거여부 (Pstatus) 바이너리: T: 동거 또는 ‘A’.. 2023. 8. 23.
ADP 실기 책 추천) 핵심만 요약한 통계와 머신러닝 파이썬 코드북 ADsP와 ADP 필기의 산을 넘어 ADP 실기 준비의 길로 접어들면, 방대한 공부 분량에 정신이 아찔해진다. ^^; 그래서 많은 분들이 다양한 통계책, 머신러닝 책을 참고하며 스스로의 코드북을 만든다. ADP 실기는 오픈북이기 때문에 미리 공부한 코드들을 작성해서 가져가면, 시험볼 때 참고를 할 수가 있어 좋은 무기가 된다. 그런데 문제는 이 코드북을 만드는 시간이 꽤나 오래 걸린다는 것이다. 개념들 찾아 정리하고 코드 작성하는 시간이 만만치 않기 때문이다. 오늘 소개할 책은 이러한 시간을 줄여주는 책이라고 말할 수 있다. 핵심만 요약한 통계와 머신러닝 파이썬 코드북 책 제목부터 파이썬 코드북이다. 내용을 보지 않아도 많은 예제코드를 제공할 것이라는 것을 알 수 있다. 시험을 보기 전에 미리 코드들을 .. 2023. 4. 25.
분류 결과 평가지표, AUC(Area Under the ROC Curve)와 Gini coefficient 비교 #1. 분류 결과 평가지표인 AUC, Gini coefficient 머신러닝을 통해 분류 결과를 예측했을 때 예측한 값과 실제 값을 비교해서 예측 결과를 평가한다. 그 중에서도 결과가 0과 1 두 개의 클래스로 분류되는 경우를 평가할 때 평가지표로 ROC curve, AUC, Gini coefficient를 사용할 수 있다. 클래스가 세개 이상인 경우일지라도 이진형태로 타겟 데이터를 변환하면 (scikit learn의 OneVsRestClassifier를 사용) 0과 1,2,3을 분류해내는 성능 혹은 1과 0,2,3을 분류해내는 성능을 위의 평가지표로 평가할 수 있다. #2. AUC ? (+ROC curve) ROC curve는 Receiver Operating Characteristics curve로서.. 2022. 11. 22.