본문 바로가기

Python notes/Others57

파이썬 크롤러) string 문자열 편집하기 (양 옆 자르기, 특정 문자 변경하기) 제품명들을 string으로 묶고나서필요 없는 텍스트들을 삭제하고 부호들을 다른 것으로 교체해 보았다. prd_names=str(soup.find_all('td', class_='ProdName'))prd_names=prd_names[1:-1] #string 양 옆으로 수정prd_names=prd_names.replace('&', '&') #'&'로 적힌 부분을 '&'으로 변경prd_names=prd_names.replace(', ', ',') #쉼표 뒤의 공백을 없애려고 ', '를 ','로 변경 prd_names[1:-1]의 의미는 앞에서 두번째 글자부터 뒤에서 두번째 글자까지만 나타낸다는 뜻.예를 들어 prd_names="삥안녕하세요뿡" 일 경우 맨 앞과 맨 뒤의 삥과 뿡을 뺄 수 있음. replace.. 2018. 12. 13.
파이썬 크롤러) 데이터 파싱 후 쓸데없는 태그 지우기 (re.sub, 태그 제거) Beautiful Soup을 통해 html.parser로 파싱한 값들을 얻었다 ! soup=BeautifulSoup(html, 'html.parser') prd_names=soup.find_all('td', class_='ProdName') td class가 ProdName으로 된 제품명들을 모두 찾아내기 위한 코드이다. 그 결과 여러 제품명들이 하기와 같이 파싱되었다. KIEHL'S Midnight Recovery Oil, KIEHL'S midnight recovery concentrate.... 문제는, 내가 필요한 건 제품명들이었는데 속성 태그들까지 같이 딸려서 긁혔다. 이를 위해 태그를 제거하면 된다고 하여 방법을 찾아보았다. prd_names=str(soup.find_all('td', class.. 2018. 12. 13.
파이썬 크롤러) 파이썬에서 Selenium으로 자동 로그인 하기 (xpath 사용법) 이 기록은 내가 까먹지 않기 위해서...그리고 혹시나 다른 분들에게 도움이 되었으면 하는 마음으로 적어둠 :D 1. Selenium 설치 등 import는 된 상태에서 2. 로그인 하려고 하는 홈페이지로 들어가 크롬 개발자 도구를 Open ! 3. 로그인 정보 입력 후, 로그인 버튼 누르기를 위한 코드를 짜는데서 저는 좀 헤맸음.. driver.find_element_by_xpath("""//*[@id="form-main"]/div[4]/button""").click() 4. 위에서 """ 와 """ 사이에 들어가는 코드를 찾는 방법은? 1) 크롬 개발자 도구에서 화살표 버튼을 눌러서 로그인하는 버튼을 누른다. 2)그럼, 그 버튼 실행과 관련된 코드 부분들이 파란색으로 블록 처리가 됨. 3) 그 부분에서.. 2018. 12. 7.
번외) pip버전 업그레이드하기 (pip version upgrade, upgrade pip) Pip라는 프로그램을 쓰면, Selenium, BeautifulSoup 등 라이브러리 설치가 훨씬 손쉬워진다. 다운로드 받고, 그 경로로 들어가 실행시키고 할 필요가 없이 간단한 pip 명령어만 치면 되니까 ! 일단 MAC에는 기본적으로 pip가 깔려있다고 하는데 지난번에 BeautifulSoup 라이브러리를 설치하려고 보니, 자꾸 업그레이드를 하라고 뜬다. You are using pip version 8.1.2, however version 18.1 is available. You should consider upgrading via the 'pip install --upgrade pip' command. 이런 창이 자꾸 뜬다면, 하기와 같이 명령어를 치면 된다. 비밀번호를 치라하면 비밀번호를 치고 .. 2018. 11. 13.
파이썬 크롤러) 파이썬3에서 Selenium 설치하기 (+웹페이지 상에 정보가 다 긁어지지 않을때) 어찌어찌 해서 초보적인 실력으로 웹페이지의 일부 정보를 긁어올 수 있게 되었다.하지만, 어째 긁어 들어오는 정보가 시원찮다. 정작 내가 원하는 컨텐츠들은 다 긁어지지 않고, 상위 단 제목? 같은 -쓸데없는- 내용만 들어오는 것이 아닌가ㅠ 수소문 끝에 Selenium이라는 프레임 워크를 사용하면 이러한 문제를 해결할 수 있다는 것을 알게 되었다. #1. Selenium 설치하는 법! 1) https://pypi.org/project/selenium/#files 에서 Selenium을 다운로드 및 압축 해제 한다. selenium-3.141.0.tar.gz 2) 터미널을 통해 해당 파일이 있는 경로로 가서 명령어를 친다. sudo python3 setup.py install ※ 명령어 중 sudo를 빼먹고 .. 2018. 11. 13.