Python notes/Others57 파이썬 크롤러) 리스트에서 홀수번째 혹은 짝수번째 요소만 추출하기 #1. 리스트에서 요소를 추출하는 방법 일반적으로 리스트에서 요소를 추출하려면 인덱스 번호를 활용한다. 예를 들어 a_list=['one','two','three','four','five']라는 리스트가 있을 때 a_list[0]과 같이 리스트 명을 쓰고 [ ] 괄호 안에 인덱스 번호를 적어 print(a_list[0])을 실행하면 해당 인덱스 번호에 해당하는 'one'이라는 원소가 출력이 된다. 참고로 파이썬에서 리스트의 인덱스 번호는 0부터 시작한다. 슬라이싱이라는 기법으로 몇번째부터 몇번째까지의 원소를 출력할 수도 있다. a_list[0:2]와 같이 인덱스 번호 대신 "0 콜론 2"를 [ ] 괄호 안에 입력할 경우, 0번째부터 2번째 전까지의 원소들을 출력해 준다. 즉 'one', 'two'가 출력.. 2019. 1. 6. 파이썬 크롤러) 크롤링(스크랩핑) 중간에 pause, 쉬는 시간을 두려면? (time.sleep 사용) 신나게 크롤링 하다 보면...쉬지 않고 크롤링하는 데이터 양이 많다 보면...특정 사이트에서 IP 차단 당하는 경우가 있다. 한동안 해당 사이트에 접속이 불가능해진다. (서버에 부하가 걸릴 수 있기 때문에 이런 활동을 차단하도록 웹서비스를 설계) 이런 상황을 막기 위해 할 수 있는 여러가지 방법 중, 웹서버에 부하가 걸리지 않도록또한, 나의 크롤러가 차단당하지 않도록중간에 쉬는 시간을 좀 두면 차단을 막을 수 있다고 한다. (나도 이제 해봐야 됨.. 어제는 한번 차단 당했음..) 몇초를 얼마나 해야 되는지 감이 오지 않아 여러번 해봐야겠지만, 여튼 !! import timetime.sleep(5) 위에 꺼는 5초 쉬는거..5초를 쉬어야 할지 10초를 쉬어야 할지는 해봐야 알겠다. 2019. 1. 4. 파이썬 크롤러) 파이썬, 리스트 안의 리스트를 풀어서 하나의 리스트로 만들기 (이중 리스트 일자화) 리스트 안의 리스트를 풀어서 중첩되지 않은 하나의 리스트로 만들 때 간단한 방법: biglist=sum(biglist, []) 예를 들어, biglist=[1, 2, [3, 4,]] 의 형식일 때, [1, 2, 3, 4]로 만들고 싶다면 위의 명령어를 쓰면 된다. 2019. 1. 4. 파이썬 크롤러) pandas로 데이터를 엑셀로 저장할 때 추가 데이터를 이어 업데이트하기 ! 파일을 한 번 저장하고, 그 파일 위에 추가적으로 다른 데이터를 또 이어서 저장하는 경우, import pandas as pd #names 리스트와 links 리스트는 각각 요소를 포함하는 리스트로 정의되어 있음을 전제로 함 data={"names":name, "links":link} db=pd.DataFrame(data, columns=["names", "links"]) db.to_csv('DB.csv', mode='a', header=False, index=True) mode='a'를 쓰면 이어쓰기 가능하다. names 리스트와 links 리스트가 업데이트 되어 DB.csv파일을 업데이트 하는 경우, 저장할 때 header와 index를 정의해주지 않으면 데이터만 업데이트 되는게 아니라 header와.. 2018. 12. 20. 파이썬 크롤러) 파이썬 코딩을 위해 pip로 pandas 등 모듈을 깔 때 주의점 ! 왜 자꾸 invalid syntaxError가 뜰까!라고 하는 분이 있다면... 나와 같은 파이썬 초보일 가능성이 :-)..... pip로 모듈 설치 시 자꾸 까먹는 나의 실수는,파이썬을 켜놓고 pip3 install 모듈이름을 친다는 것이다 ! 파이썬에서 신나게 코딩 연습을 하고 있다가새로운 모듈을 import해야 한다면,반드시 exit()으로 나와서 pip3 install pandas 를 쳐주세요 ~ (pip버전이 3.0이전 버전이면 pip만 쳐도 됨)그리고 관리자실행권한이 필요할 경우에는 맨 앞에 sudo를 붙여서sudo pip3 install pandas라고 쳐주세요 ~!! SyntaxError: invalid syntax >>> sudo pip3 install pandas File "", lin.. 2018. 12. 17. 이전 1 ··· 7 8 9 10 11 12 다음