신나게 크롤링 하다 보면...
쉬지 않고 크롤링하는 데이터 양이 많다 보면...
특정 사이트에서 IP 차단 당하는 경우가 있다.
한동안 해당 사이트에 접속이 불가능해진다. (서버에 부하가 걸릴 수 있기 때문에 이런 활동을 차단하도록 웹서비스를 설계)
이런 상황을 막기 위해 할 수 있는 여러가지 방법 중, 웹서버에 부하가 걸리지 않도록
또한, 나의 크롤러가 차단당하지 않도록
중간에 쉬는 시간을 좀 두면 차단을 막을 수 있다고 한다. (나도 이제 해봐야 됨.. 어제는 한번 차단 당했음..)
몇초를 얼마나 해야 되는지 감이 오지 않아 여러번 해봐야겠지만, 여튼 !!
import time
time.sleep(5)
위에 꺼는 5초 쉬는거..
5초를 쉬어야 할지 10초를 쉬어야 할지는 해봐야 알겠다.
'Python notes > Others' 카테고리의 다른 글
파이썬) 청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC) 수강 신청 (0) | 2021.03.11 |
---|---|
파이썬 크롤러) 리스트에서 홀수번째 혹은 짝수번째 요소만 추출하기 (2) | 2019.01.06 |
파이썬 크롤러) 파이썬, 리스트 안의 리스트를 풀어서 하나의 리스트로 만들기 (이중 리스트 일자화) (0) | 2019.01.04 |
파이썬 크롤러) pandas로 데이터를 엑셀로 저장할 때 추가 데이터를 이어 업데이트하기 ! (0) | 2018.12.20 |
파이썬 크롤러) 파이썬 코딩을 위해 pip로 pandas 등 모듈을 깔 때 주의점 ! (0) | 2018.12.17 |
댓글