본문 바로가기
Python notes/Others

파이썬 크롤러) 크롤링(스크랩핑) 중간에 pause, 쉬는 시간을 두려면? (time.sleep 사용)

by 성실한 나무 2019. 1. 4.

신나게 크롤링 하다 보면...

쉬지 않고 크롤링하는 데이터 양이 많다 보면...

특정 사이트에서 IP 차단 당하는 경우가 있다.


한동안 해당 사이트에 접속이 불가능해진다. (서버에 부하가 걸릴 수 있기 때문에 이런 활동을 차단하도록 웹서비스를 설계)


이런 상황을 막기 위해 할 수 있는 여러가지 방법 중, 웹서버에 부하가 걸리지 않도록

또한, 나의 크롤러가 차단당하지 않도록

중간에 쉬는 시간을 좀 두면 차단을 막을 수 있다고 한다. (나도 이제 해봐야 됨.. 어제는 한번 차단 당했음..)


몇초를 얼마나 해야 되는지 감이 오지 않아 여러번 해봐야겠지만, 여튼 !!


import time

time.sleep(5)


위에 꺼는 5초 쉬는거..

5초를 쉬어야 할지 10초를 쉬어야 할지는 해봐야 알겠다. 

댓글