크롤링 시, 회피 대처
IT/크롤링 2025. 1. 5. 02:10크롤링을 위해서 사용하는 라이브러리나 자동화 툴은 그 움직임이 사람과는 다르게 보일 수 있고, 사람의 행동으로 보이지 않는 입력을 보내게 되면 서버에서 이를 감지하여, 차단을 할 수 있다.
크롤링의 경우 대다수의 사이트에서 거부를 하고 있고, 서버에 큰 부담을 줄 수 있어, IT 서비스를 제공하는 사이트의 경우 어느 정도의 봇의 활동에 제한을 하게 된다. 이는 게임에서 매크로를 감시하고, 차단하는 것과 비슷하다고 할 수 있다.
자료 수집이나 업무 자동화를 위해 크롤링이나 자동화 툴을 사용하는 경우, 차단을 회피하는 대비는 필수적이라 할 수 있다.
이를 위해서는 다음과 같은 방안을 고려해볼 수 있을 것 같다.
1. 지나치게 규칙적인 움직임 방지: 1분 간격 특정 API 지속적인 호출
2. 인간의 입력 범위로 불가능 한 움직임 방지: 1초에 100건의 요청 또는 버튼 클릭
3. 자동화 브라우저 설정 변경: 셀레니움과 같은 자동화는 webdriver과 같은 자동화 된 움직임을 알려주는 플래그가 있고 해당 플래그를 비활성화한다.
insta browser class - 1: init (0) | 2025.01.10 |
---|---|
IP 차단에 대한 대비책 (0) | 2025.01.06 |
selenium과 beautifulSoup을 사용한 웹 페이지 수집 1 (0) | 2025.01.04 |
instagrapi 라이브러리를 사용한 인스타 크롤링 (0) | 2024.12.31 |
크롤링 시작 - 프로젝트 설정 - 파이썬 환경 설정 (0) | 2024.12.25 |