크롤링 시작 - 프로젝트 설정 - 파이썬 환경 설정
IT/크롤링 2024. 12. 25. 00:54프로젝트 설정을 위한 파이썬 기본 설정
파이썬 버전: 3.11
OS: mac
파이썬 가상 환경 사용
가상 환경 생성 명령어: python3 -m venv [가상환경이름]
가상 환경 생성 시, 현재 디렉터리에 가상환경이름으로 폴더가 생성됨
파이썬 가상환경 활성화 명령어: source [가상환경이름]
파이썬 가상환경 비활성화 명령어: deactivate
크롤링을 위한 라이브러리 설치
pip3 install selenium
설치한 셀레니움 버전: 4.27.1
동작 확인을 위한 라이브러리 테스트 코드
from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get("https://www.selenium.dev/selenium/web/web-form.html")
driver.implicitly_wait(0.5)
title = driver.title
text_box = driver.find_element(by=By.NAME, value="my-text")
submit_button = driver.find_element(by=By.CSS_SELECTOR, value="button")
text_box.send_keys("Selenium")
submit_button.click()
message = driver.find_element(by=By.ID, value="message")
text = message.text
print(text)
driver.quit()
프로젝트 목적
인스타 데이터 크롤링 연구
개인 연구 목적 데이터 수집 방안 연구
구현 기능 목록
1. 검색어에 대한 포스트 수집
2. 해시태그로 등록된 포스트 수집
셀레니움에 대한 설명
Selenium은 웹 애플리케이션을 자동으로 테스트하고 상호작용하기 위해 사용되는 오픈 소스 툴입니다. 주로 브라우저 자동화를 목적으로 개발되었으며, 여러 브라우저와 플랫폼에서 작동합니다.
데이터 크롤링에 대한 경고 사항
여러 사이트에서는 대부분 데이터 수집툴을 사용하여 데이터를 수집하는 경우 이를 제한하고 있지만, 상업적인 목적이 아니라면 어느 정도의 선은 묵인 하는 듯 하지만, 과도한 데이터 수집은 제제가 가해질 수 있어 보인다.
모든 크롤링 행위에대한 제재를 가하는 건 현실적인 어려움이 있는 것 또한 사실인듯 하지만, 과도한 선을 넘어선 데이터 수집과 상업적 이용은 여러 소송 사례를 찾아볼수 있다.
insta browser class - 1: init (0) | 2025.01.10 |
---|---|
IP 차단에 대한 대비책 (0) | 2025.01.06 |
크롤링 시, 회피 대처 (0) | 2025.01.05 |
selenium과 beautifulSoup을 사용한 웹 페이지 수집 1 (0) | 2025.01.04 |
instagrapi 라이브러리를 사용한 인스타 크롤링 (0) | 2024.12.31 |