ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 파이썬 독학 13일차 selenium 설치 (403오류 해결)
    카테고리 없음 2022. 9. 13. 00:00

    VS code 등 로컬에서 작성하시는 분은 아래와 같이 해주세요.

    더보기

    셀레니움 설치
    pip install selenium (혹은 pip3 install selenium)

    드라이버 설치
    크롬 : https://sites.google.com/a/chromium.org/chromedriver/downloads
    파이어폭스 : https://github.com/mozilla/geckodriver/releases
    사파리 : https://webkit.org/blog/6900/webdriver-support-in-safari-10/
    (mac은 brew가 편해요 brew install chromedriver)

     

    만약 페이지 파싱중 사이트에 봇 판별 기능이 추가 되었다면

    아래처럼 403오류와 함께 anti-bot code가 작동 될 것이다.

     

    웹 자동화를 위한 프로그램인 selenum의 설치가 필요하다.

    1. show hidden files -> .replit.nix ->
    pkgs.chromium
    pkgs.chormedriver

    을 입력하면 크로미움 기반의 크롬을 replit에서 사용하기 위한 준비가 끝났다.

     

    다시 main.py로 돌아와

    2. import selenium -> Run

    자동으로 설치가 끝나고

    3. import를 지우고 from selenium import weberiver 작성

    webdriver는 파이썬에서 브라우저를 사용하기 위한 아주 멋진 방법이다.

     

    4. replit에서 브라우저를 작동하기 위해 두가지 옵션을 추가한다

    5. Chrome 브라우저를 실행시키고 .get을 통해 링크를 가져온다.

     

     

    6. 실행결과

    타라~ indeed는 더 이상 우리를 bot이 아닌 실제 사용자로 인식하고 있다.

    from selenium import webdriver
    from selenium.webdriver.chrome.options import Options
    
    options = Options()
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    
    browser = webdriver.Chrome(options=options)
    
    browser.get("https://kr.indeed.com/jobs?q=python&limit=50")

    그리고

    browser.page_source를 이용해 html 파일을 정상적으로 불러왔다.

    댓글

Designed by Tistory.