coding

파이썬 독학 6일차 웹 스크래핑, 파싱(beautiful soup) 1

다아는사람 2022. 9. 6. 00:00
728x90
반응형
SMALL

웹 스크래핑에 아주 좋은 beautiful soup이라는 패키지가 있습니다.

이전에 살펴본 requests와 함께 사용하면 유료신문 구독이나 해외 주가 변동 등

웹에 게시된 데이터들을 쉽게 가져올 수 있게 됩니다.

하지만 교육 목적이 아닌 상업 목적이라면 아주 조심해야 합니다.

 

1. 우선 beautifulsoup4를 packages에서 설치해줍니다.

 

이번 포스팅에선 프로그래머 구인구직 사이트인 WWR(WE WORK REMOTELY)를 스크래핑 해보겠습니다.

 

2. python을 검색해주세요.

https://weworkremotely.com/

 

3. F12 또는 검사를 눌러 jobs-container 클래스를 찾아줍니다.

 

html로 이루어져 있는데요. a태그에 보시면 회사, 지역, 직종명 등등이 나와 있습니다.

저희가 필요한건 맨 위의 <a href="....>코드입니다.

 

4. 아래와 같이 코딩해줍니다.

#웹을 가져오기 위해 requests의 get을 임포트
from requests import get

base_url = "https://weworkremotely.com/remote-jobs/search?utf8=%E2%9C%93&term="
search_term = "python"

#나중에 url과 검색어를 변경하여 재사용할 수 있게 f문자열 포매팅
response = get(f"{base_url}+{search_term}")
#웹사이트에서 정상적인 응답(200)을 주지 않을때를 대비
if not response.status_code == 200:
  print("Can't request website")
#정상이라면 페이지의 html 코드를 쫙 긁어 옴
else:
  print(response.text)

5. 실행결과

ㅃ킹 텍스트가 눈을 아프게 하는데요. 다음 시간에는 이 텍스트안에서 아까 살펴본

jobs-container의 ul의 li들을 타겟으로 beautifulsoup을 사용해볼겁니다.

728x90
반응형
LIST