coding
파이썬 독학 6일차 웹 스크래핑, 파싱(beautiful soup) 1
다아는사람
2022. 9. 6. 00:00
728x90
반응형
SMALL
웹 스크래핑에 아주 좋은 beautiful soup이라는 패키지가 있습니다.
이전에 살펴본 requests와 함께 사용하면 유료신문 구독이나 해외 주가 변동 등
웹에 게시된 데이터들을 쉽게 가져올 수 있게 됩니다.
하지만 교육 목적이 아닌 상업 목적이라면 아주 조심해야 합니다.
1. 우선 beautifulsoup4를 packages에서 설치해줍니다.
이번 포스팅에선 프로그래머 구인구직 사이트인 WWR(WE WORK REMOTELY)를 스크래핑 해보겠습니다.
2. python을 검색해주세요.
3. F12 또는 검사를 눌러 jobs-container 클래스를 찾아줍니다.
html로 이루어져 있는데요. a태그에 보시면 회사, 지역, 직종명 등등이 나와 있습니다.
저희가 필요한건 맨 위의 <a href="....>코드입니다.
4. 아래와 같이 코딩해줍니다.
#웹을 가져오기 위해 requests의 get을 임포트
from requests import get
base_url = "https://weworkremotely.com/remote-jobs/search?utf8=%E2%9C%93&term="
search_term = "python"
#나중에 url과 검색어를 변경하여 재사용할 수 있게 f문자열 포매팅
response = get(f"{base_url}+{search_term}")
#웹사이트에서 정상적인 응답(200)을 주지 않을때를 대비
if not response.status_code == 200:
print("Can't request website")
#정상이라면 페이지의 html 코드를 쫙 긁어 옴
else:
print(response.text)
5. 실행결과
ㅃ킹 텍스트가 눈을 아프게 하는데요. 다음 시간에는 이 텍스트안에서 아까 살펴본
jobs-container의 ul의 li들을 타겟으로 beautifulsoup을 사용해볼겁니다.
728x90
반응형
LIST