-
파이썬 독학 6일차 웹 스크래핑, 파싱(beautiful soup) 1coding 2022. 9. 6. 00:00728x90반응형SMALL
웹 스크래핑에 아주 좋은 beautiful soup이라는 패키지가 있습니다.
이전에 살펴본 requests와 함께 사용하면 유료신문 구독이나 해외 주가 변동 등
웹에 게시된 데이터들을 쉽게 가져올 수 있게 됩니다.
하지만 교육 목적이 아닌 상업 목적이라면 아주 조심해야 합니다.
1. 우선 beautifulsoup4를 packages에서 설치해줍니다.
이번 포스팅에선 프로그래머 구인구직 사이트인 WWR(WE WORK REMOTELY)를 스크래핑 해보겠습니다.
2. python을 검색해주세요.
3. F12 또는 검사를 눌러 jobs-container 클래스를 찾아줍니다.
html로 이루어져 있는데요. a태그에 보시면 회사, 지역, 직종명 등등이 나와 있습니다.
저희가 필요한건 맨 위의 <a href="....>코드입니다.
4. 아래와 같이 코딩해줍니다.
#웹을 가져오기 위해 requests의 get을 임포트 from requests import get base_url = "https://weworkremotely.com/remote-jobs/search?utf8=%E2%9C%93&term=" search_term = "python" #나중에 url과 검색어를 변경하여 재사용할 수 있게 f문자열 포매팅 response = get(f"{base_url}+{search_term}") #웹사이트에서 정상적인 응답(200)을 주지 않을때를 대비 if not response.status_code == 200: print("Can't request website") #정상이라면 페이지의 html 코드를 쫙 긁어 옴 else: print(response.text)
5. 실행결과
ㅃ킹 텍스트가 눈을 아프게 하는데요. 다음 시간에는 이 텍스트안에서 아까 살펴본
jobs-container의 ul의 li들을 타겟으로 beautifulsoup을 사용해볼겁니다.
728x90반응형LIST'coding' 카테고리의 다른 글
파이썬 독학 8일차 keyword argument 순서 상관없이 지정 (0) 2022.09.08 파이썬 독학 7일차 BeautifulSoup(웹 파싱하기, 스크래핑) 2 (0) 2022.09.07 파이썬 독학 5일차 pypi, requests 사용법 (0) 2022.09.05 파이썬 독학 4일차 (dicts) (0) 2022.09.04 파이썬 독학 3일차 tuples (0) 2022.09.03