파이썬 파싱
-
파이썬 독학 10일차 BeautifulSoup(웹 파싱하기, 스크래핑) 4coding 2022. 9. 10. 00:00
9일 차 포스팅에서 구인을 하고 있는 기업의 이름과, 근무 시간 등을 스크랩했지만 결과에 html 태그가 끼여 있어 가독성이 무척 떨어졌다. 그래서 이번 포스팅엔 beautifulsoup의. string이라는 기능을 이용하여 item들만 간추려보겠다. 뷰티풀 수프의 문서를 살펴보면. string을 사용하면 스크래핑한 html 태그 안에 child가 스트링이라면 스트링을 가져올 수 있다고 되어있다. 아래와 같이 작성하면 태그는 제거하고 아이템만 가져올 수 있게 된다. print(company_name.string,"\n", shift.string,"\n", region.string,"\n", title.string) 따란 정말 멋지고 가슴이 웅장해진다. 샤라웃 투 니코쌤 노마드코드 최고 더보기 #웹을 가져..
-
파이썬 독학 9일차 BeautifulSoup(웹 파싱하기, 스크래핑) 3coding 2022. 9. 9. 00:00
이번 포스팅에선 아래의 weworkremotely.com사이트의 python 개발자를 구인하는 회사들을 스크래핑 해볼 것이다. 회사의 이름, 근무시간, 지역 등을 가져온다. beautiful soup의 강력한 기능들을 사용해서 간단하게 코딩했다. #웹을 가져오기 위해 requests의 get을 임포트 from requests import get #beautifulsoup 사용을 위해 임포트 from bs4 import BeautifulSoup base_url = "https://weworkremotely.com/remote-jobs/search?utf8=%E2%9C%93&term=" search_term = "python" #나중에 url과 검색어를 변경하여 재사용할 수 있게 f문자열 포매팅 respon..
-
파이썬 독학 7일차 BeautifulSoup(웹 파싱하기, 스크래핑) 2coding 2022. 9. 7. 00:00
6일차에 BeautifulSoup패키지를 인스톨하고 requests를 이용해 타겟 코드가 있는 사이트의 텍스트를 모조리 불러왔다. 전 포스팅에 이어 BeautifulSoup의 강력한 Method를 이용해 타겟 텍스트를 쉽게 찾아보겠다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation Non-pretty printing If you just want a string, with no fancy formatting, you can call str() on a BeautifulSoup object, or on a Tag within it: str..