파이썬 스크래핑
-
파이썬 독학 10일차 BeautifulSoup(웹 파싱하기, 스크래핑) 4coding 2022. 9. 10. 00:00
9일 차 포스팅에서 구인을 하고 있는 기업의 이름과, 근무 시간 등을 스크랩했지만 결과에 html 태그가 끼여 있어 가독성이 무척 떨어졌다. 그래서 이번 포스팅엔 beautifulsoup의. string이라는 기능을 이용하여 item들만 간추려보겠다. 뷰티풀 수프의 문서를 살펴보면. string을 사용하면 스크래핑한 html 태그 안에 child가 스트링이라면 스트링을 가져올 수 있다고 되어있다. 아래와 같이 작성하면 태그는 제거하고 아이템만 가져올 수 있게 된다. print(company_name.string,"\n", shift.string,"\n", region.string,"\n", title.string) 따란 정말 멋지고 가슴이 웅장해진다. 샤라웃 투 니코쌤 노마드코드 최고 더보기 #웹을 가져..
-
파이썬 독학 7일차 BeautifulSoup(웹 파싱하기, 스크래핑) 2coding 2022. 9. 7. 00:00
6일차에 BeautifulSoup패키지를 인스톨하고 requests를 이용해 타겟 코드가 있는 사이트의 텍스트를 모조리 불러왔다. 전 포스팅에 이어 BeautifulSoup의 강력한 Method를 이용해 타겟 텍스트를 쉽게 찾아보겠다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation Non-pretty printing If you just want a string, with no fancy formatting, you can call str() on a BeautifulSoup object, or on a Tag within it: str..