전체 글
-
파이썬 독학 12일차 refactor 리팩터링coding 2022. 9. 12. 00:00
이전 포스팅에 만든 weworkremotely 홈페이지 파싱의 코드를 재사용하기 위해 정리를 해주었다. extractors라는 폴더를 만들고 하위에 wwr.py 파일을 만든 뒤 코드를 복사해주었다. from requests import get #beautifulsoup 사용을 위해 임포트 from bs4 import BeautifulSoup def extract_wwr_jobs(keyword): #웹을 가져오기 위해 requests의 get을 임포트 base_url = "https://weworkremotely.com/remote-jobs/search?utf8=%E2%9C%93&term=" #나중에 url과 검색어를 변경하여 재사용할 수 있게 f문자열 포매팅 response = get(f"{base_ur..
-
파이썬 독학 11일차 BeautifulSoup(웹 파싱하기, 스크래핑) 5coding 2022. 9. 11. 00:00
이번 포스팅에선 깔끔하게 스크래핑 해온 아래의 데이터 결과를 한 곳에 저장해보자. 회사명, 근무 시간, 지역 등의 key 값이 있으니 무언가 떠오르지 않는가? 정답이다. 바로 파이썬의 dictionary데이터 타입을 이용해 정리해보자. 1. 가장먼저 for loop의 밖에 비어 있는 results = [ ]리스트를 만들어주고 2. 가져온 스트링 값들을 job_data의 dic에 key값과 함께 정리해주고 3. .append를 사용해 튜플 값을 리스트에 넣어준다. 4. for loop의 밖에서 result 값을 출력해주면 끝 더보기 #웹을 가져오기 위해 requests의 get을 임포트 from requests import get #beautifulsoup 사용을 위해 임포트 from bs4 import ..
-
파이썬 독학 10일차 BeautifulSoup(웹 파싱하기, 스크래핑) 4coding 2022. 9. 10. 00:00
9일 차 포스팅에서 구인을 하고 있는 기업의 이름과, 근무 시간 등을 스크랩했지만 결과에 html 태그가 끼여 있어 가독성이 무척 떨어졌다. 그래서 이번 포스팅엔 beautifulsoup의. string이라는 기능을 이용하여 item들만 간추려보겠다. 뷰티풀 수프의 문서를 살펴보면. string을 사용하면 스크래핑한 html 태그 안에 child가 스트링이라면 스트링을 가져올 수 있다고 되어있다. 아래와 같이 작성하면 태그는 제거하고 아이템만 가져올 수 있게 된다. print(company_name.string,"\n", shift.string,"\n", region.string,"\n", title.string) 따란 정말 멋지고 가슴이 웅장해진다. 샤라웃 투 니코쌤 노마드코드 최고 더보기 #웹을 가져..
-
파이썬 독학 9일차 BeautifulSoup(웹 파싱하기, 스크래핑) 3coding 2022. 9. 9. 00:00
이번 포스팅에선 아래의 weworkremotely.com사이트의 python 개발자를 구인하는 회사들을 스크래핑 해볼 것이다. 회사의 이름, 근무시간, 지역 등을 가져온다. beautiful soup의 강력한 기능들을 사용해서 간단하게 코딩했다. #웹을 가져오기 위해 requests의 get을 임포트 from requests import get #beautifulsoup 사용을 위해 임포트 from bs4 import BeautifulSoup base_url = "https://weworkremotely.com/remote-jobs/search?utf8=%E2%9C%93&term=" search_term = "python" #나중에 url과 검색어를 변경하여 재사용할 수 있게 f문자열 포매팅 respon..
-
파이썬 독학 8일차 keyword argument 순서 상관없이 지정coding 2022. 9. 8. 00:00
보통 함수를 생성할 때 인자값에 순서와 이름은 상당히 중요하다. 예를 들어 아래와 같은 코드를 생성하면 def introduce(name, age): print(f"I am {name}, {age} years old") name = "louis wain" age = 2 introduce(name, age) introduce 함수는 첫 번째 인자값에 name을 두번째 인자값에 age를 받는다. 하지만 순서와 상관없이 인자값을 지정해줄 수도 있다. 그 방법은 아래와 같다. def introduce(name, age): print(f"I am {name}, {age} years old") name = "louis wain" age = 2 introduce(age = 2, name = "cat") introdu..
-
파이썬 독학 7일차 BeautifulSoup(웹 파싱하기, 스크래핑) 2coding 2022. 9. 7. 00:00
6일차에 BeautifulSoup패키지를 인스톨하고 requests를 이용해 타겟 코드가 있는 사이트의 텍스트를 모조리 불러왔다. 전 포스팅에 이어 BeautifulSoup의 강력한 Method를 이용해 타겟 텍스트를 쉽게 찾아보겠다. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation Non-pretty printing If you just want a string, with no fancy formatting, you can call str() on a BeautifulSoup object, or on a Tag within it: str..
-
파이썬 독학 6일차 웹 스크래핑, 파싱(beautiful soup) 1coding 2022. 9. 6. 00:00
웹 스크래핑에 아주 좋은 beautiful soup이라는 패키지가 있습니다. 이전에 살펴본 requests와 함께 사용하면 유료신문 구독이나 해외 주가 변동 등 웹에 게시된 데이터들을 쉽게 가져올 수 있게 됩니다. 하지만 교육 목적이 아닌 상업 목적이라면 아주 조심해야 합니다. 1. 우선 beautifulsoup4를 packages에서 설치해줍니다. 이번 포스팅에선 프로그래머 구인구직 사이트인 WWR(WE WORK REMOTELY)를 스크래핑 해보겠습니다. 2. python을 검색해주세요. https://weworkremotely.com/ 3. F12 또는 검사를 눌러 jobs-container 클래스를 찾아줍니다. html로 이루어져 있는데요. a태그에 보시면 회사, 지역, 직종명 등등이 나와 있습니다..
-
파이썬 독학 5일차 pypi, requests 사용법coding 2022. 9. 5. 00:00
앞서 살펴본 것처럼 파이썬엔 기본으로 내장되어있는 함수외에 개발자들이 만든 다양한 기능들을 import하여 사용할 수 있다. 파이피, 피즈샵이라고도 불리는 파이썬 공식 패키지 인덱스에서 많은 기능들을 확인해 볼 수 있다. 22년 9월기준 39만개의 프로젝트가 올라가 있다. https://pypi.org/ PyPI · The Python Package Index The Python Package Index (PyPI) is a repository of software for the Python programming language. pypi.org 오늘 살펴볼 requests 2.28.1은 한달에 무려 2억 3천만번넘게 다운로드 되고 있다. 이를 사용하기 위해 몇가지 조치가 필요하다. 대충 패키지 모양 아..