웹 크롤링 간단예제 | Beautiful Soup 사용법
2021. 4. 18. 03:11ㆍdev
웹에서 데이터를 크롤링할때, Python 라이브러리인 Beautiful Soup을 통해 원하는 데이터를 가져올 수 있다.
1. 설치환경
Python 3.6
2. BeautifulSoup 라이브러리 설치
pip install beautifulsoup4
3. 뉴스기사 크롤링
IT조선 뉴스 메인페이지를 보면, 기사들이 모두 링크로 걸려있다. 기사의 URL을 수집하기 위해 a태그에서 href를 가져오면 된다.
4. 파이썬 코드
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://it.chosun.com/")
bsObject = BeautifulSoup(html, "html.parser")
for link in bsObject.find_all('a'):
print(link.text.strip(), link.get('href'))
- urlopen을 사용하여 해당 페이지의 HTML소스를 가져온다
- BeautifulSoup을 사용하여 파싱하기
- find_all(): 해당 조건에 맞는 모든 태그들을 가져와, 리스트로 결과를 반환한다
5. 실행결과
'dev' 카테고리의 다른 글
JS | 디스트럭처링 할당 (Destructuring) (0) | 2021.05.12 |
---|---|
node.js 라이브러리 nodemon (0) | 2021.05.07 |
Web 기본 지식 (0) | 2021.04.15 |
Python 공백없이 입력받아 list만들기: strip(), rstrip(), lstrip() 사용법 (0) | 2021.04.09 |
티스토리 코드블럭 커스터마이징, 폰트 변경방법 (0) | 2021.02.24 |