웹 크롤링 간단예제 | Beautiful Soup 사용법

2021. 4. 18. 03:11dev

웹에서 데이터를 크롤링할때, Python 라이브러리인 Beautiful Soup을 통해 원하는 데이터를 가져올 수 있다.

 

1. 설치환경

Python 3.6

 

2. BeautifulSoup 라이브러리 설치

pip install beautifulsoup4

 

3. 뉴스기사 크롤링

IT조선 뉴스 메인페이지를 보면, 기사들이 모두 링크로 걸려있다. 기사의 URL을 수집하기 위해 a태그에서 href를 가져오면 된다. 

 

4. 파이썬 코드 

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://it.chosun.com/")

bsObject = BeautifulSoup(html, "html.parser")

for link in bsObject.find_all('a'):
    print(link.text.strip(), link.get('href'))
  • urlopen을 사용하여 해당 페이지의 HTML소스를 가져온다
  • BeautifulSoup을 사용하여 파싱하기
  • find_all(): 해당 조건에 맞는 모든 태그들을 가져와, 리스트로 결과를 반환한다

 

5. 실행결과