웹 크롤링 간단예제 | Beautiful Soup 사용법

웹 크롤링 간단예제 | Beautiful Soup 사용법

2021. 4. 18. 03:11ㆍdev

웹에서 데이터를 크롤링할때, Python 라이브러리인 Beautiful Soup을 통해 원하는 데이터를 가져올 수 있다.

1. 설치환경

Python 3.6

2. BeautifulSoup 라이브러리 설치

pip install beautifulsoup4

3. 뉴스기사 크롤링

IT조선 뉴스 메인페이지를 보면, 기사들이 모두 링크로 걸려있다. 기사의 URL을 수집하기 위해 a태그에서 href를 가져오면 된다.

4. 파이썬 코드

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://it.chosun.com/")

bsObject = BeautifulSoup(html, "html.parser")

for link in bsObject.find_all('a'):
    print(link.text.strip(), link.get('href'))

urlopen을 사용하여 해당 페이지의 HTML소스를 가져온다
BeautifulSoup을 사용하여 파싱하기
find_all(): 해당 조건에 맞는 모든 태그들을 가져와, 리스트로 결과를 반환한다

5. 실행결과

'dev' 카테고리의 다른 글

JS \| 디스트럭처링 할당 (Destructuring) (0)	2021.05.12
node.js 라이브러리 nodemon (0)	2021.05.07
Web 기본 지식 (0)	2021.04.15
Python 공백없이 입력받아 list만들기: strip(), rstrip(), lstrip() 사용법 (0)	2021.04.09
티스토리 코드블럭 커스터마이징, 폰트 변경방법 (0)	2021.02.24

JEEYOUNG.ME

JEEYOUNG.ME

태그

최근글

댓글

공지사항

아카이브

1. 설치환경

2. BeautifulSoup 라이브러리 설치

3. 뉴스기사 크롤링

4. 파이썬 코드

5. 실행결과

'dev' 카테고리의 다른 글

관련글

티스토리툴바