Data Analysis

파이썬 크롤링 (crawling)

알로그 2020. 3. 27. 08:42
반응형

파이썬 크롤링(crawling)

크롤링(crawling) 또는 스크랩핑(scraping)은 웹 페이지에서 필요한 데이터를 추출하는 행위를 말한다.

파이썬 라이브러리(Beautiful Soup)를 이용하여 크롤링하는 방법에 대해 알아보자.

 

네이버 인기검색어 추출

네이버 사이트에서 개발자 도구를 활용하여 인기검색어 요소를 확인해보자. 

아래 이미지처럼 <span class = "ah_k"..>임을 확인할 수 있다.

따라서 이 부분을 파싱해야 한다.

image.png

 

 

Beautiful soup을 사용하여 파싱하는 코드 구조는 아래와 같다.

url = "http://www.naver.com"
soup = BeautifulSoup(urllib.request.urlopen(url).read(), "html.parser")
# resp = requests.get(url)
# soup = BeautifulSoup(resp.text) 로도 사용


list = []

for naver_top_search in soup.find_all("span", class_="ah_k"):
    list.append(naver_top_search.get_text())

 

반응형