반응형
파이썬 크롤링(crawling)
크롤링(crawling) 또는 스크랩핑(scraping)은 웹 페이지에서 필요한 데이터를 추출하는 행위를 말한다.
파이썬 라이브러리(Beautiful Soup)를 이용하여 크롤링하는 방법에 대해 알아보자.
네이버 인기검색어 추출
네이버 사이트에서 개발자 도구를 활용하여 인기검색어 요소를 확인해보자.
아래 이미지처럼 <span class = "ah_k"..>임을 확인할 수 있다.
따라서 이 부분을 파싱해야 한다.
Beautiful soup을 사용하여 파싱하는 코드 구조는 아래와 같다.
url = "http://www.naver.com"
soup = BeautifulSoup(urllib.request.urlopen(url).read(), "html.parser")
# resp = requests.get(url)
# soup = BeautifulSoup(resp.text) 로도 사용
list = []
for naver_top_search in soup.find_all("span", class_="ah_k"):
list.append(naver_top_search.get_text())
반응형
'Data Analysis' 카테고리의 다른 글
엑셀 빈 셀에 한 번에 특정 값 입력하기 (0) | 2020.11.12 |
---|---|
파이썬 openpyxl (차트) (0) | 2020.11.11 |
파이썬 openpyxl (0) | 2020.11.11 |
파이썬 크롤링 (crawling) - id, class, 정규표현식, 속성으로 찾기 (0) | 2020.07.12 |
엑셀 분수 입력 방법 (0) | 2018.11.11 |