Data Analysis

파이썬 크롤링 (crawling) - id, class, 정규표현식, 속성으로 찾기

알로그 2020. 7. 12. 21:35
반응형

파이썬 크롤링 (crawling)

 

파이썬 크롤링에 대한 기본적인 내용은 이전 글을 참고하자

2020/03/27 - [Data Analysis] - 파이썬 크롤링 (crawling)

 

파이썬 크롤링 (crawling)

크롤링(crawling) 또는 스크랩핑(scraping)은 웹 페이지에서 필요한 데이터를 추출하는 행위를 말함 파이썬 라이브러리(Beautiful Soup)를 이용하여 크롤링하는 방법을 기술하고자 함. 네이버 인기검색어

hungc.tistory.com

 

 

html의 id 속성을 이용하여 찾기

soup.select('#id명')  

 

html의 class 속성을 이용하여 찾기

soup.select('.class명')

 

자손 태그는 혼합해서 찾기

soup.select('#id명 p')

 

자식 태그를 찾고 싶다면 > 키워드를 붙여야 함 (p 태그가 자손이 아니라 자식 태그라면)

soup.select('#id명 > p')

 

h3 태그의 특정 class 가져오기

soup.select('h3.class명')

 

속성값을 이용하여 찾기(class 예제)

soup.select('h3[class="class명"]')

 

정규표현식 같이 사용하기 (h* 태그 )

soup.find_all(re.compile('h\d'))

 

 

반응형

'Data Analysis' 카테고리의 다른 글

엑셀 빈 셀에 한 번에 특정 값 입력하기  (0) 2020.11.12
파이썬 openpyxl (차트)  (0) 2020.11.11
파이썬 openpyxl  (0) 2020.11.11
파이썬 크롤링 (crawling)  (0) 2020.03.27
엑셀 분수 입력 방법  (0) 2018.11.11