반응형
User-Agent 이슈로 크롤링 해결
사이트에서 봇에 의한 크롤링을 막는 경우가 종종 있다.
크롤링을 자주 하게 되면 그만큼 서버의 리소스를 먹게 되는 것이니..
크롤링에서 종종 이슈가 되는 부분인데, 이런 경우에는 request를 호출할 때 Header 값에 User-Agent 값을 넣어서 요하면 해결할 수 있다.
User-Agent 값은 웹 브라우저에서 확인할 수 있다.
- 개발자도구 오픈(F12)
- Console 창 클릭
- navigator.userAgent 입력
위에서 확인한 User-Agent 값을 request에 헤더값으로 같이 전송한다.
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36'}
res = requests.get(url, headers=headers)
반응형
'Data Analysis' 카테고리의 다른 글
파이썬 numpy (0) | 2021.02.20 |
---|---|
파이썬 sqlite3(데이터베이스) 모듈 사용 (0) | 2020.11.12 |
엑셀 빈 셀에 한 번에 특정 값 입력하기 (0) | 2020.11.12 |
파이썬 openpyxl (차트) (0) | 2020.11.11 |
파이썬 openpyxl (0) | 2020.11.11 |