Python 웹 스크래핑, 크롤링? 정체가 뭐냐 개념 잡기

처음 Python을 찾아 본 이유는 웹 크롤링을 해보기 위해서 였습니다. 지금 웹 스크래핑을 먼저 배우고 있는데요. 크롤링? 스크래핑? 그놈이 그놈 같은 이 기분을 해소하기 위해서 개념을 알아보려고 합니다.

 

웹 크롤링, 스크래핑의 개념

많은 사람들이 웹 페이지에서 필요한 정보를 긁어서 수집하는걸 웹 크롤링이라고 생각합니다. 저도 이렇게 이해를 하고 있었는데요. 이게 명확한 표현은 아닙니다. 정확한 내용을 이해하려면 개념을 파악해야 합니다.

 

Web Scraping(웹 스크래핑)이란? 웹 사이트 상에서 원하는 부분의 위치한 데이터를 추출하여 수집하는 기술.

 

Web crawling(웹 크롤링)이란? 자동화 봇(bot)인 웹 크롤러(web crawler)가 정해진 규칙에 따라 복수 개수 웹 페이지를 브라우징하는 행위라고 하며 웹 스파이더링이라고도 합니다.

 

내용을 정리하면 우리가 만든 웹 크롤러가 웹 크롤링을 하는 과정에서 방문한 웹 페이지의 내용을 웹 스크래핑 기술을 통해 원하는 부분의 정보를 추출하고 저장하는 것입니다.

 

Python 웹 스크래퍼 만들기

지금은 현재 노마드코더를 통해서 파이썬을 공부하고 있습니다. 파이썬으로 웹 스크래퍼를 만들면서 파이썬을 익히게 됩니다. 웹 크롤링, 스크래핑을 완벽하게 하기 위해서는 HTML과 CSS의 기초적인 이해가 필요합니다. 더 나아가 JavaScript도 알아야 하는데요. 저도 웹은 처음 해보는 거라 모르는 상태입니다. HTML과 CSS는 개념은 알고 있는 상태입니다.

 

 

몰라도 수업을 듣는데에 지장이 없으시니 먼저 파이썬 익히시면됩니다. 그리고 무료 강의를 들으며 파이썬 2주 완성반 챌린지를 진행하고 있는데요. 혹시 파이썬을 공부하고 싶은데 어디서 배우면 좋을까요? 하시는 분이 있으시면 여기서 무료 강의 들으시면 됩니다. 정말 2주동안 열심히 해봐야하지 하시는 분들이면 챌린지 도전하세요.

 

현재 챌린지 5일차인데요. 혼자 공부를 하게 되니 습득이 빠릅니다. 챌린지 과제를 올리는 건 안돼서 아쉽습니다. 좀 더 공부하여서 블로그에 내용 정리하도록 하겠습니다.

 

 

그리드형(광고전용)

이 글을 공유합시다

facebook twitter googleplus kakaoTalk kakaostory naver band

댓글

Designed by JB FACTORY