WEB

[WEB] 웹 크롤링 & 웹 스크래핑

2juhyunju ㅣ 2022. 8. 22. 12:10

Web의 데이터를 추출 할 때 보통 크롤링 또는 스크래핑을 많이 사용한다. 

크롤링은 무엇이고 스크래핑은 무엇인지 포스팅 해보고자 한다.


Crawling

웹 크롤링은 웹 크롤러가 일정 규칙으로 웹페이지를 브라우징 하는것 으로 정의 할 수 있다. 

즉 웹상의 정보들을 탐색하고 수집하는 작업을 한다. 인터넷에 존재 하는 수 많은 정보를 사람이 일일이 파악하는것은 사실상 불가능한 이야기이다. 그래서 특정한 규칙에 따라 웹 페이지를 탐색하는 프로그램인 웹 크롤러가 탄생하였다. 클롤러라는 프로그램을 사용하여 페이지의 정보를 인덱싱 한다. 크롤링은 기본적으로 검색 엔진이 하는 일이고 페이지 전체를 보고 색인을 생성하는 것이다. 크롤러는 웹사이트를 크롤링 할 때 웹사이트의 모든 정보를 찾는다. 웹 크롤링은 일반적으로 일반적인 정보를 캡처한다.


Scraping

웹 스크래핑은 특정 웹 사이트나 페이지에서 필요한 특정한 데이터를 자동으로 추출하는 것을 말한다.

특정한 정보를 추출하기 위해 스크래퍼 봇이 특정 웹 사이트에 콘텐츠를 다운로드 하기 위해 GET 요청을 보낸다. 

사이트가 이에 대한 응답을 하면 스크래프는 HTML 문서를 분석해서 특정 패턴을 지닌 데이터를 뽑아내 데이터베이스에 저장할 수 있다.


 

Crawling ,Scraping 차이

정의로만 봤을 때는 크롤링이든 스크래핑이든 내가 원하는 어떤 데이터를 수집할 수 있다는 점이 비슷하지만 

크롤링은 웹 페이지의 링크를 타고 계속해서 탐색하지만 웹 스크래핑은 내가 원하는 특정 웹 사이트만을 추적해서 데이터를 추출한다는 점에서 차이가 있다. 크롤링은 웹을 기반으로 작동하는 반면 스클핑은 웹을 포함해서 다양하게 데이터를 추출 할 수 있다. 반드시 웹과 관련되어 있지는 않다. 또 한 크롤링은 어떤 웹 사이트에 동일한 콘텐츠가 여러 페이지에 업로드 된 것을 인식하지 못하므로 중복적인 내용은 제거 해야 하지만 스크래핑 같은 경우는 특정 데이터를 추출하는 것이므로 중복 제거가 반드시 필요하지는 않다.

 

 

 

 

 

'WEB' 카테고리의 다른 글

[WEB] 소셜 로그인  (0) 2022.08.25
[WEB] 로그인 프로세스  (0) 2022.08.23
[WEB] Husky  (0) 2022.08.22
[WEB] REST API ,GraphQL  (0) 2022.08.22
[WEB] DTO(Data Transfer Object)  (0) 2022.07.31