웹크롤링 / 스크래핑 프로그램 OUTWIT HUB 사용기


안녕하세요
디바이스마트입니다!
제가 최근 기똥차게 좋은 프로그램을 알게되어서 소개해드리려고해요!
바로 웹크롤링 프로그램인데요!
대학다닐때 요 프로그램 알았다면,, 과제를 좀 더 수월하게 하지 않았을까,,!
대부분의 직장인분들께서 엑셀을 주로 활용하실텐데요
직무에 따라 조금씩 다르겠지만, 저는 웹크롤링 프로그램을 아주 요긴하게 사용하고 있답니다!
웹크롤링
웹크롤링 자체가 생소하신 분들도 계실텐데요!
간략하게 소개해드릴게용
웹 크롤링 : 컴퓨터 소프트웨어 기술로 웹 사이트들에서 원하는 정보를 추출하는 작업
웹 크롤러 : 인터넷에 있는 웹페이지를 방문해서 자료를 수집하는 일을 하는 프로그램
이때 한 페이지만 방문하는 것이 아니라 그 페이지에 링크되어 있는 또 다른 페이지를 차례대로 방문하고
이처럼 링크를 따라 웹을 돌아다니는 모습이 마치 거미와 비슷하다고 해서 스파이더라고 부르기도 합니다.
다양한 스크래핑프로그램이 있는데 오늘은 OUTWIT HUB에 대해 알아볼게요!

OUTWIT HUB
웹크롤링 프로그램마다 구동하는 방식이 조금씩 다르더라고요
OUTWIT HUB는 웹 페이지소스(HTML)을 기반으로 웹페이지의 원하는 정보를 추출하는 프로그램으로,
웹 페이지의 HTML에서 원하는 정보의 위치만 알 수 있다면 쉽게 원하는 자료를 추출할 수 있습니다!
위 사이트에 들어가셔서 다운하시면 됩니다!
용량이 큰 편이 아니고, 간단한 크롤링이 목적이라면 시험판도 충분하다는거!
OUTWIT HUB 설치 후, 실행하면 위 화면이 뜹니당!
좌측 탭에서 주로 활용할 부분은
scraped와 scrapers!
scraped는 웹 크롤링 결과물을 볼 수 있는 메뉴
scrapers는 웹 크롤링을 위한 설정탭!

본격적으로 시뮬레이션에 들어가볼게요
저는 디바이스마트 LED 인테리어 조명 카테고리에 있는 제품들을 스크래핑하려고해요!
보기쉽게 체크를 해봤는데요
제일 상단에 스크래핑하고자하는 사이트 주소를 입력하시면
아래 사이트화면/HTML소스/작업공간이 쥬르륵 나와요!
NEW 버튼 클릭 후 크롤링 작업을 설정할 수 있습니다.
작업의 이름은 자유롭게 설정하시면 되고요!
description은 추출할 첫행 명칭을 지정!
저는 상품명을 쭉 추출할 예정이라 상품명이라고 했고요!
maker before는 웹페이지 소스에서 추출할 데이터의 시작부분
maker after는 웹페이지 소스에서 추출할 데이터의 끝부분

.
.
이게 다 무슨 소리?????????? 동공지진 오신 분들을 위해
제가 어떻게 작업했는지 보여드릴게요!
지금 LED인테리어조명 페이지의 상품명들을 추출하려고 하잖아요?
페이지 전체의 각각 저 상품명만 뽑아내고싶은거쥬!
제일 첫 상품
SZH-LED142 제품명을 복사해주세요!
작업페이지로 돌아가서
SZH-LED142를 입력하고 엔터치면
찾기기능으로 갈 수 있는데요!
상품명 앞에 <Span class="t_pr_name"> 요게 고정값으로 추출할 데이터의 시작부분이랍니당!
그 다음, 추출하기 버튼 누르면 끝!
Scraped에 가보시면 이렇게 상품명이 촤르르르륵 추출된게 보이시쥬!?
저장할 확장자를 선택 후 export 버튼을 클릭하면 파일로 저장이 가능합니다!
이게 증말 끝!!!!!!!
웹크롤링 프로그램 있으면 하나하나 복붙 안해도 됩니다 여러분덜!!!!!


웹크롤링 처음에는 뭐 이리 복잡하지?하셔도
한두번만 해보시면 금방 숙달되서 진짜 작업이 훨씬 수월해짐을 느끼실 수 있을거에요..★
아이캔두잇 유캔두잇 위캔두잇!!!!!!!!!
OUTWIT HUB 외에도 다른 웹크롤링 프로그램들이 있는데요
다음편에 또 소개해드릴게용!

댓글 쓰기

0 댓글