본문 바로가기

유틸리티-사이트

html 스크래퍼

반응형


오토핫키로 심심풀이삼아 만들어본 html 수집기입니다.



   동작방식


자동으로 해당 페이지에 들어가서 ctrl +s 신호를 보내어 파일로 저장하는 과정을 반복합니다.

즉 html의 파일을 웹요청을 통해 가져오는게 아닌 일일이 순회하는 무식한 방식입니다.

시간이 조금 들어가지만 브라우저 저장 기능을 직접 이용하여 

정확한 수집이 가능한게 이점입니다. 


사용가능한 곳은 대표적으로 지금 사용하고 있는 티스토리 블로그가 되겠네요.

티스토리에 아무 게시물에 들어가서 주소를 한번 확인해보세요.

게시물번호가 1부터 시작하여 현재 쓴 양만큼 올라가죠? 

그러면 프로그램에서 해당 범위를 정하여 순회하게 하면 되는겁니다.

그 이후는 어디 잠시 놀러갔다오면 다 저장되있겠죠?


   사용 전 참고할 점


 

① 프로그램이 실행되는 동안 조작은 하지 말아주세요.

  ( 프로그래밍된 패턴에 따라 움직이기 때문에 마우스나 키보드 조작을 하면 실행이 꼬일 수 있습니다. )


② 입력값을 잘 못 주어서 프로그램 실행이 꼬인 경우 중지버튼(F9)를 누르고 

    프로그램을 재실행해주세요.


③ 페이지 로딩 시간이 길다고 생각될 경우 드랍메뉴에서 시간을 조절하세요. 

    ( 시간 조절이 제대로 안될 경우 로딩중 페이지가 저장 될 수 있습니다. )




   프로그램 실행순서



① 사용자가 콤보박스에서 선택한 브라우저가 열립니다.


② URL과 포스트 범위값을 연결시켜서 자동으로 해당 페이지로 이동합니다. 

     예를들어 URL을 abcd1234.com/ 라고 입력하면

     abcd1234.com/23 ~ abcd1234.com/25 ← 처럼 "/" 뒤에 포스트 ID 값이 붙습니다. 


③ 저장 단축키(ctrl+s)를 쏴서 해당 페이지를 저장시킵니다.



만약 크롬에서 mhtml(단일파일)로 저장하고 싶을 때

아래 주소를 직접 치고 들어가서 Save Page as MHTML로 저장을 활성화 하세요.


chrome://flags





반응형