JAVA Web Crawling (Scraping) / 웹페이지 크롤링 Apache HttpComponents
JAVA Crawling (Scraping) / 웹페이지 크롤링 Apache HttpComponents Java에서 웹페이지를 String 타입(문자열) 크롤링 하는 방법을 소개한다. 문자열로 크롤링 후 jericho, jsoup 등 Java에서 사용하기 편하도록 DOM 객체로 파싱해주는 라이브러리를 사용하면 좀 더 효율적으로 크롤링된 문자열을 사용할 수 있다. 하지만 여기에서는 단순히 문자열로만 크롤링하는 방법을 소개하겠다. 크롤링은 원하는 페이지 1개만 크롤링 하는 경우도 있지만 세션을 유지한 채 사이트 내부의 링크를 돌아다니며 필요한 페이지만 크롤링할수도 있다. 예를들면 다음과 같은 경우다. 로그인 > 특정 메뉴 > 서브메뉴 > 목록 화면 (크롤링) 이번 포스팅은 세션을 유지한 채 페이지들을 이동하..
2016. 11. 21. 15:20