PYTHON/Web Scraping

1.1 웹 스크래핑 - 방법 알아보기

  • -

웹 스크래핑은 기본적으로 html 형태로 입력되어 있는 홈페이지 정보를 각 태그 안에 있는 정보들을 가져오는 것이다. html이니 태그니 하는 용어들이 등장하는데, 크게 어려울 것 없다. html은 <head> 또는 <body>, <href>라던가 하는 것들이 모여서 홈페이지를 구성하는 것이고, 여기서의 <head>나 <body>, <href>가 바로 html의 태그에 해당한다. 

따라서 특정 홈페이지 주소의 html 구조를 불러온 후에, 그 값 안에서 각각의 태그 안에 저장되어 있는 값들만 추출하는 것을 웹 스크래핑이라고 보면 된다. 여기서 html 구조 전체를 불러오는 작업은 urlopen 라이브러리(또는 request 라이브러리)를 통해, html 내의 태그를 불러오는 작업은 beautifulsoup4 라이브러리를 통해 진행할 예정이다. 

 

웹 스크래핑의 구조

 

 


728x90
반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.