웹 스크래핑
-
지난 게시글 1.1 웹 스크래핑 - 방법 알아보기 1.2 웹 스크래핑 - urlopen과 beautifulsoup4 사용 방법 (1) 원하는 tag 찾기 : F12(개발자 모드) 특정 홈페이지에서 본인이 찾고자 하는 자료의 위치를 확인해보도록 하자. 본인의 경우에는 [네이버 증권] - [국내 증시] - [Top 종목] 내에 있는 자료를 스크래핑할 예정이다. 본인이 사용하고자 하는 자료의 위치를 찾았다면 이제 본인이 찾고자 하는 자료가 html 상에서 어떤 태그로 감싸져 있는지 확인해야 하는데, 이는 F12(개발자 모드)에서 어렵지 않게 사용할 수 있다. ※ 크롬과 인터넷 익스플로러 모두 F12(개발자 모드)가 동작하지만, 가시성은 크롬이 훨씬 좋다. F12를 누르면 오른쪽에 웬 영어만 한가득한 창이 뜰 ..
1.3 웹 스크래핑 - urlopen과 beautifulsoup4 사용 방법 (2)지난 게시글 1.1 웹 스크래핑 - 방법 알아보기 1.2 웹 스크래핑 - urlopen과 beautifulsoup4 사용 방법 (1) 원하는 tag 찾기 : F12(개발자 모드) 특정 홈페이지에서 본인이 찾고자 하는 자료의 위치를 확인해보도록 하자. 본인의 경우에는 [네이버 증권] - [국내 증시] - [Top 종목] 내에 있는 자료를 스크래핑할 예정이다. 본인이 사용하고자 하는 자료의 위치를 찾았다면 이제 본인이 찾고자 하는 자료가 html 상에서 어떤 태그로 감싸져 있는지 확인해야 하는데, 이는 F12(개발자 모드)에서 어렵지 않게 사용할 수 있다. ※ 크롬과 인터넷 익스플로러 모두 F12(개발자 모드)가 동작하지만, 가시성은 크롬이 훨씬 좋다. F12를 누르면 오른쪽에 웬 영어만 한가득한 창이 뜰 ..
2021.12.22 -
웹 스크래핑은 기본적으로 html 형태로 입력되어 있는 홈페이지 정보를 각 태그 안에 있는 정보들을 가져오는 것이다. html이니 태그니 하는 용어들이 등장하는데, 크게 어려울 것 없다. html은 또는 , 라던가 하는 것들이 모여서 홈페이지를 구성하는 것이고, 여기서의 나 , 가 바로 html의 태그에 해당한다. 따라서 특정 홈페이지 주소의 html 구조를 불러온 후에, 그 값 안에서 각각의 태그 안에 저장되어 있는 값들만 추출하는 것을 웹 스크래핑이라고 보면 된다. 여기서 html 구조 전체를 불러오는 작업은 urlopen 라이브러리(또는 request 라이브러리)를 통해, html 내의 태그를 불러오는 작업은 beautifulsoup4 라이브러리를 통해 진행할 예정이다.
1.1 웹 스크래핑 - 방법 알아보기웹 스크래핑은 기본적으로 html 형태로 입력되어 있는 홈페이지 정보를 각 태그 안에 있는 정보들을 가져오는 것이다. html이니 태그니 하는 용어들이 등장하는데, 크게 어려울 것 없다. html은 또는 , 라던가 하는 것들이 모여서 홈페이지를 구성하는 것이고, 여기서의 나 , 가 바로 html의 태그에 해당한다. 따라서 특정 홈페이지 주소의 html 구조를 불러온 후에, 그 값 안에서 각각의 태그 안에 저장되어 있는 값들만 추출하는 것을 웹 스크래핑이라고 보면 된다. 여기서 html 구조 전체를 불러오는 작업은 urlopen 라이브러리(또는 request 라이브러리)를 통해, html 내의 태그를 불러오는 작업은 beautifulsoup4 라이브러리를 통해 진행할 예정이다.
2021.12.20