PYTHON/Web Scraping

1.2 웹 스크래핑 - urlopen과 beautifulsoup4 사용 방법 (1)

  • -

 

지난 게시글
2021.12.20 - [PYTHON/Web Scraping] - 1.1 웹 스크래핑 - 방법 알아보기

 

 

pip install 

여느 라이브러리와 같이, urlopen과 beautifulsoup4도 설치를 해주어야 사용할 수 있다. 물론 명령 프롬프트(prompt)를 통해 설치해도 되긴 하지만, 파이참 등과 같은 프로그램을 사용하는 경우라면 각 프로그램에서 제공하는 터미널(Terminal) 내에서 pip install을 통해 라이브러리를 설치해주자.
※ beautifulsoup4는 pip install bs4라고 입력해야 설치된다.

pip install urlopen bs4

 

 

from A imprt B as C

설치되었다면 이제 import를 해서 라이브러리를 사용해보자.

from urllib.request import urlopen
from bs4 import BeautifulSoup as bs

 

 

사용할 주소를 변수로 입력

urlopen은 특정 주소를 여는 역할을 수행한다. 본인의 경우 네이버 증권의 [국내 시장] 주소를 사용했다.
※ 다른 주소를 사용하고 싶다면 그 주소를 입력하면 된다.

html = urlopen('https://finance.naver.com/sise')

 

 

주소의 html 구조 가져오기

앞서 urlopen을 통해 사용하고자 하는 주소를 입력했고, 그 정보를 html이라는 변수 안에 저장했다. 그렇다면 이제 html이라는 변수를 html, 즉 여러 개의 태그가 포함되어 있는 정보로 변환하여 가져와야 한다. 이 과정에서 사용되는 것이 beautifulsoup이다. 분량 상 상단의 7줄만 가져왔지만, 실제로 bsObj 변수 내에 입력되어 있는 자료의 길이는 상당히 길다.

※ 앞서 import하는 과정에서 beautifulsoup4 as bs로 사용했으니, bs만 입력하면 해당 라이브러리를 사용할 수 있다.
※ bsObj는 임의로 설정한 변수이다. 이름이 마음에 안 든다면 다른 이름으로 설정해도 된다.

bsObj = bs(html, "html.parser")
print(bsObj)




>>>
<script language="javascript">
function main_tab(tab_title, pst, tab_cnt)
{
	for(var i=0 ; i<tab_cnt ; i++)
	{
		if (i == pst)
			document.getElementById(tab_title+'_title_tab_'+i).style.display = '';
		else
			document.getElementById(tab_title+'_title_tab_'+i).style.display = 'none';

 

 

 

 


728x90
반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.