여느 라이브러리와 같이, urlopen과 beautifulsoup4도 설치를 해주어야 사용할 수 있다. 물론 명령 프롬프트(prompt)를 통해 설치해도 되긴 하지만, 파이참 등과 같은 프로그램을 사용하는 경우라면 각 프로그램에서 제공하는 터미널(Terminal) 내에서 pip install을 통해 라이브러리를 설치해주자. ※ beautifulsoup4는 pip install bs4라고 입력해야 설치된다.
pip install urlopen bs4
from A imprt B as C
설치되었다면 이제 import를 해서 라이브러리를 사용해보자.
from urllib.request import urlopen
from bs4 import BeautifulSoup as bs
사용할 주소를 변수로 입력
urlopen은 특정 주소를 여는 역할을 수행한다. 본인의 경우 네이버 증권의 [국내 시장] 주소를 사용했다. ※ 다른 주소를 사용하고 싶다면 그 주소를 입력하면 된다.
html = urlopen('https://finance.naver.com/sise')
주소의 html 구조 가져오기
앞서 urlopen을 통해 사용하고자 하는 주소를 입력했고, 그 정보를 html이라는 변수 안에 저장했다. 그렇다면 이제 html이라는 변수를 html, 즉 여러 개의 태그가 포함되어 있는 정보로 변환하여 가져와야 한다. 이 과정에서 사용되는 것이 beautifulsoup이다. 분량 상 상단의 7줄만 가져왔지만, 실제로 bsObj 변수 내에 입력되어 있는 자료의 길이는 상당히 길다.
※ 앞서 import하는 과정에서 beautifulsoup4 as bs로 사용했으니, bs만 입력하면 해당 라이브러리를 사용할 수 있다. ※ bsObj는 임의로 설정한 변수이다. 이름이 마음에 안 든다면 다른 이름으로 설정해도 된다.