본문 바로가기

스파르타코딩 내일배움캠프

스파르타코딩 내일배움캠프 - TIL Day 3

오늘 목표:

  • 스파르타 웹 기초 3,4,5 주차 끝내기.
  • 1,2,3,4,5 주차 숙제 재구현. 

배운 것:

  • 크롤링
    • Request로 요청하고 beautifulsoup으로 솎아낸다. 
      • Beautifulsoup
        • select_one, select
  • import requests
    from bs4 import BeautifulSoup
    
    headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
    data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=pnt&date=20210914',headers=headers)
    
    soup = BeautifulSoup(data.text, 'html.parser')
    
    trs = soup.select('#old_content > table > tbody > tr')
    
    for tr in trs:
        a_tag = tr.select_one('td.title > div > a')
        try:
            print(a_tag.text)
        except AttributeError:
            print("'NoneType' object has no attribute 'text'")
     	#try except 적용

try except를 시도 해봤다. 

 

myponga

pymongo라는 것을 검색하다가 오타로 myponga를 쳤다. 보니까 '남 호주'의 아주 목가적인 곳이다. 

출처: wikipedia

bs4로 parent태그만 가져오는 것 시도 했는데... 엄청난 삽질했다. 계속 자식 <span>태그가 같이 딸려오는 것이다. 시간관계상 결국 list로 바뀌서 필요한 부분만 인덱스로 가져왔다. 

 

달성한 목표:

  1. 3,4 주차 완주. 
  2. 5주차 AWS 업로드 남음. 

남은 과제:

  1. 아직 3,4주차 숙제를 구현 해보지 못 했다. 남은 한주는 숙제 구현에 힘 써야겠다. 

보완점:

  1. Jquery
  2. Ajax
  3. Flask