티스토리 뷰

1
2
3
4
5
    #페이지 소싱 문제인 부분 : div클래스의 score_result로 검색해도 값이 반환되지 않는다.
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    reple_result = soup.find('div', class_='score_result').find('ul')
    slist = reple_result.find_all('li')
 

 

네이버 영화 댓글 크롤러 제작 중 리뷰 파트를 F12키를 눌러<div class='score_result'>에 있는 것을 확인하고 BeautifulSoup 으로 파싱했으나 찾지 못한다. 

 

?????????? 왜?

네티즌 리뷰는 건너뛰고 엉뚱하게 평론가 리뷰 내용만 뽑아낸다.

왜 그런가 하이 살펴보자.


iframe

더 상위 태그인 <div class = "ifr_module2">에 <iframe>이란 태그가 있어 눌러봤다.

웹 안의 웹

이런 다른 웹페이지로 이동한다.

그래서 ifram 태그가 뭔지 찾아보니

html 웹 문서 안에 또 다른 웹 문서를 넣는 태그란다. 

그래서 BeautifulSoup으로 링크를 따서 webdriver로 이동하니 문제 해결!!


1
2
3
4
5
6
7
 
#테이블이 있는 웹에 접근
html = driver.page_source
soup = BeautifulSoup(html, 'lxml')
review_table = soup.find('div','ifr_module2').find('iframe')['src']
 
 
 

나야 파이썬 생초짜니까 API문제인가 싶어서 포기하려했다. 지쳐서 opentutorial에서 egoing님의 web 강의를 듣던 중 검색이 얼마나 대단한가를 강조하는 그 분의 말씀을 듣고 다시 차분히 조져보니 크롤링에 성공했다.

공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함