사건의 발단 : 친구가 경기지역화폐 어쩌구 공모전에 지원하기 위해 경기지역화폐 사이트에서 가맹점 리스트를 크롤링을 부탁함 사건의 전개 : 1. 경기지역화폐의 사이트에 들어가서 html 구조를 보니 복잡하지 않아서 1~2시간이면 내 실력에 충분히 할 수 있다고 판단. 2. 그 전날 tutorial을 따라해본 scrapy로 해보자고 결심. 2-1. scrapy shell 에서 가맹점 타이틀/카테고리/주소/번호를 따 봄 2-2. 붙어서 마구마구 코드를 짜기 시작 실제 코드가 아니라 예시입니당 for 페이지 in 페이지리스트: html을 따고 스크래파이 리스폰스를 받고 'table tbody'로 테이블을 받고 다시 for 행 in 'table tbody'테이블리스트: 행.title 행.address 행... 2..
1 2 3 4 5 #페이지 소싱 문제인 부분 : div클래스의 score_result로 검색해도 값이 반환되지 않는다. html = driver.page_source soup = BeautifulSoup(html, 'html.parser') reple_result = soup.find('div', class_='score_result').find('ul') slist = reple_result.find_all('li') 네이버 영화 댓글 크롤러 제작 중 리뷰 파트를 F12키를 눌러에 있는 것을 확인하고 BeautifulSoup 으로 파싱했으나 찾지 못한다. 네티즌 리뷰는 건너뛰고 엉뚱하게 평론가 리뷰 내용만 뽑아낸다. 왜 그런가 하이 살펴보자. 더 상위 태그인 에 이란 태그가 있어 눌러봤다. 이런 다른 ..
- Total
- Today
- Yesterday
- flask
- 분석
- 항공
- scrapy
- error
- 일기
- 코로나
- 블로그
- NLP
- BeautifulSoup
- HTML
- 유럽
- python
- 스페인
- 마드리드
- 오류
- coding
- Selenium
- 이슈
- nltk
- 런업
- css
- 유튜버
- 파이썬
- 유튜브
- 리뷰
- 저널
- 글쓰기
- DATABASE
- Crawling
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |