![](http://i1.daumcdn.net/thumb/C148x148.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/drkOrY/btqzpVYxiGC/K8fd6sKqL9KboWSXz43BnK/img.png)
scrapy 튜토리얼을 끝냈으니 wiki 크롤러를 한 번 제작해보려했다. 마드리드 거리를 구역 카테고리로 나눈 위키 페이지를 목표로 했다. 각 구역의 모든 거리의 이름과 내용을 모두 긁어오려 한다. class WikicrawlerSpider(scrapy.Spider): name = 'wikicrawler' def start_requests(self): yield scrapy.Request(url='https://es.wikipedia.org/wiki/Categor%C3%ADa:Calles_del_distrito_Centro', callback=self.parse_barrio) def parse_barrio(self, response): barrio_links1 = response.css('div.mw-c..
![](http://i1.daumcdn.net/thumb/C148x148.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/ejM3mT/btqzojZAYOR/d5xKkOxaRYby411oggV5uK/img.png)
잔재미코딩님의 강의를 보며 scrapy 튜토리얼을 배워나가고 있다. 기본적인 흐름은 다음과 같다. 1. scrapy startproject [projectname] 으로 새 프로젝트 폴더를 생성한다. 2. scrapy genspider [filename] [domain] 으로 사이트 주소를 start url로 가지는 파일을 생성한다. 2-1. 크롤링하려는 사이트를 scrapy shell 을 통해 크롤러 코드 제작 전에 미리 실험해 볼 수 있다. # -*- coding: utf-8 -*- import scrapy class HelloSpider(scrapy.Spider): name = 'hello' allowed_domains = ['www.naver.com'] start_urls = ['http://ww..
![](http://i1.daumcdn.net/thumb/C148x148.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cauYzq/btqyUgwZnhE/t1KLRx1UKH2atdUSvQxkgk/img.png)
사건의 발단 : 친구가 경기지역화폐 어쩌구 공모전에 지원하기 위해 경기지역화폐 사이트에서 가맹점 리스트를 크롤링을 부탁함 사건의 전개 : 1. 경기지역화폐의 사이트에 들어가서 html 구조를 보니 복잡하지 않아서 1~2시간이면 내 실력에 충분히 할 수 있다고 판단. 2. 그 전날 tutorial을 따라해본 scrapy로 해보자고 결심. 2-1. scrapy shell 에서 가맹점 타이틀/카테고리/주소/번호를 따 봄 2-2. 붙어서 마구마구 코드를 짜기 시작 실제 코드가 아니라 예시입니당 for 페이지 in 페이지리스트: html을 따고 스크래파이 리스폰스를 받고 'table tbody'로 테이블을 받고 다시 for 행 in 'table tbody'테이블리스트: 행.title 행.address 행... 2..
- Total
- Today
- Yesterday
- 오류
- 유럽
- NLP
- 유튜버
- 일기
- 분석
- 파이썬
- 항공
- DATABASE
- Crawling
- python
- error
- HTML
- nltk
- 이슈
- 글쓰기
- 저널
- Selenium
- 코로나
- flask
- 런업
- BeautifulSoup
- 유튜브
- 마드리드
- scrapy
- 스페인
- coding
- 블로그
- 리뷰
- css
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |