이름이 매우 거창하지만 사실 들여다보면 아무것도 없는 분투기 시작하겠읍니다. 01. TextRank가 뭐야 저번 시간에 WIKI에서 마드리드 거리를 구역별로 크롤링해서 본문 텍스트를 모조리 SCRAPY로 따왔다. 내가 원하는 것은 크롤링 결과 중 어떤 내용이 번역할 만한 재밌는 내용을 가지고 있을까를 보려는 것이다. 내가 230개의 거리 위키 문서를 모두 읽을 순 없으니 핵심 키워드를 뽑으면 재밌어보이는 것들을 구분할 수 있지 않겠나. 자 그러면, 어떻게 해야 키워드를 뽑을 수 있을까. 구글링한다. 한글로 검색하니 konlpy로 명사 추출하여 빈도 계산하는 코드가 뜬다. 내가 원하는 건 텍스트 요약이지 최다 빈도를 뽑는 건 아니다. 최다 빈도는 엑셀로도 충분히 가능하지. 영어로 검색하니 TextRank라..
scrapy 튜토리얼을 끝냈으니 wiki 크롤러를 한 번 제작해보려했다. 마드리드 거리를 구역 카테고리로 나눈 위키 페이지를 목표로 했다. 각 구역의 모든 거리의 이름과 내용을 모두 긁어오려 한다. class WikicrawlerSpider(scrapy.Spider): name = 'wikicrawler' def start_requests(self): yield scrapy.Request(url='https://es.wikipedia.org/wiki/Categor%C3%ADa:Calles_del_distrito_Centro', callback=self.parse_barrio) def parse_barrio(self, response): barrio_links1 = response.css('div.mw-c..
잔재미코딩님의 강의를 보며 scrapy 튜토리얼을 배워나가고 있다. 기본적인 흐름은 다음과 같다. 1. scrapy startproject [projectname] 으로 새 프로젝트 폴더를 생성한다. 2. scrapy genspider [filename] [domain] 으로 사이트 주소를 start url로 가지는 파일을 생성한다. 2-1. 크롤링하려는 사이트를 scrapy shell 을 통해 크롤러 코드 제작 전에 미리 실험해 볼 수 있다. # -*- coding: utf-8 -*- import scrapy class HelloSpider(scrapy.Spider): name = 'hello' allowed_domains = ['www.naver.com'] start_urls = ['http://ww..
파이썬으로 크롤링 한 데이터를 pymysql로 MySQL DB에 입력하기 코드를 설명하기 위한 것이 아니라 흐름을 정리하기 위해 쓰는 포스트 *잔재미코딩님의 인프런 강의 중 "SQL/DB(MySQL) 기본부터 파이썬/데이터분석 활용까지!" 의 강좌 내용을 정리한 것입니다. ** 잔재미코딩님의 페이지 : https://www.fun-coding.org/ 1. 스키마(Schema)정의 어던 데이터를 어떻게 저장할지 (what/how) 설계해야 한다 - gmarket Best 상품 목록을 DB화 하는 것이 목적 - 랭킹 정보를 담는 ranking 테이블과 상품 정보를 담는 items 테이블 두 개로 나누고 상품코드를 포린키(FK)로 지정하여 연결하는 것으로 설계 - 포린키의 reference를 받는 items..
잔재미코딩님의 pymysql로 database를 실습하는 인프런강좌를 수강 중에 지마켓 크롤러 작성 부분에서 마주한 오류이다. 지마켓 베스트에서 카테고리별 / 서브카테고리별 상품을 모두 따오는 크롤러였는데 다음과 같은 오류가 발생했다. 딱 봐도 저 셀렉트 구문이 잘못되어 value가 없고 value가 없으니 for문에서 꺼낼 값이 없기에 out of range가 생긴 것이겠지. 강좌를 잠시 멈추고 무엇이 잘못되었는지 확인하러 가보자 서브카테고리 밑에 (관련상품군 : 하이마트)라는 굉장히 불편해보이는 것이 끼어있다. 그래서 서브 카테고리 리스트를 받는 select문에서 링크가 있는 a만을 특정해줬더니 (li > a) 문제 해결. 인줄 알았지만 한 번 더 돌리고 다음과 같은 두 번째 오류 발견 가격 내용이 ..
BeautifulSoup은 HTML 문서를 예쁘게 정돈된 파스트리로 변환하여 내놓는 파이썬 라이브러리다. 이 잘 정돈된 데이터 구조는 Beautiful Soup 객체로서 여러 tag 객체로 이루어져 있다. 영어, 한국어와 같은 자연어 문장이 문법에 따라 구조를 갖듯이 HTML 이라는 웹을 이루는 언어로 작성된 페이지를 문법에 맞게 구조화한다. find 와 select 는 BeautifulSoup의 메소드로서 데이터 구조를 항해하는 몇 가지 방법이다. 01. find 사용법 find의 목적은 원하는 태그를 찾는 것이다. 태그는 이름(name), 속성(attribute), 속성값(value)로 구성된다. 따라서 find로 이름, 속성, 속성값을 특정하여 태그를 찾을 수 있다. tag = " Hello Wor..
- Total
- Today
- Yesterday
- 블로그
- 글쓰기
- 코로나
- 이슈
- 런업
- flask
- 저널
- DATABASE
- error
- 스페인
- Selenium
- 유튜브
- 항공
- 일기
- 파이썬
- python
- 유럽
- nltk
- scrapy
- NLP
- 오류
- css
- 분석
- Crawling
- HTML
- 리뷰
- coding
- 유튜버
- BeautifulSoup
- 마드리드
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |