알고리즘따위 1도 모르는 코딩초보자, TextRank에 TF-IDF적용 분투기
이름이 매우 거창하지만 사실 들여다보면 아무것도 없는 분투기 시작하겠읍니다. 01. TextRank가 뭐야 저번 시간에 WIKI에서 마드리드 거리를 구역별로 크롤링해서 본문 텍스트를 모조리 SCRAPY로 따왔다. 내가 원하는 것은 크롤링 결과 중 어떤 내용이 번역할 만한 재밌는 내용을 가지고 있을까를 보려는 것이다. 내가 230개의 거리 위키 문서를 모두 읽을 순 없으니 핵심 키워드를 뽑으면 재밌어보이는 것들을 구분할 수 있지 않겠나. 자 그러면, 어떻게 해야 키워드를 뽑을 수 있을까. 구글링한다. 한글로 검색하니 konlpy로 명사 추출하여 빈도 계산하는 코드가 뜬다. 내가 원하는 건 텍스트 요약이지 최다 빈도를 뽑는 건 아니다. 최다 빈도는 엑셀로도 충분히 가능하지. 영어로 검색하니 TextRank라..
코드
2019. 11. 4. 11:35
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 코로나
- 스페인
- 글쓰기
- nltk
- 파이썬
- coding
- BeautifulSoup
- error
- 런업
- 항공
- 유튜버
- flask
- 일기
- Crawling
- 오류
- css
- HTML
- python
- 리뷰
- scrapy
- 저널
- DATABASE
- 유럽
- 유튜브
- 블로그
- Selenium
- 마드리드
- 분석
- NLP
- 이슈
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
글 보관함