URL : https://www.alexa.com/topsites
참고 URL : https://docs.scrapy.org/en/latest/topics/item-pipeline.html
contents
1. Pipeline 설명
2. Pipeline 설정 및 메소드
3. Amazon Alexa 크롤링 연습 & Validation 추가 및 테스트
1. PipeLine 설명
Spider가 아이템을 크롤링 한 후에 파이프 라인으로 전송되어 구성 요소를 처리한다.
(1) HTML 데이터 정리
(2) 스크랩 된 데이터 유효성 검사(항목에 특정 필드가 포함되어 있는지 확인)
(3) 중복 확인 및 삭제
(4) 스크랩된 아이템을 DB 저장
2. Pipeline 설정 및 메소드
설정전에 settings.py 에서 PipeLine을 활성화 해준다.
3. Amazon Alexa 크롤링 연습 & Validation 추가 및 테스트
'Scrapy' 카테고리의 다른 글
[Scrapy] 11. PipeLine(2) (0) | 2020.04.16 |
---|---|
[Scrapy] 09. Settings (0) | 2020.04.10 |
[Scrapy] 08. Items (0) | 2020.04.08 |
[Scrapy] 07. Selectors(css, xpath) (0) | 2020.04.08 |
[Scrapy] 06. Scrapy Spider 활용 (0) | 2020.04.08 |
댓글