본문 바로가기
Scrapy

[Scrapy] 10. PipeLine(1)

by KIha_Jung 2020. 4. 16.

URL : https://www.alexa.com/topsites

참고 URL : https://docs.scrapy.org/en/latest/topics/item-pipeline.html 

 

contents 

1. Pipeline 설명

2. Pipeline 설정 및 메소드

3. Amazon Alexa 크롤링 연습 & Validation 추가 및 테스트

 

 

1. PipeLine 설명

Spider가 아이템을 크롤링 한 후에 파이프 라인으로 전송되어 구성 요소를 처리한다.

(1) HTML 데이터 정리

(2) 스크랩 된 데이터 유효성 검사(항목에 특정 필드가 포함되어 있는지 확인)

(3) 중복 확인 및 삭제

(4) 스크랩된 아이템을 DB 저장

 

2. Pipeline 설정 및 메소드

설정전에 settings.py 에서 PipeLine을 활성화 해준다.

 

settings.py

 

pipelines.py

 

3. Amazon Alexa 크롤링 연습 & Validation 추가 및 테스트

'Scrapy' 카테고리의 다른 글

[Scrapy] 11. PipeLine(2)  (0) 2020.04.16
[Scrapy] 09. Settings  (0) 2020.04.10
[Scrapy] 08. Items  (0) 2020.04.08
[Scrapy] 07. Selectors(css, xpath)  (0) 2020.04.08
[Scrapy] 06. Scrapy Spider 활용  (0) 2020.04.08

댓글