본문 바로가기
Scrapy

[Scrapy] 02. 데이터 추출 (get vs extract)

by KIha_Jung 2020. 4. 1.

contents

1. css(), xpath()

2. get(), getall()

3. extract_first(), extract()

 

1. 데이터 추출

일반적으로 BeautifulSoup, lxml 을 사용해 HTML 소스에서 데이터를 추출

scrapy 내부적으로 selector 가 존재한다.

scrapy.selector 의 Selector로 전달하여 생성되지만 일반적으로 수동 구성 할 필요가 없다.

 

2. get(), getall() --> scrapy에서 추천한다.

get() : 단일 결과를 반환한다. 일치하는 항목이 여러 개인 경우 첫번째 일치하는 내용이 반환.

getall() : 모든 결과를 list로 반환.

일치하는 항목이 없으면 None을 반환한다.

 

3. extract_first(), extract()

extract_first() : get()과 동일하다.

extract() : getall()과 동일하다.

 

* 참고

scrapy는 css 선택자의 텍스트 노드 및 속성 값 선택을 지원하지 않는다.

scrapy는 몇가시 비슷한 요소를 제공한다.

 

::text

::attr(name)

 

'Scrapy' 카테고리의 다른 글

[Scrapy] 06. Scrapy Spider 활용  (0) 2020.04.08
[Scrapy] 05. Shell 사용법  (0) 2020.04.07
[Scrapy] 04. Spider 활용  (0) 2020.04.01
[Scrapy] 03. Following links  (1) 2020.04.01
[Scrapy] 01. Scrapy 생성  (0) 2020.04.01

댓글