[Scrapy] 02. 데이터 추출 (get vs extract)

1. css(), xpath()

2. get(), getall()

3. extract_first(), extract()

일반적으로 BeautifulSoup, lxml 을 사용해 HTML 소스에서 데이터를 추출

scrapy 내부적으로 selector 가 존재한다.

scrapy.selector 의 Selector로 전달하여 생성되지만 일반적으로 수동 구성 할 필요가 없다.

2. get(), getall() --> scrapy에서 추천한다.

get() : 단일 결과를 반환한다. 일치하는 항목이 여러 개인 경우 첫번째 일치하는 내용이 반환.

getall() : 모든 결과를 list로 반환.

일치하는 항목이 없으면 None을 반환한다.

3. extract_first(), extract()

extract_first() : get()과 동일하다.

extract() : getall()과 동일하다.

* 참고

scrapy는 css 선택자의 텍스트 노드 및 속성 값 선택을 지원하지 않는다.

scrapy는 몇가시 비슷한 요소를 제공한다.

::text

::attr(name)

Kya - Gramming