contents
1. css(), xpath()
2. get(), getall()
3. extract_first(), extract()
1. 데이터 추출
일반적으로 BeautifulSoup, lxml 을 사용해 HTML 소스에서 데이터를 추출
scrapy 내부적으로 selector 가 존재한다.
scrapy.selector 의 Selector로 전달하여 생성되지만 일반적으로 수동 구성 할 필요가 없다.
2. get(), getall() --> scrapy에서 추천한다.
get() : 단일 결과를 반환한다. 일치하는 항목이 여러 개인 경우 첫번째 일치하는 내용이 반환.
getall() : 모든 결과를 list로 반환.
일치하는 항목이 없으면 None을 반환한다.
3. extract_first(), extract()
extract_first() : get()과 동일하다.
extract() : getall()과 동일하다.
* 참고
scrapy는 css 선택자의 텍스트 노드 및 속성 값 선택을 지원하지 않는다.
scrapy는 몇가시 비슷한 요소를 제공한다.
::text
::attr(name)
'Scrapy' 카테고리의 다른 글
[Scrapy] 06. Scrapy Spider 활용 (0) | 2020.04.08 |
---|---|
[Scrapy] 05. Shell 사용법 (0) | 2020.04.07 |
[Scrapy] 04. Spider 활용 (0) | 2020.04.01 |
[Scrapy] 03. Following links (1) | 2020.04.01 |
[Scrapy] 01. Scrapy 생성 (0) | 2020.04.01 |
댓글