url : https://www.w3scrhools.com
content
1. Css Selector
2. xpath Selector
3 . 크롤링 실습
4. 참고 사이트
* Xpath 도움 사이트
https://docs.scrapy.org/en/latest/topics/selectors.html#working-with-relative-xpaths
http://www.nextree.co.kr/p6278/
* css 선택자 도움 사이트
https://docs.scrapy.org/en/latest/topics/selectors.html#extensions-to-css-selectors
들어가기 전에...
타겟 데이터는 크롬 개발자 도구 사용
선택자 연습 팁 : scrapy shell 에서 테스트(효율성)
scrapy shell 도메인
1. CSS 선택자
css 선택자
A B : 자손
A -> B : 자식
::text : 노드 텍스트만 추출
::attr(name) : 노드 속성 값 추출
get(), getall() 사용
get(default='') 사용가능
2. Xpath 선택자
nodename : 이름이 nodename 선택
text() : 노드 텍스트만 추출
/ : 루트부터 시작
// : 현재 node 부터 문서상의 모든 노드 조회
. : 현재 노드
.. : 현재 노드의 부모 노드
@ 속성 선택자
extract(), extract_first() 사용
get() == extract_first()
get_all() == extract()
3. 혼합 사용
response.css('img').xpath('@src').getall()
4. nav 메뉴 이름 클롤링 실습
순서 : 쉘 실행 -> 선택자 확인 -> 코딩 -> 데이터 저장
'Scrapy' 카테고리의 다른 글
[Scrapy] 09. Settings (0) | 2020.04.10 |
---|---|
[Scrapy] 08. Items (0) | 2020.04.08 |
[Scrapy] 06. Scrapy Spider 활용 (0) | 2020.04.08 |
[Scrapy] 05. Shell 사용법 (0) | 2020.04.07 |
[Scrapy] 04. Spider 활용 (0) | 2020.04.01 |
댓글