scrapy xpath抓取节点的文本innerText、innerHTML、outerHTML
清泛原创
假设抓取:
1、不带函数,抓取节点本身;
2、node()函数抓取节点里面html内容;
3、text()函数抓取节点里面纯文本内容。
<p>
xx<b>x</b>
</p>
scrapy代码:
# 抓取p节点本身,得到的内容:<p>xx<b>x</b></p>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]').extract()
# 抓取p节点内容,相当于innerHTML,得到的结果是除去<p>标签的内容:xx<b>x</b>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/node()').extract()
# 抓取p节点中纯文本,相当于innerText,得到的内容:xxx
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/text()').extract()
简单总结:1、不带函数,抓取节点本身;
2、node()函数抓取节点里面html内容;
3、text()函数抓取节点里面纯文本内容。
上一篇:【解决】scrapyd启动job时报错:exceptions.TypeError: __init__() got an unexpected keyword argument '_job'
下一篇:【解决】如何查看 xunsearch 版本,验证是否升级成功?