scrapy xpath抓取节点的文本innerText、innerHTML、outerHTML - 更多技术 - 清泛网移动版

假设抓取：

<p>
  xx<b>x</b>
</p>

scrapy代码：

# 抓取p节点本身，得到的内容：<p>xx<b>x</b></p>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]').extract()

# 抓取p节点内容，相当于innerHTML，得到的结果是除去<p>标签的内容：xx<b>x</b>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/node()').extract()

# 抓取p节点中纯文本，相当于innerText，得到的内容：xxx
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/text()').extract()

简单总结：
1、不带函数，抓取节点本身；
2、node()函数抓取节点里面html内容；
3、text()函数抓取节点里面纯文本内容。

分享到：

上一篇：【解决】scrapyd启动job时报错：exceptions.TypeError: __init__() got an unexpected keyword argument '_job'
下一篇：【解决】如何查看 xunsearch 版本，验证是否升级成功？