scrapy xpath抓取节点的文本innerText、innerHTML、outerHTML

清泛原创
假设抓取:
<p>
  xx<b>x</b>
</p>
scrapy代码:
# 抓取p节点本身,得到的内容:<p>xx<b>x</b></p>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]').extract()

# 抓取p节点内容,相当于innerHTML,得到的结果是除去<p>标签的内容:xx<b>x</b>
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/node()').extract()

# 抓取p节点中纯文本,相当于innerText,得到的内容:xxx
response.xpath('//div[@class="question"]/div[2]/div[2]/div[1]/p[1]/text()').extract()
简单总结:
1、不带函数,抓取节点本身;
2、node()函数抓取节点里面html内容;
3、text()函数抓取节点里面纯文本内容。

分享到:
评论加载中,请稍后...
创APP如搭积木 - 创意无限,梦想即时!
回到顶部