温馨提示:本文翻译自stackoverflow.com，查看原文请点击：python - Using XPath in strings

python scrapy xpath

python - 在字符串中使用XPath

发布于 2020-03-29 13:10:54

假设我们收到来自浏览器的以下响应：

<div>
  <tr id="1"></tr>
  <tr id="2">
  <!--
    <div class="A">AAA</div>
    <div class="C">BBB</div>
    <div class="C">CCC</div>
  -->
  </tr>
</div>

使用xpath在scrapy中获取注释字符串应该类似于：

response.xpath(//tr[@id="2"]/comment())

所以我的问题-是否有任何简单的方法可以提取<div class="C"注释中>标签的值？一种方法是删除字符串中的注释标签，然后使用lxml.html库再次将结果转换为HTML并在其中使用xpath，但是我敢肯定，这应该是一种更简单的方法...

我将不胜感激。干杯!

提问者

willp93

被浏览

136

查看英文版

查看原文

Mathias Müller 2020-01-30 03:35

lxml.html我认为，使用解析注释的内容是一个很好的解决方案。

Python代码

from lxml import etree
from io import StringIO

parser = etree.HTMLParser()

html_text = """<div>
  <tr id="1"></tr>
  <tr id="2">
  <!--
    <div class="A">AAA</div>
    <div class="C">BBB</div>
    <div class="C">CCC</div>
  -->
  </tr>
</div>"""

tree = etree.parse(StringIO(html_text), parser)

comment = tree.xpath("//tr[@id='2']/comment()")

comment_text = str(comment[0])

# string needs an outermost element in order to be parseable

comment_text = comment_text.replace("<!--", "<html>").replace("-->", "</html>")

embedded_tree = etree.parse(StringIO(comment_text), parser)

embedded_tree.xpath("//div[@class='C']/text()")

输出量

['BBB', 'CCC']

willp93 2020-01-30 04:06:28

谢谢Mathias！这很有用

相关问题

1

如何使用python cut方法创建bin，接受一个参数并返回适当的bin？

2

从具有特定条件的列表列表创建字典

3

根据行值选择列，Python，Pandas

4

在数据框中绘制零和一的计数

5

python函数。

6

在两个DataFrame之间执行大量Pandas查找的最佳方法

7

如何获取Pandas数据透视表中的列数和每列的宽度？

8

在Pandas数据框中分组时缺少所需值时显示一列

9

Python隐藏壁虱但显示壁虱标签

10

获取Entry和checkbutton值Tkinter时出现问题

热门github

1

All Algorithms implemented in Python (翻译：用 Python 实现的所有算法)

2

Perplexica is an AI-powered search engine. It is an Open source alternative to Perplexity AI

3

PowerShell for every system! (翻译：适用于各系统的PowerShell)

4

3D Reconstruction for all

5

6

AI wearables. Put it on, speak, transcribe, automatically

7

zero-shot voice conversion & singing voice conversion, with real-time support

8

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 80+ languages. (翻译：PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。)

9

"DeepCode: Open Agentic Coding (Paper2Code & Text2Web & Text2Backend)"

10

A cryptocurrency trading API with more than 100 exchanges in JavaScript / TypeScript / Python / C# / PHP / Go (翻译：一个 JavaScript / Python / PHP 加密货币交易 API，支持 100 多个比特币/山寨币交易所)

11

An AI Hedge Fund Team

12

DeepResearchAgent is a hierarchical multi-agent system designed not only for deep research tasks but also for general-purpose task solving. The framework leverages a top-level planning agent to coordinate multiple specialized lower-level agents, enabling automated task decomposition and efficient execution across diverse and complex domains.

13

基于大模型和 RAG 的智能问数系统。Text-to-SQL Generation via LLMs using RAG.

14

Run LLMs with MLX

15

Python tool for converting files and office documents to Markdown.