Warm tip: This article is reproduced from serverfault.com, please click

其他-在C#中找到HTML的XPath内容

(其他 - Locate XPath content of HTML in C#)

发布于 2020-11-28 09:47:53

我正在使用C#.net Core。

  • 我有HTML档案
  • 对于每个文件,我都有一个XPATH指向页面的一部分

我可以在C#中使用哪个库/裸包来提取数据?

我想:

extractedData = xpathLib.Extract(htmlContent, xpath)

我不想使用加载html浏览器进程的技术(例如, selenium 驱动器打开chrome),因为我每天必须提取1万个网页。

问候。ps:我见过微软提供xpath lib,但是它只针对xml。

Questioner
Thierry Brémard
Viewed
11
Göksel ÖZER 2020-11-28 18:14:46

你可以使用HTML Agility Pack

此nuget与XPATH,XDocument和LINQ一起使用。且易于使用。

这是HTML Agility Pack中的示例

var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");