我正在使用C#.net Core。
我可以在C#中使用哪个库/裸包来提取数据?
我想:
extractedData = xpathLib.Extract(htmlContent, xpath)
我不想使用加载html浏览器进程的技术(例如, selenium 驱动器打开chrome),因为我每天必须提取1万个网页。
问候。ps:我见过微软提供xpath lib,但是它只针对xml。
你可以使用HTML Agility Pack
此nuget与XPATH,XDocument和LINQ一起使用。且易于使用。
这是HTML Agility Pack中的示例:
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);
var value = doc.DocumentNode.SelectNodes("//td/input");
谢谢,您在专案中使用了它吗?您对此感觉如何?
是的,我做到了。我曾经从页面上获取书籍的详细信息。我不明白这是您的第二个问题。