Parsen der HTML-Seite mit HtmlAgilityPack

Lesezeit: 2 Minuten

Mit C # möchte ich wissen, wie ich den Textbox-Wert (dh: john) aus diesem Beispiel-HTML-Skript abrufen kann:

<TD class=texte width="50%">
<DIV align=right>Name :<B> </B></DIV></TD>
<TD width="50%"><INPUT class=box value=John maxLength=16 size=16 name=user_name> </TD>
<TR vAlign=center>

Parsen der HTML Seite mit HtmlAgilityPack
gpmcadam

Es gibt eine Reihe von Möglichkeiten, Elemente mit dem Beweglichkeitspaket auszuwählen.

Nehmen wir an, wir haben unsere definiert HtmlDocument folgendermaßen:

string html = @"<TD class=texte width=""50%"">
<DIV align=right>Name :<B> </B></DIV></TD>
<TD width=""50%"">
    <INPUT class=box value=John maxLength=16 size=16 name=user_name>
</TD>
<TR vAlign=center>";

HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);

1. Einfaches LINQ

Wir könnten die gebrauchen Descendants() -Methode, wobei der Name eines Elements übergeben wird, nach dem wir suchen:

var inputs = htmlDoc.DocumentNode.Descendants("input");

foreach (var input in inputs)
{
    Console.WriteLine(input.Attributes["value"].Value);
    // John
}

2. Fortgeschritteneres LINQ

Wir könnten das eingrenzen, indem wir schickeres LINQ verwenden:

var inputs = from input in htmlDoc.DocumentNode.Descendants("input")
             where input.Attributes["class"].Value == "box"
             select input;

foreach (var input in inputs)
{
    Console.WriteLine(input.Attributes["value"].Value);
    // John
}

3. XPath

Oder wir könnten verwenden XPath.

string name = htmlDoc.DocumentNode
    .SelectSingleNode("//td/input")
    .Attributes["value"].Value;

Console.WriteLine(name);
//John

  • LINQ: Für den Fall, dass das Attribut nicht vorhanden war, habe ich das folgende linq verwendet where input.Attributes["class"] != null && input.Attributes["class"].Value == "box"

    – Walamas

    25. September 14 um 6:31 Uhr

Parsen der HTML Seite mit HtmlAgilityPack
TrueWill

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
XPathNavigator docNav = doc.CreateNavigator();

XPathNavigator node = docNav.SelectSingleNode("//td/input/@value");

if (node != null)
{
    Console.WriteLine("result: " + node.Value);
}

Ich habe das ziemlich schnell geschrieben, also sollten Sie einige Tests mit mehr Daten durchführen.

HINWEIS: Die XPath-Strings müssen anscheinend in Kleinbuchstaben geschrieben werden.

BEARBEITEN: Anscheinend unterstützt die Beta jetzt Linq to Objects direkt, sodass der Konverter wahrscheinlich nicht erforderlich ist.

.

758110cookie-checkParsen der HTML-Seite mit HtmlAgilityPack

This website is using cookies to improve the user-friendliness. You agree by using the website further.

Privacy policy