Verwenden von awk zum Ersetzen von Text zwischen zwei Zeichenfolgen oder Mustern

Question 1

Ich hatte hier eine laufende Frage, aber ich bin neu bei Stack und irgendwie wurde der Thread gesperrt oder entfernt: Thread

Ich arbeite mit einer WordPress-Datenbank mit etwa 60.000 „Posts“ in der Spalte „post_content“, die ich entfernen möchte <p> HTML-Tags und den Text dazwischen. . Mein Beitragsinhalt sieht so aus:

<p style="text-align: left;"><span style="color: #fffff;">
An entire paragraph of text around 200 words
</span></p>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>

Das p Tags werden identisch sein und nur einmal pro Beitrag vorkommen, mit Ausnahme der Farbe, die bei einigen Beiträgen möglicherweise anders sein kann.

Die erwartete Ausgabe sollte wie folgt aussehen:

[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>

Ich möchte den gesamten Text in den Absatz-Tags entfernen. Was ich also entfernen möchte, ist der Text “Ein ganzer Textabschnitt mit etwa 200 Wörtern”. Dieser Text ist in jedem einzelnen Beitrag anders, aber die eine Konstante ist die <p> Tag öffnen und schließen.

Aus meiner letzten Frage dieser Befehl: By user “PS”.

awk '/<p/,/<\/p>/{next} {print $0}' inputfile

Wurde auf der .sql-Datenbank ausgeführt, nachdem ich sie abgelegt hatte. Aber der Text war nach einem Blick in die Datenbank immer noch vorhanden.

Jede Hilfe wäre sehr willkommen.

Update: Diese Frage wurde gelöst von: Ed Morton

Using GNU awk for multi-char RS this:
awk -v RS='</p>\\s*' -v ORS= '{sub(/<p.*/,"")} 1' file

Question 2

Verwenden von GNU awk für Multi-Char-RS:

awk -v RS='</p>\\s*' -v ORS= '{sub(/<p.*/,"")} 1' file

funktioniert, ob es nur 1 oder mehrere gibt <p...</p> Paare in der Datei, zB:

$ cat file
<p style="text-align: left;"><span style="color: #fffff;">
First entire paragraph of text around 200 words
</span></p>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
<p style="text-align: left;"><span style="color: #fffff;">
Second entire paragraph of text around 200 words
</span></p>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>

.

$ awk -v RS='</p>\\s*' -v ORS= '{sub(/<p.*/,"")} 1' file
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>

Das Obige ist offensichtlich zerbrechlich und kann beispielsweise fehlschlagen <p darin erscheinen kann [Text_between_brackets]. Je mehr von <p... Zeile können Sie in der angeben sub() desto weniger zerbrechlich wird es sein, z. B. vielleicht können / sollten Sie etwas mehr wie folgt tun:

awk -v RS='</p>\\s*' -v ORS= '{sub(/<p style="text-align: left;"><span style="color: /,"")} 1' file

Question 3

Sie können den folgenden sed-Befehl versuchen –

sed '/<p/,/<\/p/d' kk.txt

Verwenden Sie das Escape-Zeichen für </p.

Question 4

Ich würde weder awk noch sed oder perl verwenden. Wie Sie festgestellt haben, ist es schwierig, die regulären Ausdrücke korrekt zu verwalten. Es gibt einen alten Witz:

Manche Leute denken, wenn sie mit einem Problem konfrontiert werden: „Ich weiß, ich werde reguläre Ausdrücke verwenden.“ Jetzt haben sie zwei Probleme. — Jamie Zawinski, 1997

Ich würde nicht einmal die Daten ausgeben und die Dump-Datei bearbeiten. Das ist auch schwierig.

Eine einfachere Lösung besteht darin, in MySQL integrierte XPath-Funktionen zu verwenden, um jeden Beitrag direkt in der Datenbank zu bearbeiten. Ich habe die folgende Lösung getestet und eine Version Ihres Beispiel-Post-Inhalts mit der abgefragt <p> -Tag (und alles darin) entfernt.

mysql> SELECT post_content, 
       UpdateXml(post_content, '/p', '') AS post_content_without_p 
       FROM posts\G

Und die Ausgabe, die den Vorher- und Nachher-Inhalt zeigt, lautet:

*************************** 1. row ***************************
          post_content: <p style="text-align: left;"><span style="color: #fffff;">
An entire paragraph of text around 200 words
</span></p>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>

post_content_without_p: 
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="309" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
[Text_between_brackets]
<iframe src="http://somewebsite.com" width="250" height="250" frameborder="0" marginwidth="0" marginheight="0" scrolling="NO"></iframe>
1 row in set (0.00 sec)

Das UpdateXml() Die Funktion ist Teil der dokumentierten integrierten Funktionen von MySQL. Es braucht drei Argumente:

Die zu lesende Spalte oder der zu lesende Ausdruck, der XML enthalten sollte (HTML ist eine Teilmenge von XML).
Der XPath-Ausdruck, welcher Teil dieses XML abgeglichen werden soll.
Eine Ersetzungszeichenfolge, die den abgeglichenen XML-Code ersetzen soll.

Sobald Sie zufrieden sind, dass Ihre Abfrage das tut, was Sie wollen, können Sie den Inhalt in Ihrer Tabelle aktualisieren, ohne ihn zu sichern und wiederherzustellen:

mysql> UPDATE posts SET post_content = UpdateXml(post_content, '/p', '');

Erstellen Sie immer eine Sicherungskopie, bevor Sie eine solche Änderung versuchen! Oder kopieren Sie die Daten während des Experimentierens in eine andere Datenbank.