Hallo,
ich muss eine XML-Datei verarbeiten, was mit xmlsimple auch ganz gut funktioniert. Leider ist die XML-Datei nicht so ganz regelkonform (zumindest nach meinen Begriffen). So tauchen an einigen Stellen solche Konstrukte auf:
</p></p>, die ganz und gar nicht vorgesehen sind. Um es konkreter zu machen ein (gekürztes) Beispiel:
Musik und Gesellschaft
Arbeitsblätter für soziale Musikpflege und Musikpolitik
1930
Reprint:Musik und Gesellschaft. [Berlin]
was mit xmlsimple zu diesem Datensatz führt:
{"Titel"=>["Musik und Gesellschaft"],
"Nebentitel"=>[{}],
"Untertitel"=>["Arbeitsblätter für soziale Musikpflege und Musikpolitik"],
"Jahr"=>["1930"],
"Bemerkungen"=>[{"p"=>[{}, {}], "content"=>["Reprint:", "Musik und Gesellschaft. [Berlin]}
Den Teil
<p/><p/> bzw. das daraus resultierende
[{"p"=>[{}, {}], "content"=> hätte ich gern weg, finde aber keinen passenden Weg dafür.
Die XML-Datei wird erzeugt, daran kann ich nichts drehen. Möglich wäre in einem "Vorlauf" mittels regulärer Ausdrücke aus
Reprint:Musik und Gesellschaft. [Berlin]Reprint: Musik und Gesellschaft. [Berlin] zu machen, aber das scheint mir irgendwie die Brechstangen-Methode zu sein. Gibt es nicht eine elegantere Möglichkeit, z.B. xmlsimple zu veranlassen, diese mehrfach auftretenden <p/> einfach zu überlesen?
Bin für jeden Hinweis dankbar
klausb