Filename auslesen, in die Datei schreiben und mehrere Dateien zusammenführen

« Vorherige1Nächste »

Status: Ungelöst | Ubuntu-Version: Ubuntu 11.10 (Oneiric Ocelot)
Antworten |

torsten.fabricius

Anmeldungsdatum:
2. Januar 2011

Beiträge: Zähle...

Wohnort: Würzburg

Zitieren

1. März 2012 20:47 (zuletzt bearbeitet: 1. März 2012 21:23)

Hallo, ich bin Neuling im Bereich Shell/Terminal und bitte um Hilfe bei einem Problem. Kürzlich habe ich durch Internetrecherche ein ähnliches, aber etwas trivialeres Problem selber lösen können, bin jetzt aber an meine Grenzen geraten.

Die Aufgabe:

Eine Reihe von .txt Dateien sind in ein PHP/MySQL basiertes Wiki zu übertragen, das heisst die Textdateien müssen konvertiert werden in Datenbanktabellen. Wahrscheinlich ist das letztlich nicht schwer, da ich hier wahrscheinlich mit find -exec sed arbeiten kann - falls meine bisherigen Überlegungen richtig sind.

Was mir bereits zur Verfügung steht:

1	find . -name "*.txt" -exec sed -i 's/SUCHE/ERSETZE/g' {} \;

Also finde im aktuellen Verzeichnis alle Dateien mit der Endung .txt, suche den REGEX "SUCHE" und ersetze ihn mit "ERSETZE"

Das 1. Problem:

Wenn ich die einzelnen Dateiinhalte so erweiterte, so dass ich die Datenbanktabellenfelder "um den Originaltext herum baue", dann fehlte mir noch der Eintrag des Wiki-Seitennamens in der Tabelle.

Diesen möchte ich nun aus dem Dateititel auslesen und an die richtige Stelle in die Datei "einbauen".

(Das mit der richtigen Stelle ist wahrscheinlich nicht das Problem, da ich ja mehrere Durchgänge mit find - exec sed so machen kann, dass ich erst einen Teil der Tabellenfelder, dann den Titel und dann den Rest einfüge)

→ Frage:

Wie kann ich den Dateinamen auslesen und in das Dokument vor den restlichen bestehenden Inhalt schreiben, der restliche inhalt bleibt aber gleich?

→ Beispiel:

meinedatei.txt Inhalt: blabla blubb

Befehl ausführen

Ergebnis:

meinedatei.txt Inhalt: meinedateiblabla blubb

Das 2. Problem: * falls sich dies nicht aus einer Antwort zu Problem 1 erledigt hat *

Bei meiner SUCHE/ERSETZEN möchte ich ja in jedem Durchgang den gesamten Dateiinhalt suchen - der ja jedesmal völlig unterschiedlich ist und diesem dann etwas vorneanstellen oder hinteananstellen. Ich brauche also als REGEX (oder so) eine Art Wildcard, die den gesamten Dateiinhalt bezeichnet

Mein bisheriger Ansatz:

1	find . -name "*.txt" -exec sed -i 's/GESAMTER-DATEIINHAlT/PräfixGESAMTER-DATEIINHALT/g' {} \;

Bzw.

1	find . -name "*.txt" -exec sed -i 's/GESAMTER-DATEIINHAlT/DateinameGESAMTER-DATEIINHALT/g' {} \;

Frage:

Bin ich da auf der richtigen Spur und wie muss ich das exakt formulieren?

Am Ende soll jede Datei folgendermaßen aussehen:

"0","DATEINAME","90"," INHALT DER DATEI = INHALT DER WIKISEITE ",,"1330306980",,"12","1","Benutzername","00.00.000.000",,NULL,NULL,NULL,NULL,"0",NULL,"admin","3239","de",,"0","1330257065","n",,NULL,NULL

Variieren tun dabei nur das zweite und das vierte Feld - die Kommas , trennen die Felder und die Anführungszeichen " begrenzen die Felder.

Und noch eine Sache zum Schluss:

Am Ende muss ich noch alle Dateien zu einer Datei zusammenführen.

Das heißt ich muss alle .txt Dateien "finden" und deren Inhalt in die jeweils nächste Zeile einer anderen Datei schreiben.

Diese Datei kann zu Beginn leer sein und die Endung .csv haben (z.B. meinergebnis.csv) und damit im gleichen Verzeichnis liegen wie die .txt Dateien.

→ Frage:

wie kann ich aus allen .txt den Inhalt auslesen und in die .csv hineinschreiben, bzw. an den dortigen Inhalt jeweils hinten dranhängen?

Die sich ergebende Datei meinergebnis.csv wäre dann bereits die Datenbanktabelle, die ich via PHPmyAdmin in die bestehende Datenbank importieren kann.

Jetzt wären alle im Laufe der Zeit mal als Notizen angelegten .txt Dateien als Wikiseiten ins System importiert.

Entschuldigt bitte meine Unkenntnis im Detail - das alles herauszufinden und das erste Problem von neulich zu lösen hat schon ein paar Tage gedauert. Ich wäre über Eure Hilfe sehr erfreut.

Dank und Gruß Torsten

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 12822

Zitieren

1. März 2012 22:45

torsten.fabricius schrieb:

Eine Reihe von .txt Dateien sind in ein PHP/MySQL basiertes Wiki zu übertragen, das heisst die Textdateien müssen konvertiert werden in Datenbanktabellen.

Also finde im aktuellen Verzeichnis alle Dateien mit der Endung .txt, suche den REGEX "SUCHE" und ersetze ihn mit "ERSETZE"

find sucht nicht nur im aktuellen Verzeichnis sondern im gesamten Verzeichnisbaum. Alle .txt-Dateiein im aktuellen Verzeichnis kann die Shell auch alleine finden. Dafür brauchst Du nur so etwas wie

1
2
3

for f in *.txt; do
...
done

Bin ich da auf der richtigen Spur und wie muss ich das exakt formulieren?

Wenn ich Dich richtig verstehe, ist Dein Ansatz zu kompliziert.

Am Ende soll jede Datei folgendermaßen aussehen:
1
"0","DATEINAME","90"," INHALT DER DATEI = INHALT DER WIKISEITE ",,"1330306980",,"12","1","Benutzername","00.00.000.000",,NULL,NULL,NULL,NULL,"0",NULL,"admin","3239","de",,"0","1330257065","n",,NULL,NULL
Variieren tun dabei nur das zweite und das vierte Feld - die Kommas , trennen die Felder und die Anführungszeichen " begrenzen die Felder.

Am Ende muss ich noch alle Dateien zu einer Datei zusammenführen.

wie kann ich aus allen .txt den Inhalt auslesen und in die .csv hineinschreiben, bzw. an den dortigen Inhalt jeweils hinten dranhängen?
Die sich ergebende Datei meinergebnis.csv wäre dann bereits die Datenbanktabelle, die ich via PHPmyAdmin in die bestehende Datenbank importieren kann.

Am besten machst Du das alles in einem Rutsch, aber Du brauchst eigentlich nur eine Ersetzung, um doppelte Anführungszeichen zu escapen. Mein Vorschlag

#!/bin/dash

for f in *.txt; do
  # write out first fields
  echo -n '"0","'"$f"'","90","'
  # replace " with \"
  sed 's/"/\\"/g' "$f"
  # write remaining fields
  echo '",,"1330306980",,"12","1","Benutzername","00.00.000.000",,NULL,NULL,NULL,NULL,"0",NULL,"admin","3239","de",,"0","1330257065","n",,NULL,NULL'
done

Wenn Du das in eine Skriptdatei packst (z.B. import.sh) und die dann ausführbar machst (chmod u+x import.sh) bekommst Du das Ergebnis auf die Konsole geschrieben. Du kannst es auch in eine Datei umleiten ./import.sh >meinergebnis.csv.

Entschuldigt bitte meine Unkenntnis im Detail - das alles herauszufinden und das erste Problem von neulich zu lösen hat schon ein paar Tage gedauert. Ich wäre über Eure Hilfe sehr erfreut.

Kein Problem, dafür sind wir ja da.

Viele Grüße

robert

user_unknown

Anmeldungsdatum:
10. August 2005

Beiträge: 17552

Wohnort: Berlin

Zitieren

1. März 2012 23:29 (zuletzt bearbeitet: 1. März 2012 23:33)

torsten.fabricius schrieb:

Wie kann ich den Dateinamen auslesen und in das Dokument vor den restlichen bestehenden Inhalt schreiben, der restliche inhalt bleibt aber gleich?
→ Beispiel:
meinedatei.txt Inhalt: blabla blubb
Befehl ausführen
Ergebnis:
meinedatei.txt Inhalt: meinedateiblabla blubb

Nicht ganz was Du willst, denn es (i)nserts neuen Text in Zeile 1:

sed '1iText' datei

Da der Dateiname mit {} dargestellt wird, und die Apostrophe überflüssig sind:

1	find -name foobar.lst -exec sed -i 1i{} {} ";"

Ergebnis:

meinedatei.txt Inhalt:

1 2	meinedatei blabla blubb

Wenn es in der gleichen Zeile stehen muss wäre da weitere Arbeit nötig.

Wenn rklm Recht hat, dann geht das natürlich auch ohne find, wenn es nicht rekursiv sein soll:

1	for f in *.txt ; do sed -i "1i$f" "$f"; done

1	sed '1s/^/foo/' DATEI

fügt nur in Zeile 1 an Zeilenanfang einen Text ein.

Wie waren die anderen Fragen?

track

Anmeldungsdatum:
26. Juni 2008

Beiträge: 7174

Wohnort: Wolfen (S-A)

Zitieren

2. März 2012 00:43 (zuletzt bearbeitet: 2. März 2012 00:53)

Hi Torsten,

bei der Aufgabenstellung habe ich das unbestimmte Gefühl, dass das mit sed zwar möglich, aber ziemlich umständlich und kompliziert wird.
Von daher würde ich es vielleicht doch lieber mit awk (oder Perl, oder Python, oder Ähnlichem) machen, da hat man mehr Möglichkeiten.
(vor allem in der Hinsicht, dass man dann die ganze Konvertierung in einem einzigen awk- Skript zusammenfassen kann)

Das Zusammenfassen, das Robert schon empfohlen hat, würde ich Dir nämlich auch sehr raten !
(dabei alles in eine einzige Datei ablegen, das ist ja das kleinste Problem)

Kannst Du nicht einfach mal eine Musterdatei posten, wie so eine Datei vorher aussieht, und wie sie hinterher aussehen soll ?
Dann könnten wir Dir sehr viel konkretere Vorschläge machen, wie das zu lösen wäre.
(ich denke dabei auch an die Frage: kommen eventuell im Originaltext Gänsefüßchen vor ? - die müssten nämlich für den CSV verdoppelt werden)

Dann noch eine Frage: befinden sich alle (Ausgangs-) Textdateien in einem einzigen Verzeichnis, oder müssen die noch aus verschiedenen Verzeichnissen zusammengesucht werden ?

track

user_unknown

Anmeldungsdatum:
10. August 2005

Beiträge: 17552

Wohnort: Berlin

Zitieren

2. März 2012 06:09

Nachdem ich mir Punkt 2-4 jetzt nochmal in Ruhe angesehen habe will ich sagen, es ist doch leichter als leicht. Fast würde man sogar auf sed verzichten. 😉

1	for f in *.txt ; do sed 1s/^/"$f"/ "$f"; done > gesamt.txt

Wenn noch etwas vor den Dateinamen soll, dann

1	for f in *.txt ; do sed 1s/^/zuvor"$f"/ "$f"; done > gesamt.txt

und da dem menschlichen Auge Trenner meist guttun, und die Tools das eh beim Parsen eher schätzen, als verachten:

1	for f in *.txt ; do sed "1s/^/zuvor, $f, /" "$f"; done > gesamt.txt

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »