CSV: Bestimmte Reihen verschiedener .CSV in eine .CSV kopieren

« Vorherige1Nächste »

Status: Gelöst | Ubuntu-Version: Ubuntu 18.04 (Bionic Beaver)
Antworten |

Pelikan666

Anmeldungsdatum:
22. September 2019

Beiträge: 19

Zitieren

23. Oktober 2019 13:50

Hallo,

wie kopiert man in Python die Reihe 1 aus file_1.csv und Reihe 1 aus file_2.csv in file_3.csv ?

Bsp.:

file_1.csv:
1, Hase
3, Bus
5, Schnecke

file_2.csv:
4, Eis
5, Fuß
9, Hund

–> Resultat:

file_3.csv:
1, 4
3, 5
5, 9

Pelikan666

(Themenstarter)

Anmeldungsdatum:
22. September 2019

Beiträge: 19

Zitieren

23. Oktober 2019 13:53

Mein Ansatz wäre:

import csv

file1 = "file_1.csv" 
file2 = "file_2.csv"
file3 = "file_3.csv"

with open('file1') as f_1:
	read_1 = f_1.read()

with open('file2') as f_2:
	read_2 = f_2.read()

with open('new_file3', 'w', newLine='') as new_csv:
	new_csv_writer = csv.writer(new_csv)
for row in read_1 and read_2:
#??


# ab hier stockts

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11180

Wohnort: München

Zitieren

23. Oktober 2019 14:11

Das ginge z.B. so:

#!/usr/bin/env python3
import csv
import sys

try:
    file1, file2, output = sys.argv[1:4]
except:
    print(f"usage: {sys.argv[0]} FILE1 FILE2 OUTPUT", file=sys.stderr)

with open(file1) as f1, open(file2) as f2, open(output, 'w', newline='') as csv_out:
    reader1, reader2 = csv.reader(f1), csv.reader(f2)
    writer = csv.writer(csv_out)

    for r1, r2 in zip(reader1, reader2):
        writer.writerow([r1[0], r2[0]])

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11180

Wohnort: München

Zitieren

23. Oktober 2019 14:21 (zuletzt bearbeitet: 23. Oktober 2019 16:22)

Man kann sowas auch mit weniger Tipp-Aufwand in der Shell erledigen, solange es keine Besonderheiten beim CSV-Dialekt gibt (Quoting, Newlines usw.):

paste  <(cut -d ',' -f 1 file_1.csv)  <(cut -d ',' -f 1 file_2.csv) | sed 's/\t\+/, /g' > file_3.csv

user_unknown

Anmeldungsdatum:
10. August 2005

Beiträge: 17552

Wohnort: Berlin

Zitieren

23. Oktober 2019 18:50 (zuletzt bearbeitet: 23. Oktober 2019 19:43)

Etwas umständlich:

for i in {1..3}
do
  sed -n "$i s/, .*/, /"p file_1.csv
  sed -n "$i s/, .*/#/p"  file_2.csv; 
done | tr "\n#" " \n"  sed "s/,  /, /;s/^ //;"

Schön einfach, wenn auch lang, ist die Arbeit mit colrm, nl und join:

cat file_1.csv | colrm 4 | nl > f1.tmp ; cat file_2.csv | colrm 2 | nl > f2.tmp ; join -1 1 -2 1 f1.tmp f2.tmp | colrm 1 2
1,  4
3,  5
5,  9

Man jagd file_1.csv durch colrm und entfernt alles ab Spalte 4. (Man nennt es Spalte, nicht Reihe, siehe auch Oper, Kino, usw. - ich sitze in Reihe 8. Reihe ist Zeile.) Anschließend lässt man nl (number lines) die Zeilen nummerieren. Analog für Datei 2, aber hier schneidet man schon ab Spalte 2 ab. Beide Male geht der Output in eine temporäre Zwischendatei. Mit join verbindet man die Dateien anhand der Zeilennummer. Mit colrm schneidet man dann die Zeilennummer wieder fort. Übersichtlicher:

cat file_1.csv | colrm 4 | nl > f1.tmp 
cat file_2.csv | colrm 2 | nl > f2.tmp 

join -1 1 -2 1 f1.tmp f2.tmp | colrm 1 2
1,  4
3,  5
5,  9

Pelikan666

(Themenstarter)

Anmeldungsdatum:
22. September 2019

Beiträge: 19

Zitieren

25. Oktober 2019 18:53 (zuletzt bearbeitet: 25. Oktober 2019 18:53)

Pelikan666 schrieb:

Danke, den Oneline übernehme ich erstmal nicht.

Oneliner.

snafu1

Anmeldungsdatum:
5. September 2007

Beiträge: 2123

Wohnort: Gelsenkirchen

Zitieren

26. Oktober 2019 08:39 (zuletzt bearbeitet: 26. Oktober 2019 11:04)

awk 'BEGIN{FS=OFS=", "} FNR==NR{a[FNR]=$1; next} {print a[FNR], $1}' file1.csv file2.csv

FS und OFS stehen für Field Separator (Komma für Eingabe) bzw Output Field Separator (Komma für Ausgabe).

Der "FNR==NR"-Trick sorgt dafür, dass zuerst nur file1 behandelt wird (Datei-Zeilennummer = Gesamt-Zeilennummer). Das next-Kommando dient dazu, dass alle weiteren Anweisungen ignoriert werden und er sofort zur nächsten Zeile springt. Wenn er die erste Datei durch hat, ist der Gesamt-Zähler höher als der Zähler für die Datei und somit kommt nur noch die zweite Bedingung zur Anwendung.

Ist zugegeben nicht ganz leicht zu durchschauen, wenn man es nicht kennt, aber eine nette Fingerübung. ☺

EDIT: Hier noch ein bißchen anders ausgedrückt, indem quasi umgekehrt gedacht wird. Dabei kommt es nur zum "print", wenn vorher die Zeile in "a" abgelegt wurde. Damit spart man sich auch das "next":

awk 'BEGIN{FS=OFS=", "} a[FNR]{print a[FNR], $1} {a[FNR]=$1}' file1.csv file2.csv

Oder ohne den BEGIN-Block:

awk -F, 'NR>FNR{print a[FNR]", "$1} {a[FNR]=$1}' file1.csv file2.csv

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »