Hallo,
ich hoffe ihr könnt mir weiterhelfen, ich bin leider noch sehr unerfahren mit Linux und der Programmierung generell. Ich habe folgende Datei (erste Zeilen: https://paste.ubuntuusers.de/423879/), die nach folgendem Schema aufgebaut ist:
NC_022830.1 2892 2626 NC_022830.1_23 . + Proton_antipo_M PF00361.20 0.0032 2434 16339 Name=ND5 266
Ich möchte die Datei nun zeilenweise durchgehen und dabei die Daten herausfiltern, die die gleichen Pfam-Domänen ( Spalte 8) und die gleiche genomische Lokation (Spalte 10 und 11) haben. Ein erster Versuch dies mit awk zu programmieren war nicht erfolgreich
cat Agropora_test.txt | while read line; do awk' { if ($2 eq $2 && $3 eq $3 && $8 eq $8); print $1,$2,$3,$4,$5,$6,$7,$8,$9,$10,$11,$12 }'; done
Dabei können eine unterschiedliche Anzahl von Zeilen einer einzelnen Pfam-Domäne und genomischer Lokation zugeordnet sein, die Zeilen müssen also einzeln durchgegangen werden ( vielleicht mit for-Bedingung nN=$(nN+1))? Kann mir da jemand weiterhelfen?