ubuntuusers.de

Server regelmäßig nicht mehr verfügbar

Status: Ungelöst | Ubuntu-Version: Kubuntu 24.04 (Noble Numbat)
Antworten |

Tim3010

(Themenstarter)

Anmeldungsdatum:
6. Juni 2020

Beiträge: 32

lubux schrieb:

Tim3010 schrieb:

…. wenn das Problem wieder auftritt, oder könnte ich sonst noch etwas prüfen?

Wenn das Problem wieder auftritt, schaust du mit tcpdump auf deinem Mac, ob der Server minütlich den arp-request sendet bzw. gesnifft wird.

Gesagt getan: Server wieder nicht mehr erreichbar, der minütliche arp-request kommt nicht mehr an, tcpdump auf dem Mac hat keine Pakete bekommen.

Den Monitor habe ich heute Morgen noch nicht angeschlossen.

Tim3010

(Themenstarter)

Anmeldungsdatum:
6. Juni 2020

Beiträge: 32

dirkolus schrieb:

Hast Du mal Tastatur+Maus+Moni angehängt, um zu sehen, ob nur das Netzwerk hängt oder der ganze Rechner? Einloggen via virtuelle Konsolen sollte in jedem Fall gehen, sofern nicht der ganze Server hängt. Dann mit Kommandozeilenbefehlen Probleme suchen: CPU überlastet? Filesystem voll? Logdateien nachsehen? Netzwerk lebt noch (aus Serversicht)?

Ich habe jetzt auch einen Monitor drangehängt ⇒ ich hatte kein Signal. In anderen Worten: der Monitor blieb schwarz, Maus bewegen und Taste drücken auf der Tastatur haben daran nichts geändert. Der Power-Knopf des NUC hat aber dauerhaft geleuchtet, der Rechner war nach meinem Verständnis nicht im Sleep oder ähnliches. Neustart des Servers ⇒ ich habe ein Bild auf dem Monitor (normale Login Gui wie erwartet).

Helfen die Beobachtungen das Problem irgendwie einzugrenzen? Schaut das für euch eher nach Hardware oder Software Problematik aus?

Tim3010

(Themenstarter)

Anmeldungsdatum:
6. Juni 2020

Beiträge: 32

Meine aktuelle Einschätzung: es ist doch irgendetwas an der Hardware defekt und ich brauche wohl einen neuen Server. Etwas schade, dass ich das nicht näher eingrenzen konnte.

dirkolus

Anmeldungsdatum:
17. Mai 2011

Beiträge: 2173

Wohnort: dahoam

Tim3010 schrieb:

der Monitor blieb schwarz, Maus bewegen und Taste drücken auf der Tastatur haben daran nichts geändert. Der Power-Knopf des NUC hat aber dauerhaft geleuchtet, der Rechner war nach meinem Verständnis nicht im Sleep oder ähnliches. Neustart des Servers ⇒ ich habe ein Bild auf dem Monitor (normale Login Gui wie erwartet).

Hallo Tim,

Man könnte jetzt nochmal versuchen, den Server laufen zu lassen bei aktivem Monitor. Also nicht erst anstecken, wenn der Server bereits hängt. Aber ich fürchte, der Erkenntnisgewinn ist nur, um das zu bestätigen, was sich als wahrscheinlich herauskristallisiert.

Wahrscheinlich hast Du jetzt nicht gerade einen baugleichen Server zur Verfügung, um den ultimativen Hardware-Check zu machen, richtig? Aber dass die Hänger nun von Netzwerk _und_ Grafik verursacht werden, ist dann doch eher unwahrscheinlich. Memtest hattest Du schon gemacht? Oder nach Deinem MoBo NUC8BEB oder der CPU im Internet gesucht? Dass Du einen Kernel-Fehler gefunden hast (oder Inkompatibilität) halte ich aus der Erfahrung für eher selten, ausgeschlossen ist es nicht.

Man könnte jetzt noch einen Kernel-Dump provozieren: Magic SysRQ und KDump aktivieren und beim nächsten Hänger ALT + DRUCK + C drücken, um einen Kerneldump zu schreiben. Diesen Kernel-dump kann man mit einem Kernel-debugger analysieren, um evtl. herauszufinden, welches Subsystem oder Funktion diese Hänger verursachen könnte. Das ist alles aber schon sehr fortgeschritten. Ob es den Aufwand lohnt musst Du entscheiden und erfordert auch etwas Einlesen - ich selbst hab sowas auch noch nicht gemacht.

Wenn's in erster Linie Docker-Container sind, könnte man ja mal versuchen, die Platte einfach wie sie ist, auf einem anderen Computer zu starten und dort eine Weile zu betreiben.

Tim3010

(Themenstarter)

Anmeldungsdatum:
6. Juni 2020

Beiträge: 32

Hallo dirkolus,

vielen Dank für deine super Antwort!

Baugleiche Hardware zum Testen habe ich leider nicht. Memtest hatte ich zwar gemacht und keine Fehler gefunden, RAM könnte ich vielleicht aber noch anders testen: im Nuc sind 2x8Gb, ich könnte ihn mal mit einem RAM Riegel betreiben.

Da ein funktionierender Server für uns aber sehr wichtig ist, habe ich jetzt neue Hardware bestellt. Weitere Fehlersuche ist dann mehr um Dazuzulernen (ohne den Druck im Nacken die Kaffeemaschine oder das Licht nicht mehr anschalten zu können 😀 ). Nach 5 Jahren 24x7 im nicht immer optimal gekühlten Abstellraum ist die alte Hardware vielleicht auch einfach durch.

Bekannte Probleme habe ich gesucht aber nichts relevantes entdeckt.

Die Richtung mit dem Kernel dump kannte ich noch nicht. Werde ich mir in Ruhe durchlesen und überlegen, ob ich das mal wagen will. Klingt schon sehr spannend.

Viele Grüße und danke für Deine Hilfe!

schwarzheit Team-Icon

Supporter
Avatar von schwarzheit

Anmeldungsdatum:
31. Dezember 2007

Beiträge: 3848

@Tim3010

Bitte unterlasse Fullquote. Lies dazu Zitate.

Da steht eindeutig:

Hier wird ausdrücklich von "Teile eines vorherigen Beitrags" gesprochen, gesamte -also komplette- Beitragen zu zitieren ist unerwünscht.

Und wenn man direkt antwortet reicht ein @[user:Benutzername:] da braucht es garkein Zitat.

Tim3010

(Themenstarter)

Anmeldungsdatum:
6. Juni 2020

Beiträge: 32

Ok, ich habe es angepasst.

lubux

Anmeldungsdatum:
21. November 2012

Beiträge: 14258

Tim3010 schrieb:

Der Power-Knopf des NUC hat aber dauerhaft geleuchtet, der Rechner war nach meinem Verständnis nicht im Sleep oder ähnliches. Neustart des Servers ⇒ ich habe ein Bild auf dem Monitor (normale Login Gui wie erwartet).

Erstelle mal zwei Scripte (für cronjobs oder timer-units), die den Server neu starten (rebooten) wenn das gateway per arp-request nicht erreicht werden kann. Das 1. Script soll den Neustart mit "systemctl reboot" durchführen und wenn das nicht funktioniert, mit dem 2. Script den Neustart, mit "echo _reisub > /proc/sysrq-trigger" probieren.
Wenn das nicht funktioniert, dann evtl. mit einer watchdog-Software versuchen.

Antworten |