Hallo zusammen,
ich habe schon seit längerem für meine Aktivitäten rund um Hausautomatisierung einen RaspberryPi eingesetzt, der verschiedene Anwendung nativ und andere innerhalb einer Docker-Umgebung ausgeführt hat. Das lief im Grunde soweit stabil. Mit zunehmender Laufzeit und Nutzung ist das System aber immer wichtiger geworden und weil ich es bei anderen Anwendungen schon des öfteren hatte, dass mal ein Netzteil oder eine SD-Karte stirbt, wollte ich hier mehr Stabilität und auch mehr Performance.
Deswegen habe ich mir vor ein paar Wochen einen Intel NUC10i5FNH zusammen mit 16GB Kingston-RAM gekauft. Eine Samsung EVO 950 mit 250Gb Speicher hatte ich noch rumliegen.
Als System sollte Ubuntu Server 20.04 zum Einsatz kommen, weil es dem raspbian doch am ähnlichsten ist in der Bedienung. Der Gesamte Systemaufbau ist headless, also ohne Bildschirm, Tastatur und Maus. Ausschließlich ssh bzw. Web für die Docker-Anwendungen soll verwendet werden. Im Hintergrund hängt noch ein Synology-NAS, welches zum einen die Backups wegspeichert und aber auch von einem tvheadend die TV-Aufzeichnungen speichern soll.
Eigentlich läuft alles super. Eigentlich... Hin und wieder kommt es vor, dass das System nicht erreichbar ist. Das fällt vor allem dadurch auf, dass die Web-Anwendungen nicht mehr erreichbar sind (Node-Red, FHEM, tvheadend...). Dann gucke ich in die Fritzbox, auch dort ist das System offline. Das Netzwerk-Interface am NUC leuchtet aber noch. Ein kurzes abziehen und erneut anstecken sorgt ebenso nicht für Abhilfe.
Was sehr wohl noch geht ist, per Power-Button einen normalen shutdown-Vorgang zu initiieren. Das System fährt dann sauber runter und mit einem erneuten Druck auf den Power-Button startet das System wieder ganz normal als wäre nichts gewesen.
Jetzt wäre es natürlich schön, wenn ich etwas im kernel-log oder im syslog dazu finden würde. Das ist leider nicht so. U.a. habe ich Temperatur-Aufzeichnungen per InfluxDB am laufen, worüber sich herausfinden lässt, wann das System seine Arbeit eingestellt hat. Im betreffenden Zeitraum finde ich lediglich Fehler bei der Anbindung der CIFS-mounts.
Hier das Kernel-Log zur betreffenden Zeit.
Aug 25 07:47:53 ubuntu-home kernel: [1091262.765780] perf: interrupt took too long (8942 > 8307), lowering kernel.perf_event_max_sample_rate to 22250 Aug 26 19:13:17 ubuntu-home kernel: [1218785.643080] CIFS VFS: \\192.168.171.5 sends on sock 00000000b5088659 stuck for 15 seconds Aug 26 19:13:17 ubuntu-home kernel: [1218785.643089] CIFS VFS: \\192.168.171.5 Error -11 sending data on socket to server Aug 26 19:15:24 ubuntu-home kernel: [1218912.619917] CIFS VFS: \\192.168.171.5 has not responded in 180 seconds. Reconnecting... Aug 26 19:15:24 ubuntu-home kernel: [1218912.619929] CIFS VFS: \\192.168.171.5 has not responded in 180 seconds. Reconnecting... Aug 26 23:00:10 ubuntu-home kernel: [1232397.653231] e1000e: eno1 NIC Link is Down Aug 26 23:00:19 ubuntu-home kernel: [1232407.293728] e1000e: eno1 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx
Und das syslog in der betreffenden Zeit.
Aug 26 18:22:58 ubuntu-home systemd[8224]: run-docker-runtime\x2drunc-moby-3ebb5473d77b0e0567cfa6657e139e0809ef4ea110bbd036c09330d9d96e60a3-runc.Z08WFB.mount: Succeeded. Aug 26 18:22:58 ubuntu-home systemd[1]: run-docker-runtime\x2drunc-moby-3ebb5473d77b0e0567cfa6657e139e0809ef4ea110bbd036c09330d9d96e60a3-runc.Z08WFB.mount: Succeeded. Aug 26 19:13:17 ubuntu-home kernel: [1218785.643080] CIFS VFS: \\192.168.171.5 sends on sock 00000000b5088659 stuck for 15 seconds Aug 26 19:13:17 ubuntu-home kernel: [1218785.643089] CIFS VFS: \\192.168.171.5 Error -11 sending data on socket to server Aug 26 19:15:24 ubuntu-home kernel: [1218912.619917] CIFS VFS: \\192.168.171.5 has not responded in 180 seconds. Reconnecting... Aug 26 19:15:24 ubuntu-home kernel: [1218912.619929] CIFS VFS: \\192.168.171.5 has not responded in 180 seconds. Reconnecting... Aug 26 19:17:01 ubuntu-home CRON[4123635]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Aug 26 19:19:25 ubuntu-home systemd[1]: Starting Daily apt download activities... Aug 26 19:19:25 ubuntu-home systemd[1]: apt-daily.service: Succeeded. Aug 26 19:19:25 ubuntu-home systemd[1]: Finished Daily apt download activities.
Das Problem scheint um 19.13Uhr eingetreten zu sein. Die eno1 Down-Meldung wurde durch meinen Versuch verursacht, per ab-/anstecken eventuell noch was zu bewegen.
Ich habe das Gefühl, dass da irgendwas mit dem Netzwerk-Interface ist. Leider bekomme ich mit dem was ich an Logs habe nicht raus, was da konkret das Problem ist.
Der Fehler tritt auch nicht besonders häufig auf. Zuletzt war das vor 16 Tagen der Fall. Da ich nicht weiß, was die Ursache ist, hilft nur warten. Aber solange wäre es hilfreich, wenn ich irgendwie erweiterte Logging-Funktionen aktivieren könnte, die bei der Suche helfen. Ideen?
Außerdem wäre für mich die Frage, ob eventuell irgend ein Schlafmodus ausgelöst sein könnte, der hier für einen fehlerhaften Betrieb sorgt. Gibt es Funktionen im Ubuntu Server, die sinnvoll wären zu aktivieren/deaktivieren?
Beste Grüße Bond