ubuntuusers.de

MCE Hardware Error nach Kernel Update 6.5.0-14-generic

Status: Ungelöst | Ubuntu-Version: Ubuntu 22.04 (Jammy Jellyfish)
Antworten |

kcbehler

Anmeldungsdatum:
1. Februar 2023

Beiträge: 10

Also noch ein Problem mit dem neuen Kernel: Rechner bootet nicht mehr mit MCE Hardware Error.

Kernel 6.2.0-39-generic bootet einwandfrei.

Soweit ich meine, die Artikel zum Machine Check verstanden zu haben, kann man diese Fehler ignorieren. Insofern sind auch die konkreten MCE Meldungen irrelevant.

https://www.kernel.org/doc/Documentation/x86/x86_64/boot-options.rst

AMD64 Specific Boot Options

There are many others (usually documented in driver documentation), but only the AMD64 specific ones are listed here.

Machine check

Please see Documentation/x86/x86_64/machinecheck.rst for sysfs runtime tunables.

mce=off Disable machine check

usw. usw.

Weiß jemand, wo diese Optionen gesetzt werden können, damit diese Fehler ignoriert werden?

Grüße Karlchen

System: (bisheriger Kernel 6.2)
  Kernel: 6.2.0-39-generic x86_64 bits: 64 compiler: N/A Desktop: GNOME 42.9
    Distro: Ubuntu 22.04.3 LTS (Jammy Jellyfish)
Machine:
  Type: Desktop System: Micro-Star product: MS-7C56 v: 1.0
    serial: <superuser required>
  Mobo: Micro-Star model: MPG B550 GAMING PLUS (MS-7C56) v: 1.0
    serial: <superuser required> UEFI: American Megatrends LLC. v: 1.F0
    date: 10/11/2023
CPU:
  Info: 16-core model: AMD Ryzen 9 5950X bits: 64 type: MT MCP arch: Zen 3
    rev: 2 cache: L1: 1024 KiB L2: 8 MiB L3: 64 MiB
  Speed (MHz): avg: 2518 high: 3400 min/max: 2200/5083 boost: enabled
    cores: 1: 2200 2: 2200 3: 2200 4: 3400 5: 2200 6: 2200 7: 2200 8: 2879
    9: 2200 10: 2200 11: 2879 12: 3400 13: 3400 14: 2200 15: 3400 16: 2200
    17: 2200 18: 2200 19: 3400 20: 2200 21: 3400 22: 2200 23: 2913 24: 2200
    25: 2200 26: 3122 27: 2200 28: 2200 29: 2200 30: 2200 31: 2200 32: 2200
    bogomips: 217596
  Flags: avx avx2 ht lm nx pae sse sse2 sse3 sse4_1 sse4_2 sse4a ssse3 svm
Graphics:
  Device-1: NVIDIA vendor: Gigabyte driver: nvidia v: 545.23.08
    bus-ID: 2b:00.0
  Display: x11 server: X.Org v: 1.21.1.4 driver: X: loaded: nvidia
    unloaded: fbdev,modesetting,nouveau,vesa gpu: nvidia
    resolution: 4096x2160~60Hz
  OpenGL: renderer: NVIDIA GeForce RTX 4060 Ti/PCIe/SSE2
    v: 4.6.0 NVIDIA 545.23.08 direct render: Yes

Moderiert von Taomon:

Passender verschoben.

kcbehler

(Themenstarter)

Anmeldungsdatum:
1. Februar 2023

Beiträge: 10

100 mal gelesen und keine Idee. Vielleicht war ich zu kurz in der Beschreibung meines Problems.

Ich nutze Ubuntu 22.04 auf einer komplett neu zusammengebauten Plattform. Die Installation habe ich im Dezember gemacht und bis zum 9.1.2024 keine Probleme gehabt.

Am 10.1.2024 wurde durch das automatische Update der Kernel 6.2.0-39-generic durch den neuen Kernel 6.5.0-14-generic ersetzt. Mit diesem neuen Kernel kann ich den Rechner aber nicht mehr booten, da er schon ganz zu Beginn mit mce Fehlermeldungen stehen bleibt und dann wieder von vorne bootet.

Diese Fehlermeldungen kann ich in /var/log/dmesg.0 finden:

1
2
3
4
[    1.062769] kernel: mce: [Hardware Error]: Machine check events logged
[    1.062773] kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 27: faa000000000080b
[    1.062782] kernel: mce: [Hardware Error]: TSC 0 MISC d012000200000000 SYND 5d000000 IPID 1002e00000500 
[    1.062790] kernel: mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1704978569 SOCKET 0 APIC 0 microcode a20120e

Ich habe dann dazu versucht nachzulesen, was zu tun, ist und den Artikel über die AMD64 Boot-Optionen (siehe erster Post) gefunden. Der hilft mir aber nicht weiter, weil offen bleibt, wo solche Boot-Optionen zu setzen sind. Auch ist nicht wirklich klar, ob das dann helfen würde.

Darf ich also meine Bitte um Hilfe in diesem Forum dahingehend erweitern, dass vielleicht jemand ein Idee beisteuert, wie ich mit dem neuen Kernel weiterkomme?

Wem sonst ich das Problem mit dem neuen Kernel melden kann?

Bin ich der einzige, der das Problem hat?

Wäre schön, wenn jemand was dazu sagen könnte.

kcbehler

(Themenstarter)

Anmeldungsdatum:
1. Februar 2023

Beiträge: 10

Habe noch einen Post aus 2021 zum Thema MCE Hardware Error gefunden: https://www.reddit.com/r/archlinux/comments/vz5apu/a_solution_to_mce_hardware_error_reboots_on_amd/

Enthält Hinweise auf eine Wechselwirkung mit der linux-firmware, die bei mir wie folgt installiert ist:

1
linux-firmware/jammy-updates,jammy-updates,now 20220329.git681281e4-0ubuntu3.24 all [installed,automatic]

Aber daraus folgt auch keine wirkliche Lösung, da die Firmware stabil unter 6.2 läuft. Der Fehler passiert erst nach dem Update des Kernels auf 6.5.

testi55

Anmeldungsdatum:
24. September 2018

Beiträge: 61

Kommt der Fehler bei jedem Boot mit dem Kernel 6.5.?

Falls ja liegt ein zusätzliches Problem mit 6.5. zu Grunde. Falls nein kann das Problem am AMD Ryzen 9 5950X liegen. Hier werkelt ein 5800X der alle 3-4 Monate beim booten auch den Machine check Error zeigt, oder auch selten während des Arbeitens neu startet und beim Neustart den Error zeigt. Ansonsten rennt der problemlos.

Meines Wissens nach kann weder mit Optionen noch über Firmware der Error unter Linux beeinflusst werden.

Du kannst mal in AMD Foren oder PCGH nach WHEA Error bei Ryzen 5xxx CPU suchen. Hängt mit den C-States der CPU zusammen. Die Fehler Beeinflussung ist mir zu aufwändig.

kcbehler

(Themenstarter)

Anmeldungsdatum:
1. Februar 2023

Beiträge: 10

Kommt der Fehler bei jedem Boot mit dem Kernel 6.5.?

Danke für Deine Anteilnahme!)

Ja, der Fehler ist absolut stabil dem Kernel 6.5 Update zuzuordnen. De facto konnte ich diesen Kernel nicht ein einziges Mal über den Fehler hinaus booten.

Der Vorgänger-Kernel 6.2 hatte diesen Fehler bisher niemals. Insofern denke ich, dass im neuen Kernel zu Beginn entweder kritischer die CPU geprüft wird oder eine abwegige, mit dieser CPU nicht kompatible Prüfung vorgenommen wird. Von diesen C-States verstehe ich nix. Muss das vielleicht mal sorgfältig nachlesen, ist aber sicher kompliziert und vielleicht zu hoch für mich.

Was ich noch gemacht hatte war, das moderate Overclocking meines Speichers habe ich wieder rückgängig gemacht. Es hatte mit 6.2 reibungslos funktioniert. Das Rücksetzen hat aber für 6.5 auch nix gebracht. Auch mit den Grundeinstellungen ist dieser Fehler unter 6.5 stabil.

Ich habe daher auch eine Mail an das Ubuntu Kernel-Team geschrieben. Aber noch keine Antwort erhalten. Mein Problem scheint ja nicht gerade häufig zu sein, sonst wäre es vermutlich dringender.

Ach noch etwas. Hatte den neuen Rechner bei Alternate konfiguriert und die Teile dort einzeln gekauft. Die Anfrage, ob mein Problem ein RMA-Fall sein könnte, konnten die aber auch nicht beantworten. Sie haben zwar einen Tipp in die richtige Richtung gegeben, können aber zu Linux-Problemen keinen Support geben. Vorläufig betrachte ich das auch noch nicht als einen RMA-Fall. Da müsste der Fehler ja auch mit dem alten Kernel zumindest sporadisch auftreten.

Bisherige Forschung im Netz ergibt, dass neben dem Prozessor auch die linux-firmware, die GPU (Vermutlich die im Prozessor (Ich glaube der meine hat gar keine GPU.) oder auf dem Mainboard und nicht die auf der Grafikkarte??? - Habe noch nicht verstanden, wie die dazu beitragen soll.) sowie unsachgemässes Overclocking (Wie gesagt: Habe ich zurückgesetzt.) die Ursachen sein könnten. → Alles in Allem: ein Fischen im Trüben.

DocHifi

Avatar von DocHifi

Anmeldungsdatum:
21. Oktober 2008

Beiträge: 1479

Dieser Kernel hat so einige "Fehler".

Bei einigen spinnt der Grafiktreiber, bei mir gibt es zumindest Fehlermeldungen dazu, auch wenn mein System trotzdem läuft und Virtualbox meldet ja auch Fehler und funktioniert nicht mehr.

Antworten |