Hyperthreading

« Vorherige1Nächste »

Status: Gelöst | Ubuntu-Version: Kubuntu 14.04 (Trusty Tahr)
Antworten |

Salamander76

Anmeldungsdatum:
14. März 2014

Beiträge: 205

Zitieren

22. August 2014 22:14

Hallo an euch alle,

habe da mal eine Frage zum Thema Hyperthreading. Ich habe in Java ein Programm geschrieben, das Threads einsetzt. Dabei erstelle ich zwei Threads, die jeweils 100000 Zufallszahlen generieren. Mein Rechner hat eine CPU die Multithreading-fähig ist und zwei Cores hat.

Die programmierte Methode hat eine Laufzeit von ca. 500ms.

Rufe ich die Methode aus der main 2x hintereinander auf, dann beträgt die Gesamtlaufzeit logischerweise ca. 1000ms. Wenn ich die Methode nun jedoch über die beiden Threads aufrufe, dann sollten diese doch eigentlich parallel von den Cores abgearbeitet werden, sodass die Gesamtlaufzeit gut 500ms dauern sollte. Sie beträgt jedoch 1000ms, also macht es gar keinen Unterschied, ob ich das Ganze über Threads programmiere oder nicht.

Nun habe ich gelesen, dass die Desktop-Prozessoren gar kein echts Hyperthreading machen, sondern dass das OS die Rechenlast "künstlich" auf die Cores verteilt (u.a. wegen Strom sparen). Stimmt das wirklich? Heißt das dann, dass die Threadprogrammierung nur bei Clustern Sinn macht?

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 12822

Zitieren

22. August 2014 22:52

Salamander76 schrieb:

habe da mal eine Frage zum Thema Hyperthreading.

Zunächst einmal hat Deine Frage nur entfernt mit Hyperthreading zu tun, insofern nämlich, dass es um Parallelverarbeitung und die Nutzung mehrerer Elemente der Hardware geht, die parallel arbeiten können. (Ich formuliere das absichtlich so allgemein, weil es bei Hyperthreading gerade nicht um kompletten Kerne geht.)

Ich habe in Java ein Programm geschrieben, das Threads einsetzt. Dabei erstelle ich zwei Threads, die jeweils 100000 Zufallszahlen generieren. Mein Rechner hat eine CPU die Multithreading-fähig ist und zwei Cores hat.

Ich bin fast versucht zu antworten, jede moderne CPU ist multithreadingfähig. Genauer müsste es lauten, dass man auf jeder modernen CPU Programme mit mehreren Threads laufen lassen kann. Du meinst vermutlich, dass Deine CPU zwei echte Hardwarethreads hat, weil sie zwei Kerne besitzt.

Die programmierte Methode hat eine Laufzeit von ca. 500ms.
Rufe ich die Methode aus der main 2x hintereinander auf, dann beträgt die Gesamtlaufzeit logischerweise ca. 1000ms. Wenn ich die Methode nun jedoch über die beiden Threads aufrufe, dann sollten diese doch eigentlich parallel von den Cores abgearbeitet werden, sodass die Gesamtlaufzeit gut 500ms dauern sollte. Sie beträgt jedoch 1000ms, also macht es gar keinen Unterschied, ob ich das Ganze über Threads programmiere oder nicht.

Nun ja, ohne den Code zu sehen, kann man dazu nicht viel sagen. Wenn Du das nur ein mal ausführst, dann gibt es eine ganze Reihe Effekte, die das Messergebnis verfälschen können (z.B. Garbage Collection, JIT - vielleicht nutzt Du auch irgendwo eine Ressource in beiden Threads). Einen Mikrobenchmark in Java richtig aufzusetzen ist schon etwas trickreich. Das, was Du bisher berichtet hast, lässt jedenfalls keine Schlüsse in welche Richtung auch immer zu.

Nun habe ich gelesen, dass die Desktop-Prozessoren gar kein echts Hyperthreading machen, sondern dass das OS die Rechenlast "künstlich" auf die Cores verteilt (u.a. wegen Strom sparen).

Das kann ich nicht so genau sagen. Es kann tatsächlich sein, dass das OS die CPUs herunter taktet (was Strom spart) und dann mehrere Kerne nutzt. Es gibt prinzipiell aber auch die Möglichkeit, dass ganze Kerne abgeschaltet werden, was m.E. eher noch mehr Strom spart.

Stimmt das wirklich? Heißt das dann, dass die Threadprogrammierung nur bei Clustern Sinn macht?

Wie kommst Du denn jetzt auf Cluster? Damit meint man normalerweise Netzwerke von mehreren Rechnern. Meinst Du etwas anderes?

Ciao

robert

noisefloor Team-Icon

Ehemaliger

Anmeldungsdatum:
6. Juni 2006

Beiträge: 29041

Wohnort: WW

Zitieren

23. August 2014 13:05

Hallo,

was ja generell noch dazu kommt: Lange läuft dein Prog ja sowieso nicht. Also 500ms oder 1000ms ist ja nicht die Welt. Wenn dein Prog Threads anlegt vergehen ja schon X ms, bevor das Prog an sich überhaupt anfängt, Zahlen zu generieren. Da hat das Single-Threaded Prog ja schon einen "Vorsprung" erarbeitet.

Und generell ist das mit der Zeitmessung auf Desktop-Systemen auch nicht immer so akkurat. Also nicht die Zeitmessung an sich, aber vielleicht blockiert gerade eine anderer Prozess Rechenleistung im Hintergrund, ohne das du dass bemerkst.

BTW: hast du ein tatsächliches Problem mit zu langer Rechenzeit oder ist das einfach nur ein Experiment?

Gruß, noisefloor

dswd

Anmeldungsdatum:
23. August 2014

Beiträge: 12

Zitieren

23. August 2014 16:38

Salamander76 schrieb:

Mein Rechner hat eine CPU die Multithreading-fähig ist und zwei Cores hat.

Um hier weniger in die Glaskugel schauen zu müssen wäre die Ausgabe von

1	cat /proc/cpuinfo

und eine minimale Version von deinem Code sinnvoll.

Die programmierte Methode hat eine Laufzeit von ca. 500ms.
Rufe ich die Methode aus der main 2x hintereinander auf, dann beträgt die Gesamtlaufzeit logischerweise ca. 1000ms. Wenn ich die Methode nun jedoch über die beiden Threads aufrufe, dann sollten diese doch eigentlich parallel von den Cores abgearbeitet werden, sodass die Gesamtlaufzeit gut 500ms dauern sollte. Sie beträgt jedoch 1000ms, also macht es gar keinen Unterschied, ob ich das Ganze über Threads programmiere oder nicht.

Ok, hier mal ein paar mögliche Ursachen (ohne den Code zu sehen geht nicht mehr):

Du rufst nicht start() sondern run() auf.
Dein Prozessor hat in Wirklichkeit nur einen Core, kann aber Hyperthreading. In diesem Fall: Herzlichen Glückwunsch! Dein Code lastet deinen Core so gut aus dass Hyperthreading nichts mehr bringt.
Du hast irgendwas in deinem Code was dazu führt dass die Threads sich gegenseitig blockieren.

Nun habe ich gelesen, dass die Desktop-Prozessoren gar kein echts Hyperthreading machen, sondern dass das OS die Rechenlast "künstlich" auf die Cores verteilt (u.a. wegen Strom sparen). Stimmt das wirklich? Heißt das dann, dass die Threadprogrammierung nur bei Clustern Sinn macht?

Ich bin mir nicht sicher was genau du meinst, du wirfst da ein paar Begriffe durcheinander. Desktop-Prozessoren hatten früher nur einen Core und haben dann durch Hyperthreading künstlich einen zweiten Core simuliert (ohne wirklich mehr Leistung zu haben, HT bringt je nach Anwendung 10-20%). Heute haben auch Desktop-Prozessoren mehrere echte Cores und auch Server-Prozessoren haben mittlerweile Hyperthreading. Cluster sind wie rklm bereits geschrieben hat was ganz anderes.

Salamander76

(Themenstarter)

Anmeldungsdatum:
14. März 2014

Beiträge: 205

Zitieren

24. August 2014 22:06

Dann muss ich wohl das Geheimnis lüften was ich vorhabe ☺

Ich möchte realisieren, dass die Rechenlast einer in JAVA entwickelten Anwendung

1. auf mehrere Cores eines Rechners oder 2. auf mehrere Prozessoren mehrerer Rechner

verteilt wird, um die Laufzeit zu optimieren. So wie ich das gelesen habe geht es nur, wenn man die einzelnen Teile der Anwendung als Thread programmiert.

Um den ersten Punkt zu realisieren, habe ich folgenden JAVA-Code programmiert.

import java.util.*;

class ThreadTest implements Runnable
{
  private String threadName;
  private Thread t;
  
  public static void routine()
  {
    double zahl = 0; 
    for (int i=0; i < 100000; i++)
    {
      zahl = Math.random();
    }
    try
    {
      Thread.sleep(500);
    }
    catch (InterruptedException e)
    {
    }
  }
    
  ThreadTest (String name)
  {
    threadName = name;
    System.out.println("Thread " + threadName + " wird erstellt.");
  }
  
  public void run()
  {
  }
  
  public void start()
  {
    long startzeit = new Date().getTime();  
    System.out.println("Thread " + threadName + " startet.");
    routine();
    long endzeit = new Date().getTime() - startzeit;
    System.out.println("Thread " + threadName + " lief: " + endzeit);
  }

  public static void main(String [] args)
  {
    long startzeit = new Date().getTime();
    
    ThreadTest T1 = new ThreadTest("Thread 1");
    ThreadTest T2 = new ThreadTest("Thread 2");
    
    T1.start();
    T2.start();
    
    routine();
    
    long endzeit = new Date().getTime() - startzeit;
    
    System.out.println("Ausführungszeit war: " + endzeit);
  }
}

Nun hätte ich erwartet, dass wenn man routine() in der main 2x hintereinander aufrufen würde, dies die doppelte Ausführungszeit beansprucht, wie wenn man diese über 2 Threads aufruft. Die Ausführungszeit ist jedoch ein beiden Fällen praktisch identisch.

Die CPU-Info sieht so aus:

processor       : 0
vendor_id       : AuthenticAMD
cpu family      : 21
model           : 16
model name      : AMD A4-4355M APU with Radeon(tm) HD Graphics
stepping        : 1
microcode       : 0x6001116
cpu MHz         : 1300.000
cache size      : 1024 KB
physical id     : 0
siblings        : 2
core id         : 0
cpu cores       : 1
apicid          : 0
initial apicid  : 0
fdiv_bug        : no
f00f_bug        : no
coma_bug        : no
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc nonstop_tsc extd_apicid aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 popcnt aes xsave avx f16c lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs xop skinit wdt lwp fma4 tce nodeid_msr tbm topoext perfctr_core perfctr_nb arat cpb hw_pstate npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold bmi1
bogomips        : 3793.23
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm 100mhzsteps hwpstate cpb eff_freq_ro

processor       : 1
vendor_id       : AuthenticAMD
cpu family      : 21
model           : 16
model name      : AMD A4-4355M APU with Radeon(tm) HD Graphics   
stepping        : 1
microcode       : 0x6001116
cpu MHz         : 1300.000
cache size      : 1024 KB
physical id     : 0
siblings        : 2
core id         : 1
cpu cores       : 1
apicid          : 1
initial apicid  : 1
fdiv_bug        : no
f00f_bug        : no
coma_bug        : no
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc nonstop_tsc extd_apicid aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 popcnt aes xsave avx f16c lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs xop skinit wdt lwp fma4 tce nodeid_msr tbm topoext perfctr_core perfctr_nb arat cpb hw_pstate npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold bmi1
bogomips        : 3793.23
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm 100mhzsteps hwpstate cpb eff_freq_ro

Der eigentliche Hintergrund der ganze Sache ist, dass ich plane ein kleines Cluster aus (zunächst) 4 Raspberry Pi zu konfigurieren, um Berechnungen über die Pis zu verteilen. Wenn das dann funktioniert könnte ich das Cluster variabel vergrößern. Dabei stellt sich mir jedoch die Frage, ob das über diesen Weg auch funktioniert...

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 12822

Zitieren

24. August 2014 22:54 (zuletzt bearbeitet: 24. August 2014 23:23)

Salamander76 schrieb:

Ich möchte realisieren, dass die Rechenlast einer in JAVA entwickelten Anwendung
1. auf mehrere Cores eines Rechners oder 2. auf mehrere Prozessoren mehrerer Rechner
verteilt wird, um die Laufzeit zu optimieren.

Das ist aber schon eine recht komplexe Sache - insbesondere, da die Verteilung auf mehrere Rechner Netzwerkkommunikation beinhaltet, die für sich allein schon recht trickreich ist, wenn man es schnell und verlässlich haben möchte. Da sollten die Arbeitspakete nicht zu klein sein, weil sich sonst der Overhead für die Kommunikation nicht lohnt.

So wie ich das gelesen habe geht es nur, wenn man die einzelnen Teile der Anwendung als Thread programmiert.

Das kann man so allgemein nicht sagen. Es hängt davon ab, welches Framework Du verwendest. Wenn Du nur die Java-Standardbibliothek nimmst, dann hast Du allein schon mehrere Möglichkeiten - angefangen von Threads bis zum ExecutorService und implementierende Klassen.

Generell würde ich aber erst mal schauen, welche Frameworks es dafür bereits in Java gibt. Vielleicht wäre auch eher Erlang etwas für Deine Problemstellung, weil das genau auf die parallele Ausführung ausgelegt ist und Verteilung im Netz mitbringt.

Um den ersten Punkt zu realisieren, habe ich folgenden JAVA-Code programmiert.

Für Zeitmessungen nimmt man am besten System.nanoTime(), weil das genauer auflöst als System.currentTimeMillis(), das bei new Date() verwendet wird.

Außerdem solltest Du Ausgaben von Threads vermeiden, da IO auf Stdout synchronisiert wird und generell erhebliche teurer ist als Berechnungen wie Deine.

Nun hätte ich erwartet, dass wenn man routine() in der main 2x hintereinander aufrufen würde, dies die doppelte Ausführungszeit beansprucht, wie wenn man diese über 2 Threads aufruft. Die Ausführungszeit ist jedoch ein beiden Fällen praktisch identisch.

Du führst routine() gar nicht in den Threads aus, weil Du run() überhaupt nicht überlädst. Dein Code macht folgendes:

zwei ThreadTest-Instanzen werden erzeugt (Achtung: es sind keine Thread-Instanzen und erzeugen != starten).
anstatt sie zu starten, rufst Du zwei mal hintereinander Deine Version von start() im Main-Thread auf, von wo aus dann routine() synchron aufgerufen wird. (Um die Threads parallel zu starten, müsstest Du die Klassen von Thread erben lassen und die originale Version von start() aufrufen.)
Im Main-Thread wird routine() auch noch einmal aufgerufen.

Mit anderen Worten: da passiert nichts parallel und es gibt keine Threads. Die Zeit, die Du in main() misst, beinhaltet drei Ausführungen von routine(). Kein Wunder, dass Du da keine Verbesserungen siehst.

Aber selbst, wenn Du es richtig machen würdest (also von Thread erben, start() nicht überladen und routine() aus run() aufrufen), könntest Du mit den Ergebnissen nichts anfangen. Da Du alles nur ein Mal ausführst und z.B. keine Aufwärmphase vorsiehst, in der der JIT den Code übersetzen kann, sind die Ergebnisse weit davon entfernt, was Du in einer echten Anwendung erwarten kannst, in der die gleiche Arbeit öfters ausgeführt werden wird.

Der eigentliche Hintergrund der ganze Sache ist, dass ich plane ein kleines Cluster aus (zunächst) 4 Raspberry Pi zu konfigurieren, um Berechnungen über die Pis zu verteilen. Wenn das dann funktioniert könnte ich das Cluster variabel vergrößern. Dabei stellt sich mir jedoch die Frage, ob das über diesen Weg auch funktioniert...

Ja, ist aber ein sehr großer Schuh - insbesondere, wenn Du auch noch dynamisch den Cluster vergrößern und verkleinern willst, und insbesondere auch, da Du wenig Erfahrung mit Multithreading in Java hast. Da würde ich eher nach existierender Software suchen. Ein JEE-Container wie JBoss bringt auch schon einiges mit, das man dafür benötigt, z.B. Cluster-Support, Message Queueing und, wenn ich das richtig erinnere, Lastverteilung. Damit könnte man das ggf. hinbekommen. Ich würde allerdings erst mal nach Systemen schauen, die auf so eine Verteilung von Aufgaben auf mehrere Kerne und Knoten im Netz ausgelegt sind.

Ciao

robert

Edit: ein paar inhaltliche Fehler korrigiert.

Salamander76

(Themenstarter)

Anmeldungsdatum:
14. März 2014

Beiträge: 205

Zitieren

31. August 2014 21:05

Danke mal für euere Antworten!

Auf die Idee mit dem Pi-Cluster hat mich der Doktorand aus den USA gebracht, der sich die Alternative zu dem Onyx-Cluster gebaut hat. Habe mir das wohl viel zu einfach vorgestellt...

TheDarkRose

Anmeldungsdatum:
28. Juli 2010

Beiträge: 3459

Zitieren

1. September 2014 20:01

Der verwendete aber auch entsprechende Cluster-Frameworks.

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »