KojiCelesta
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
Hallo Zusammen, kurz zum Hintergrund: Ich arbeite in einem Unternehmen, wo wir Webosting betreiben und uns aus Performancegründen einen Linux V-Server bei dem Hoster Strato zugelegt haben.
Aktuell läuft der Server mit Ubuntu 14.04 LTS und dem Plesk Panel 12. ( Mit den Diensten MySQL, Apache2, Mailserver Postfix / Dovecot und DNS etc. )
Der Server ist auch ein Namenserver. Ich weiß es ist noch nicht optimal, alles auf einem System laufen zu lassen. Aber zum Problem: Sporradisch ist der Server sehr sehr langsam. Ich bin selbst Informatiker. Habe bereits gegooglet und auch versucht die Ursache zu finden. Das Problem bezieht sich hautsächlich auf den Apache-Webserver. Bei anderen Dienste gab es bisher keine Probleme. Der Server lässt sich von außen problemlos anpingen etc. Ich habe auch das tool "htop" installiert, um die Systemressourcen kontrollieren zu können - Auch hier ist der Server noch lange nicht bei seinen Grenzen. Der CPU load steigt vielleicht zwischendurch ein bisschen, aber nicht so das es meines erachtens kritisch ist. Demnach scheint es an der Konnektivität und den Ressourcen nicht zu liegen. Wenn das Problem auftritt laden die unterschiedlichsten Webseiten auf dem Sever extrem langsam und auch das Pleskpanel läd über Minuten oder mal gar nicht. Das hält sich über mehrere Minuten, selten mal länger. Zum Server selbst: Es ist der Level 3 Linux V mit 8 vCores und 8 GB RAM ( 16GB dynamisch ). Leistungstechnisch ist der noch lange nicht am Limit. Wir haben bisher vielleicht ca. 30 SQL Datenbanken am laufen und er ist bisher vielleicht Namenserver für 20-25 Domains. Ich weiß das ist eine sehr allgemeine Beschreibung, aber hat jemand vielleicht ein Tipp oder Anhaltspunkt woran das liegen könnte? Vielen Dank
|
nbkr
Anmeldungsdatum: 29. Oktober 2007
Beiträge: 1936
Wohnort: Aschaffenburg
|
Was sagt top wärend den Pausen? Insbesondere was macht die CPU? Wartet die zufällig auf die Hardware, sprich das Storagesystem von Strato kommt nicht mit?
|
frostschutz
Anmeldungsdatum: 18. November 2010
Beiträge: 7657
|
Läuft eine PHP-Shoutbox irgendwo? 😀 Sehr schwer dazu irgendwas zu sagen. Zumal ein vServer auch ganz ohne dein Zutun eine stark schwankende Leistung haben kann, je nachdem was die Nachbarn so treiben.
|
KojiCelesta
(Themenstarter)
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
Schon mal Danke für die Tipps. Ich sollte die CPU mal für längere Zeit protokollieren. Mir ist heute tatsächlich ein Load von 6,irgendwas aufgefallen, was ja relativ viel ist bei einem 8vCore System. Gut mit schwankenden V-Server Leistungen muss man rechnen, aber der Server ist noch nicht am Limit ausgelastet. Ich werde mal den Load auf längere Zeit in einen log auslaggern und auch welche Dienste CPU saugen. Habe beim googlen einige Scripts gefunden , womit man einen cronjob anlegen kann. Wenn ich ein Ergebniss habe werde ich das mal hier posten. @frostschutz: Nee ich wüsste nicht das wir eine PHP-Shoutbox haben, hauptsächlich Wordpress, neben ein paar Eigenentwicklungen.
|
AleksCee
Anmeldungsdatum: 21. April 2009
Beiträge: 12
|
Hallo, ich habe das bei meinem V Server seit dem ich auf das neue angepriesene "HP 3PAR StoreServ Speicherplattform (SSD/HDD)" upgegrated hatte hatte. Seit dem gibt es immer wieder I/O Engpässe.
Bei mir habe ich schon über Wochen/Monate beobachtet, dass immer wenn da was hängt die CPU eigentlich kaum was tut es bleibt teilweise alles stehen was mit I/O zu tun hat.
Editiert man z.B. gerade eine Datei und versucht diese zu speichern, friert dieser Task ein und kommt erst nach Sekunden bis Minuten wieder zu einem Shell-Prompt. Auffällt war bei mir auch, wenn es extrem hängt, kann man im Postfix Log sowas siehen wie: "filesystem clock is behind system clock".
Die Load geht bei der 8 Core CPU Version teilweise auf 120 für den 1 Minuten Wert. Das ganze ist dann für 1-20 Minuten so - dann bekommt es sich alles wieder ein. Mehrfacher Support-Fall bei Strato hatte als Ergebnis immer "Wir haben die Performance-Probleme zwischen dem Host und dem WirtsSystem behoben...." Nach einiger Zeit ist es aber wieder wie beobachtet. Extrem fällt mir das mit der I/O dann auch mit der Datenbank auf - die bleibt dann auch teilweise stehen und damit auch davon abhängig Dinge wie die Auslieferung der Webseite. Ich meine auch das Dinge die im Speicher sind und nicht von der "Platte" gelesen werden müssen einfach laufen... Also z.B. eine statische Seite, die schon mehrfach geladen wurde, scheint keine Probleme zu machen. Soviel zu meinen Beobachtungen. Finde es ja gut, dass ich nicht ganz alleine mit dem Problem bin. Habe eben nur durch Zufall den Thread gefunden weil ich gerade auf der Suche war, ob Strato derzeit DNS-Auslösungs-Probleme hat.... denn da fällt mir seit gestern auf, dass einige Anfragen keine Antworten liefern, da der Timeout erreicht wurde - etwas später geht es dann doch wieder... Gruß, Alex
|
frostschutz
Anmeldungsdatum: 18. November 2010
Beiträge: 7657
|
Ich mache um Angebote mit dynamischen Resourcen lieber einen Bogen. Ideal wäre ein vServer Anbieter der Resourcen fest zuteilt und davon insgesamt nicht mehr, als der Hostmaschine tatsächlich zur Verfügung stehen. Das läßt sich halt nur schwer nachprüfen... 8 CPUs in einer VM sind da irgendwie komisch und 8-16GB RAM auch. Aber das ist Geschmackssache. Aber bei hohen Ansprüchen kommt man so oder so nicht um echtes Metall herum [wenn man nicht gerade eine ganze vServer-Farm aufstellen will]. Auch wenn das dann mehr Arbeit ist, weil man die Festplatten selber im Auge haben muss, RAID einrichten muss usw. usf., da gehört dir die Leistung (abgesehen von der Netzwerkanbindung) wenigstens allein.
|
KojiCelesta
(Themenstarter)
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
AleksCee: Danke schon mal für deinen sehr hilfreichen Beitrag. Ich werde die Tage auch selbst noch ein paar Tests machen ob es auch daran liegt. Das klingt aber sehr identisch , mit deinen 1-20 Minuten könnte das auch hinkommen, selten was länger. Wenn man da 2-3 Mal im Jahr Probleme mit hat, wäre das auch noch in Ordnung. Aber das passiert gefühlt wöchentlich mindestesn 1 Mal. Außerdem ist man da selbst machtlos wenn es I/O Probleme sind, zwischen der VM und dem Host und dem Storage. Besonders wenn man mit dem Server Kunde bedient, ist das echt nicht tragbar.
|
KojiCelesta
(Themenstarter)
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
Hallo, nach einiger Zeit melde ich mich wieder. Heute ist es besonders schlimm. Das Problem tritt immer häufiger und in kleineren Abständen auf. Wir hatten heute eine größere Ausfallzeit. Teilweise geht der CPU-Load wirklich sehr hoch. ( Siehe Bild im Anhang )
Ich nehme mal an ein Load von 50 ist ziemlich schlecht. Mit dem Kommandozeilentool "htop" find ich es allerdings etwas seltsam und trotz gradischer Ansicht immernoch sehr missverständlich. Dort sieht man den prozentualen Wert aller CPUs und auch den Durchschnitt (Avg).
Allerdings ist mir aufgefallen das er, wenn der Server so langsam läuft, über 200 Tasks in der Übersicht hatte. ( Aktuell 57 ), Und bei htop die "Load average" anzeige war bei über 160. Aktuelle: 0.29, 2.53, 21.25 ( Tendenz wieder sinkend. Allerdings habe ich das Gefühl da ist ein bisschen delay im intervall wo der den Load anzeigt. Macht es Sinn mal die CPU Load dauerhaft zu protokollieren? Im Live-Monitor von htop sieht immer alles gut aus. Ich habe das Gefühl, dass man so nicht wirklich was finden wird. Dort sieht man den Load höchstens mal für 1-2 Sekunden ansteigend. Ich habe parallel aber auch eine Anfrage an Strato geschickt, obwohl ich nicht weiß ob die da überhaupt was machen können / wollen. Der Server läuft nur mit einem Plesk + DNS. Und ist immernoch bei weitem nicht ausgelastet. Kann sich so ein Phänomen sonst noch jemand erklären? Manchmal laden Webseiten einfach nicht, manche schon und manchmal nur bestimmte nicht. Das ist sehr seltsam und entzieht sich meiner Kenntniss. Wenn ich mir wenigstens sicher wäre, dass es wirklich am Hosting von Strato liegt. Weil dann könnte man anders mit denen sprechen. Kann mir vielleicht jemand ein Script nennen womit man Cpu auslastung + Task und deren CPU-Last protokollieren kann? vorab schon mal Vielen Dank für die Hilfe.
Edit: bitte auch mal den 2. Anhang cpuload2 beachten.
Die Prozesse haben keine CPU-Auslastung? Bei den meisten steht 0.00. Ist das normal? Dennoch habe ich so einen hohen Durchschnitts-CPU-Load.Und von den einzelnen Werten sieht das so aus, als ob der Server nichts zutun hätte. Oder sehe ich da was falsch?
- Bilder
|
AleksCee
Anmeldungsdatum: 21. April 2009
Beiträge: 12
|
Nur kurz von mir. Weil ich gerade sehr überrascht war das zu lesen.
Heute zwischen 08:15 und 09:45 stand bei mir auch fast alles. Alex
|
KojiCelesta
(Themenstarter)
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
Ja, wir hatten das heute den ganzen nachmittag. Ich habe erst mal versucht selbst den Fehler zu finden, aber ich finde ihn nicht. CPU-Load geht sporradisch hoch. Ich kann höchstens mal in die Anwendungslogs schauen...
Gerade eben noch mit dem Strato-Support gesprochen und die können scheinbar nichts machen. Nur wenn das Problem aktuell ist können die das Prüfen. Teilweise verständlich, aber
ich meine, ich weiß jetzt schon das der Fehler nicht behoben sein wird. Der kommt regelmäßig wieder in sporradischen Abständen. Die Mitarbeiter selber, zumindest hab ich den Eindruck. werten den V-Server ganz schön ab. Der hat mir versucht zu erklären, dass es teilweise auch alte V-Server gibt, die nicht geupdatet werden.
Die können dagegen nix machen, weil die da ja nicht drauf dürfen. Erst wenn ein Server gehackt würde oder kritische Lücken entstehen die andere Schädigen, sperren die ganze V-Server. Er meinte das
könnte zu Problemen zwischendurch führen. Aber so ganz nachvollziehbar ist das für mich nicht. Die Endlösung wird wahrscheinlich sein auf einen eigenen Root-Server zu wechseln... Ich verstehe nicht wie man da auch von
einer Verfügbarkeit von 99% sprechen kann, das ist bei einem V-Server genau genommen gelogen. ( Das Endprodukt ist ja der V-Server und dazu zählt für mich auch die Anbindung vom Host zur VM )
|
AleksCee
Anmeldungsdatum: 21. April 2009
Beiträge: 12
|
Hi, zu der Load und dem CPUS Ausschlag. Das hat nicht so viel miteinander zu tun. Die Load geht hoch wenn ein Prozess auf die Ausführung durch eine CPUS warten muss, dass ist ja nicht grundsätzlich so das die CPU zu 100% ausgelastet ist... wenn ein Prozess auf einer CPU läuft und die CPU den Prozess nicht unterbrechen kann der aber auf IO wartet, dann ist eine CPUS schonmal blockiert ohne das sie was tut... Wenn dann ein zweiter Prozess was machen will kann er nicht und du hast schon eine. Load von 2 wenn du nur eine CPUS hast... bei uns sollte das System eigentlich bei einer Load von 8 noch rund laufen... aber ich habe teilweise eine Load von 100-200 und Alls was mehr als 8 ist wartet auf jeden Fall. Ich habe heute nochmal ein Call aufgemacht mit der Bitte den Zeitraum auf dem Wirtsystem zu prüfen... mal sehen was da raus kommt. Liebe Grüße, Alex
|
KojiCelesta
(Themenstarter)
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
AleksCee schrieb: Hi, zu der Load und dem CPUS Ausschlag. Das hat nicht so viel miteinander zu tun. Die Load geht hoch wenn ein Prozess auf die Ausführung durch eine CPUS warten muss, dass ist ja nicht grundsätzlich so das die CPU zu 100% ausgelastet ist... wenn ein Prozess auf einer CPU läuft und die CPU den Prozess nicht unterbrechen kann der aber auf IO wartet, dann ist eine CPUS schonmal blockiert ohne das sie was tut... Wenn dann ein zweiter Prozess was machen will kann er nicht und du hast schon eine. Load von 2 wenn du nur eine CPUS hast... bei uns sollte das System eigentlich bei einer Load von 8 noch rund laufen... aber ich habe teilweise eine Load von 100-200 und Alls was mehr als 8 ist wartet auf jeden Fall. Ich habe heute nochmal ein Call aufgemacht mit der Bitte den Zeitraum auf dem Wirtsystem zu prüfen... mal sehen was da raus kommt. Liebe Grüße, Alex
Danke für die Aufklärung, ich hab damit noch nicht so viel gearbeitet. Generell mit Linux, aber sowas kann nicht normal sein. Zu der Zeit sind mir auch ansteigende Tasks, aufgefallen. Das macht ja dann Sinn, wenn die Tasks nicht mehr abgearbeitet werden können. Es kamen immer wieder neue Apache anfragen hinzu. Die Anfragen kommen ja weiter rein. Irgendwann wurden die dann einfach wieder weniger. Zu Spitzenzeiten hatte ich heute 225 Tasks drin. Kann natürlich auch eine andere Ursache haben, aber das es bei dir heute auch wieder vorgekommen ist finde ich schon merkwürdig...
|
KojiCelesta
(Themenstarter)
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
Hallo, ich habe eben nochmal Kontakt mit Strato gehabt. Er meinte erst, wenn der Load hoch geht und ich das auch via dem top/htop-Befehl sehen kann, sei das ein Serverproblem. Aber dann müsste doch der Prozess erkenntlich sein, der den Load verursacht oder? Das meinte ich dann auch. Der Supporter von Strato hat auch drauf geschaut und meinte da läuft ja gar nicht viel. Das merkwürdige war: Ebene hatte ich grad mal einen load von 2,irgendwas, das kann doch nicht sein das wir da schon Probleme haben auf vereinzelte Seiten zu kommen? Mein Kollege meinte er kam nicht mehr auf phpmyadmin und sein selbst entwickeltes Programm. Jedenfalls war der Mitarbeiter von Strato diesmal bereit ein Ticket aufzumachen, ich hoffe das sich das irgendwas tut.
|
AleksCee
Anmeldungsdatum: 21. April 2009
Beiträge: 12
|
Hallo, ich bin mir nicht so sicher wieso Strato das so direkt sagen kann. Also bei einem dedizierten Root-Server würde ich sagen: JA - aber bei einem VServer werden die Resourcen ja vom Wirt-System verwaltet bzw. begrenzt. Für den umschließenden Host ist ja der VServer auch nur ein Task und der kann mal in der Ausführung begrenzt werden oder wenn der Wirt-Host ein Engpass hat haben das auch automatisch alle VServer auf der selben Kiste. Die Load heißt halt einfach nur, dass auf Ausführung gewartet werden muss, wenn der Wert größer ist als die Anzahl der nutzbaren CPUs. Also Load von 1 bei einer CPU ist ok - Load von 2 bei einer CPU heißt schon, dass ein Prozess was tut der andere warten muss. Und wenn da, wie bei mir 200 bei 8 CPUs steht, die aber alle nichts tun.... würde ich doch sagen, dass da irgendwie was klemmt. Und ich bin immernoch davon überzeugt, dass es was mit dem FileSystem zu tun hat.... Alleine auch schon wegen der Postfix-Meldungen die dann kommen: 1 file system clock is 109 seconds behind local clock
1 file system clock is 111 seconds behind local clock
1 file system clock is 114 seconds behind local clock
1 file system clock is 129 seconds behind local clock
1 file system clock is 151 seconds behind local clock
1 file system clock is 159 seconds behind local clock
1 file system clock is 161 seconds behind local clock Hier mal ein Link: http://blog.scoutapp.com/articles/2009/07/31/understanding-load-averages Bin gespannt was die bei Dir raus bekommen - ich habe noch keine Antwort bekommen. Gruß, Alex
|
KojiCelesta
(Themenstarter)
Anmeldungsdatum: 27. Oktober 2014
Beiträge: 12
|
Aber man würde doch unter htop oder top sehen ob und an welchem Prozess es liegen könnte? ( Wenn am System selbst ein Problem vorliegt. )
Naja, die selben Auszüge wie du habe ich auch ein paar mal im aktuellen Maillog: 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37 | Line 67163: Nov 11 00:14:13 postfix/cleanup[17816]: warning: file system clock is 337 seconds behind local clock
Line 67266: Nov 11 01:04:34 postfix/cleanup[18159]: warning: file system clock is 196 seconds behind local clock
Line 67565: Nov 11 03:28:24 postfix/cleanup[18968]: warning: file system clock is 191 seconds behind local clock
Line 68362: Nov 11 08:04:26 postfix/cleanup[25572]: warning: file system clock is 127 seconds behind local clock
Line 68363: Nov 11 08:04:26 postfix/cleanup[25564]: warning: file system clock is 149 seconds behind local clock
Line 69510: Nov 11 10:04:58 postfix/cleanup[27237]: warning: file system clock is 220 seconds behind local clock
Line 69512: Nov 11 10:04:58 postfix/cleanup[27244]: warning: file system clock is 219 seconds behind local clock
Line 69513: Nov 11 10:04:58 postfix/cleanup[27252]: warning: file system clock is 176 seconds behind local clock
Line 69514: Nov 11 10:04:58 postfix/cleanup[27262]: warning: file system clock is 144 seconds behind local clock
Line 77216: Nov 12 00:17:33 postfix/cleanup[4926]: warning: file system clock is 572 seconds behind local clock
Line 77329: Nov 12 01:03:37 postfix/cleanup[5245]: warning: file system clock is 138 seconds behind local clock
Line 77532: Nov 12 02:09:07 postfix/cleanup[5634]: warning: file system clock is 308 seconds behind local clock
Line 157894: Nov 12 08:04:48 postfix/cleanup[13291]: warning: file system clock is 160 seconds behind local clock
Line 158589: Nov 12 09:15:53 postfix/cleanup[14244]: warning: file system clock is 110 seconds behind local clock
Line 160413: Nov 12 12:05:57 postfix/cleanup[16847]: warning: file system clock is 280 seconds behind local clock
Line 160418: Nov 12 12:07:08 postfix/cleanup[16878]: warning: file system clock is 132 seconds behind local clock
Line 160913: Nov 12 13:03:05 postfix/cleanup[18085]: warning: file system clock is 162 seconds behind local clock
Line 161178: Nov 12 14:09:15 postfix/cleanup[3070]: warning: file system clock is 252 seconds behind local clock
Line 161179: Nov 12 14:09:15 postfix/cleanup[2929]: warning: file system clock is 406 seconds behind local clock
Line 161181: Nov 12 14:09:15 postfix/cleanup[3074]: warning: file system clock is 252 seconds behind local clock
Line 161414: Nov 12 14:41:29 postfix/cleanup[4173]: warning: file system clock is 679 seconds behind local clock
Line 161474: Nov 12 14:49:22 postfix/cleanup[4202]: warning: file system clock is 962 seconds behind local clock
Line 161475: Nov 12 14:49:22 postfix/cleanup[4243]: warning: file system clock is 818 seconds behind local clock
Line 161476: Nov 12 14:49:22 postfix/cleanup[4178]: warning: file system clock is 769 seconds behind local clock
Line 161491: Nov 12 14:54:19 postfix/cleanup[4365]: warning: file system clock is 493 seconds behind local clock
Line 161492: Nov 12 14:54:19 postfix/cleanup[4370]: warning: file system clock is 479 seconds behind local clock
Line 161493: Nov 12 14:54:19 postfix/cleanup[4387]: warning: file system clock is 405 seconds behind local clock
Line 161494: Nov 12 14:54:19 postfix/cleanup[4394]: warning: file system clock is 401 seconds behind local clock
Line 163511: Nov 12 17:21:32 postfix/cleanup[6821]: warning: file system clock is 958 seconds behind local clock
Line 163581: Nov 12 17:24:42 postfix/cleanup[7279]: warning: file system clock is 188 seconds behind local clock
Line 163582: Nov 12 17:24:42 postfix/cleanup[7271]: warning: file system clock is 187 seconds behind local clock
Line 163832: Nov 12 17:42:46 postfix/cleanup[7651]: warning: file system clock is 112 seconds behind local clock
Line 163936: Nov 12 17:49:36 postfix/cleanup[7737]: warning: file system clock is 256 seconds behind local clock
Line 166630: Nov 12 22:05:36 postfix/cleanup[10894]: warning: file system clock is 145 seconds behind local clock
Line 166973: Nov 13 00:12:45 postfix/cleanup[11574]: warning: file system clock is 674 seconds behind local clock
Line 166976: Nov 13 00:14:39 postfix/cleanup[11626]: warning: file system clock is 187 seconds behind local clock
Line 167075: Nov 13 01:04:35 postfix/cleanup[11889]: warning: file system clock is 197 seconds behind local clock
|
|