Jump to content

Hyper-v και high CPU usage σε όλα τα VMs


brant
 Share

Recommended Posts

Θέλω να σας εξιστορήσω την ταλαιπωρία που πέρασα τον τελευταίο ενάμιση μήνα με το συγκεκριμένο πρόβλημα.

 

Να πάρουμε τα πράγματα από την αρχή :
Παραγωγική εγκατάσταση με 2 Hyper-v 2012 domain joined. Ο ένας εγκατεστημένος από το 2013, με 6 VM (print, web, sql, AVsrv…) ξαφνικά μετά από 2 χρόνια μια Δευτέρα, όλα τα VM (win server 2012 και 2003) και ο host σέρνονται, το remote desktop για login μόνο μου παίρνει 5 ΛΕΠΤΑ… (και ~90 users γκρίνια….)

 

Το ΣΚ πριν αυτή τη μέρα έγινε μια μεγάλη διακοπή ρεύματος, οι DC έκλεισαν και άνοιξαν όταν ήρθε το ρεύμα, οι Hyper-v δεν έκλεισαν (είχαν μεγαλύτερα UPS)
Εντάξει λέω, κάτι με την επικοινωνία με το dc θα ναι restart και τέλος. Το πρόβλημα δεν έφευγε ούτε με reboot ήθελε καθαρό cold boot.

Την επόμενη βδομάδα τα ίδια…

 

Στον event viewer τίποτα στο σημαντικό, στον server manager κόκκινα όλα τα perfomance
Ξεκινώ το ψάξιμο :
1. Υπήρχαν συγκεκριμένα services που έτρωγαν πόρους (όλα με το svchost ) και μερικά από αυτά που παρατήρησα τα Remote Desktop, IP helper, ...
2. Λέω κάτι με το δίκτυο (ή με το login στο AD ή group policy), σπάω τα teams κοιτάω κάρτες δικτύου για jumbo frames, offload κτλ - τίποτα

3. raid ή δίσκος (κανένα bad block) μπαίνω από το ιDrac ο controller και οι δίσκοι jet -τίποτα
4. Μετά το έριξα στο ρεύμα : Αυτός ήταν DELL R720 οπότε από το BIOS –System settings έχω επιλέξει PERFORMANCE (και όχι performance per watt) και έχω disable τα C states & C1E states –τίποτα
5. Ψάχνω οτιδήποτε έχει σχέση με VMQ (χωρίς nic teams – disable) – τίποτα
6. Στο ne t κάποιος μιλούσε για “FIPS security setting” , βάζω group policy στους member servers
Computer Config>>Policies>>Windows Settings>>Security Settings>>Local Policies>>Security Options>>System Cryptography>>Use FIPS compliant algorithms for encryption, hashing, and signing. == Disable - πάλι τίποτα

 

Μια μέρα που είχα μαζί μου και πιτζάμες και παρατηρώντας τα services ξαφνικά 3 και δέκα το βράδυ χωρίς reboot όλα πέφτουν στο 0, cpu 0, network 0, και το μηχάνημα και όλα τα VM «πετάνε» !!!
Στον event viewer κανένα σφάλμα αλλά κοιτώντας καλύτερα εκείνη την στιγμή ξεκίνησε και σταμάτησε το … Windows Update

Hyper-v όταν ο… καιρός είναι βροχερός

Προσφάτως (πριν από κανένα εξάμηνο και) βρήκα provider, έστησε ένα ασύρματο link και μου έδωσε μια σύνδεση 45/45 (ονομαστική) προς το net. Μέχρι τότε είχα 4-5 dsl links και τα έδινα load balance στο κόσμο αλλά οι απαιτήσεις (ειδικά με Office 365) αυξάνονται.

Το ασύρματο αυτό λοιπόν ήξερα πως δουλεύει μέρα-νύχτα και κάποια στιγμή τα γύρισα όλα να βγαίνουν από εκεί. Αυτό που ΔΕΝ ήξερα ήταν πως δεν δουλεύει στην ομίχλη, οπότε το καλοκαιράκι ήταν καλά με τα πρωτοβρόχια και τη πρωινή πάχνη όχι.

Για κάποιο λόγο που δεν θυμάμαι ξαναγύρισα στα dsl links και το πρόβλημα από τον Hyper-v εξαφανίστηκε.-

Link to comment
Share on other sites

Αν ήταν i/o πως εξηγείς πως το πρόβλημα εμφανίζεται κάθε 10-12 μέρες και εξαφανίζεται μετά από 1~2 ημέρες (χωρίς κάτι ιδιαίτερο αντε να τρέξω κανέα gpupdate) ?

Στον event viewer τίποτα (έκλεισα μόνο το User Access Loging Service γιατί είχα πολλά events ESENT id 326 & 327)

 

Στο performance monitor - Physical disk - %idle time 100,    Avg Disk Queue Length : 0,001  (δίσκοι dell sas 15K)

 

Εχω μεταφέρει τα περισσότερα vm σε άλλο host (ίδιο dell r720) και θα τον κάνω πειράματα μέχρι να βρω ακριβώς την αιτία

 

Είχα παρατηρήσει όμως κάτι περίεργο στον task manager τα System Interrupts είχαν 2-3 % cpu κάτι που δεν έχω ξαναδεί σε άλλο hyper-v - αν ξέρετε κάτι πείτε

Link to comment
Share on other sites

Όχι βέβαια.. ούτε και κανένα από τα vm

Το ένα vm όμως είναι AV Server (Symantec SB on win2003, gen1 vm με fix ram) κατά διαστήματα τραβάει ζόρια ειδικά με αυτή την δική του βάση δεδομένων.

Κάθε φορά που έχω το πρόβλημα σε όλο το host, αυτό το συγκεκριμένο vm είναι μόνιμα η cpu στο 100%

Link to comment
Share on other sites

Ξαναδιαβασα το αρχικο σου ποστ "<αφνικά 3 και δέκα το βράδυ χωρίς reboot όλα πέφτουν στο 0, cpu 0, network 0, και το μηχάνημα και όλα τα VM «πετάνε» !"

 

δηλαδη οταν εχεις προβλημα ηcpu του host που ειναι? των vm?

 

 

NK

Link to comment
Share on other sites

Είναι λίγο περίεργο για τον εξής λόγο :

Όταν παρουσιάζεται το πρόβλημα o host (cpu) δεν πέφτει κάτω από  30-40% (χωρίς το πρόβλημα πέφτει και στο 1%)

Ομοίως τα περισσότερα vm "δείχνουν" ένα 10-30% αλλά μόλις κάνεις κάτι remote desktop ή ανοίξεις ένα task manager πάνε στο 100% .

εκείνη τη στιγμή και στο Ping ακόμα παίρνω καθυστέρηση 3-6 ms. Εξαίρεση αυτός που ανέφερα ο AVserver που είναι μόνιμα στο 100%

Ακόμη ένα παράδειγμα

Όταν έχω το πρόβλημα και μια απλή html σελίδα να ζητήσω από το ένα VM που είναι μόνο IIS θα πάρω απάντηση μετά 30 sec και για όλο αυτό το διάστημα η cpu στο 100%

 

Επίσης δεν είναι κάτι συγκεκριμένο (πχ ένα service) αυτό που δημιουργεί αυτό το πανικό.  την μια στιγμή βλέπεις να ζορίζονται services (svchost) που είναι local system (ip helper, gp client) την άλλη αυτά πού είναι Network service (RDS)

 

(δεν έχει να κάνει με δίκτυο, αυτός o host και μερικοί άλλοι είναι σε ένα cisco sg500 έχω μόνο fast spanning tree και τίποτε άλλο- μονο αυτός έχει πρόβλημα)

Link to comment
Share on other sites

  • 2 weeks later...

Ενα παρόμοιο πρόβλημα που είχα οφείλονταν σε υπερβολικό paging που έκανε ένα vm λόγο χαμηλής asigned ram.

Το vm είχε λίγη ram και αναγκαζόταν να δουλεύει με εικονική μνήμη που μου ανέβαζε τρελά το ΙΟ & CPU στον host.

Από αυτό υπέφεραν όλα τα υπόλοιπα vms και ο host.

Όταν του έδωσα λίγο παραπάνω μνήμη στο vm όλα ηρέμησαν.   

Link to comment
Share on other sites

  • 1 month later...

Δοκίμασε να κάνεις αυτό που λέει ο Νίκος, να προσπαθήσεις όταν υπάρχει το πρόβλημα να κλείνεις ένα-ένα VM για να κάνεις το αρχικό troubleshooting στο αν φταίει κάποιο vm ή το πρόβλημα είναι στο hyper-v host και κάτω.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
 Share

×
×
  • Create New...