brant Posted October 23, 2015 Report Share Posted October 23, 2015 Θέλω να σας εξιστορήσω την ταλαιπωρία που πέρασα τον τελευταίο ενάμιση μήνα με το συγκεκριμένο πρόβλημα. Να πάρουμε τα πράγματα από την αρχή :Παραγωγική εγκατάσταση με 2 Hyper-v 2012 domain joined. Ο ένας εγκατεστημένος από το 2013, με 6 VM (print, web, sql, AVsrv…) ξαφνικά μετά από 2 χρόνια μια Δευτέρα, όλα τα VM (win server 2012 και 2003) και ο host σέρνονται, το remote desktop για login μόνο μου παίρνει 5 ΛΕΠΤΑ… (και ~90 users γκρίνια….) Το ΣΚ πριν αυτή τη μέρα έγινε μια μεγάλη διακοπή ρεύματος, οι DC έκλεισαν και άνοιξαν όταν ήρθε το ρεύμα, οι Hyper-v δεν έκλεισαν (είχαν μεγαλύτερα UPS)Εντάξει λέω, κάτι με την επικοινωνία με το dc θα ναι restart και τέλος. Το πρόβλημα δεν έφευγε ούτε με reboot ήθελε καθαρό cold boot. Την επόμενη βδομάδα τα ίδια… Στον event viewer τίποτα στο σημαντικό, στον server manager κόκκινα όλα τα perfomanceΞεκινώ το ψάξιμο :1. Υπήρχαν συγκεκριμένα services που έτρωγαν πόρους (όλα με το svchost ) και μερικά από αυτά που παρατήρησα τα Remote Desktop, IP helper, ...2. Λέω κάτι με το δίκτυο (ή με το login στο AD ή group policy), σπάω τα teams κοιτάω κάρτες δικτύου για jumbo frames, offload κτλ - τίποτα 3. raid ή δίσκος (κανένα bad block) μπαίνω από το ιDrac ο controller και οι δίσκοι jet -τίποτα4. Μετά το έριξα στο ρεύμα : Αυτός ήταν DELL R720 οπότε από το BIOS –System settings έχω επιλέξει PERFORMANCE (και όχι performance per watt) και έχω disable τα C states & C1E states –τίποτα5. Ψάχνω οτιδήποτε έχει σχέση με VMQ (χωρίς nic teams – disable) – τίποτα6. Στο ne t κάποιος μιλούσε για “FIPS security setting” , βάζω group policy στους member serversComputer Config>>Policies>>Windows Settings>>Security Settings>>Local Policies>>Security Options>>System Cryptography>>Use FIPS compliant algorithms for encryption, hashing, and signing. == Disable - πάλι τίποτα Μια μέρα που είχα μαζί μου και πιτζάμες και παρατηρώντας τα services ξαφνικά 3 και δέκα το βράδυ χωρίς reboot όλα πέφτουν στο 0, cpu 0, network 0, και το μηχάνημα και όλα τα VM «πετάνε» !!!Στον event viewer κανένα σφάλμα αλλά κοιτώντας καλύτερα εκείνη την στιγμή ξεκίνησε και σταμάτησε το … Windows UpdateHyper-v όταν ο… καιρός είναι βροχερόςΠροσφάτως (πριν από κανένα εξάμηνο και) βρήκα provider, έστησε ένα ασύρματο link και μου έδωσε μια σύνδεση 45/45 (ονομαστική) προς το net. Μέχρι τότε είχα 4-5 dsl links και τα έδινα load balance στο κόσμο αλλά οι απαιτήσεις (ειδικά με Office 365) αυξάνονται. Το ασύρματο αυτό λοιπόν ήξερα πως δουλεύει μέρα-νύχτα και κάποια στιγμή τα γύρισα όλα να βγαίνουν από εκεί. Αυτό που ΔΕΝ ήξερα ήταν πως δεν δουλεύει στην ομίχλη, οπότε το καλοκαιράκι ήταν καλά με τα πρωτοβρόχια και τη πρωινή πάχνη όχι. Για κάποιο λόγο που δεν θυμάμαι ξαναγύρισα στα dsl links και το πρόβλημα από τον Hyper-v εξαφανίστηκε.- Quote Link to comment Share on other sites More sharing options...
Blackman Posted October 23, 2015 Report Share Posted October 23, 2015 αναζητόντας το φάντασμα!! Quote Link to comment Share on other sites More sharing options...
nkspeed Posted October 26, 2015 Report Share Posted October 26, 2015 Μου εχει τυχει το windows update να ρουφαει το 50% του cpu performance. Τοση καθυστεριση νομιζω ειναι i/o. NK Quote Link to comment Share on other sites More sharing options...
brant Posted October 27, 2015 Author Report Share Posted October 27, 2015 Αν ήταν i/o πως εξηγείς πως το πρόβλημα εμφανίζεται κάθε 10-12 μέρες και εξαφανίζεται μετά από 1~2 ημέρες (χωρίς κάτι ιδιαίτερο αντε να τρέξω κανέα gpupdate) ? Στον event viewer τίποτα (έκλεισα μόνο το User Access Loging Service γιατί είχα πολλά events ESENT id 326 & 327) Στο performance monitor - Physical disk - %idle time 100, Avg Disk Queue Length : 0,001 (δίσκοι dell sas 15K) Εχω μεταφέρει τα περισσότερα vm σε άλλο host (ίδιο dell r720) και θα τον κάνω πειράματα μέχρι να βρω ακριβώς την αιτία Είχα παρατηρήσει όμως κάτι περίεργο στον task manager τα System Interrupts είχαν 2-3 % cpu κάτι που δεν έχω ξαναδεί σε άλλο hyper-v - αν ξέρετε κάτι πείτε Quote Link to comment Share on other sites More sharing options...
nkspeed Posted October 27, 2015 Report Share Posted October 27, 2015 Παιζει να ηταν καποια script μαζεμενα ή κανενα backup util? Το σεναριο SQL και Dynamic memory? NK Quote Link to comment Share on other sites More sharing options...
brant Posted October 29, 2015 Author Report Share Posted October 29, 2015 Καλημέρα, backup δεν τρέχει (τώρα θα δοκιμάσω το veeam), SQL έχω αλλά 1) το συγκεκριμένο vm δεν έχει dynamic memory και 2) είναι SQL 2012 που είναι dynamic mem aware Quote Link to comment Share on other sites More sharing options...
nkspeed Posted October 29, 2015 Report Share Posted October 29, 2015 Δεν πιστευω να εχει ο host antivirus ? ΝΚ Quote Link to comment Share on other sites More sharing options...
brant Posted October 30, 2015 Author Report Share Posted October 30, 2015 Όχι βέβαια.. ούτε και κανένα από τα vm Το ένα vm όμως είναι AV Server (Symantec SB on win2003, gen1 vm με fix ram) κατά διαστήματα τραβάει ζόρια ειδικά με αυτή την δική του βάση δεδομένων. Κάθε φορά που έχω το πρόβλημα σε όλο το host, αυτό το συγκεκριμένο vm είναι μόνιμα η cpu στο 100% Quote Link to comment Share on other sites More sharing options...
nkspeed Posted October 30, 2015 Report Share Posted October 30, 2015 Ξαναδιαβασα το αρχικο σου ποστ "<αφνικά 3 και δέκα το βράδυ χωρίς reboot όλα πέφτουν στο 0, cpu 0, network 0, και το μηχάνημα και όλα τα VM «πετάνε» !" δηλαδη οταν εχεις προβλημα ηcpu του host που ειναι? των vm? NK Quote Link to comment Share on other sites More sharing options...
brant Posted October 30, 2015 Author Report Share Posted October 30, 2015 Είναι λίγο περίεργο για τον εξής λόγο : Όταν παρουσιάζεται το πρόβλημα o host (cpu) δεν πέφτει κάτω από 30-40% (χωρίς το πρόβλημα πέφτει και στο 1%) Ομοίως τα περισσότερα vm "δείχνουν" ένα 10-30% αλλά μόλις κάνεις κάτι remote desktop ή ανοίξεις ένα task manager πάνε στο 100% . εκείνη τη στιγμή και στο Ping ακόμα παίρνω καθυστέρηση 3-6 ms. Εξαίρεση αυτός που ανέφερα ο AVserver που είναι μόνιμα στο 100% Ακόμη ένα παράδειγμα Όταν έχω το πρόβλημα και μια απλή html σελίδα να ζητήσω από το ένα VM που είναι μόνο IIS θα πάρω απάντηση μετά 30 sec και για όλο αυτό το διάστημα η cpu στο 100% Επίσης δεν είναι κάτι συγκεκριμένο (πχ ένα service) αυτό που δημιουργεί αυτό το πανικό. την μια στιγμή βλέπεις να ζορίζονται services (svchost) που είναι local system (ip helper, gp client) την άλλη αυτά πού είναι Network service (RDS) (δεν έχει να κάνει με δίκτυο, αυτός o host και μερικοί άλλοι είναι σε ένα cisco sg500 έχω μόνο fast spanning tree και τίποτε άλλο- μονο αυτός έχει πρόβλημα) Quote Link to comment Share on other sites More sharing options...
nkspeed Posted October 31, 2015 Report Share Posted October 31, 2015 Δεν εχεις δοκιμασει την ωρα του προβληματος να κατεβαζεις τα vm να δεις αν προκλειται απο καποιο vm? NK Quote Link to comment Share on other sites More sharing options...
Blackman Posted November 2, 2015 Report Share Posted November 2, 2015 το πρόβλημα υφίστατε ακόμα; γιατί εγώ κατάλαβα ότι διορθώθηκε! Quote Link to comment Share on other sites More sharing options...
Billytsik Posted November 10, 2015 Report Share Posted November 10, 2015 Ενα παρόμοιο πρόβλημα που είχα οφείλονταν σε υπερβολικό paging που έκανε ένα vm λόγο χαμηλής asigned ram. Το vm είχε λίγη ram και αναγκαζόταν να δουλεύει με εικονική μνήμη που μου ανέβαζε τρελά το ΙΟ & CPU στον host. Από αυτό υπέφεραν όλα τα υπόλοιπα vms και ο host. Όταν του έδωσα λίγο παραπάνω μνήμη στο vm όλα ηρέμησαν. Quote Link to comment Share on other sites More sharing options...
ankso Posted January 6, 2016 Report Share Posted January 6, 2016 Δοκίμασε να κάνεις αυτό που λέει ο Νίκος, να προσπαθήσεις όταν υπάρχει το πρόβλημα να κλείνεις ένα-ένα VM για να κάνεις το αρχικό troubleshooting στο αν φταίει κάποιο vm ή το πρόβλημα είναι στο hyper-v host και κάτω. Quote Link to comment Share on other sites More sharing options...
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.