
Dato l’alto contenuto nerdico del post, allego immagine per rendervi il post comunque utile.
Oggi un server linux (che è in una server farm remota) mi propone vari aggiornamenti, anche del kernel.
Decido di aggiornare e, visto che ho aggiornato anche il kernel, di fare un reboot.
Parte la procedura di shutdown, ma pare che non accada nulla. C’è la scritta “The system is going down for reboot NOW!” ma niente. Da un’altro server pingo il disgraziato che risponde ai ping. Via ssh, però, non riesco a rientrare. Passano i minuti e penso che dovrò aprire una chiamata per poter accedere alla server farm.
Quando ho perso ogni speranza, il server mi dice di aver annullato il riavvio e posso rientrare. Essendo quasi certo che il colpevole è vmware che non riusciva ad andare giù, lo stoppo. Strano però: avevo sospeso l’esecuzione dell’unica macchina virtuale che vi gira prima di far partire il reboot.
Rivado con il reboot è tutto va per il meglio: il sistema torna in piedi.
Rientro via ssh e faccio partire vmware…. non parte. Questo è normale: ogni volta che si aggiorna il kernel bisogna riconfigurarlo. vmware-config.pl, volendo fare il build di moduli per il kernel in uso, si lamenta. Ha ragione: installo i sorgenti del nuovo kernel così sarà in grado di procedere con le compilazioni necessarie.
Faccio finalmente ripartire vmware e mi collego alla sua console via web (è vmware 2), faccio il resume della macchina virtuale in pausa e… la macchina non riparte. Ci provo varie volte ma niente.
Non sapendo il motivo, l’unica cosa è andare a vedere i file di log:
Jul 29 09:12:08.488: vmx| [msg.License.product.expired] This product has expired.
Jul 29 09:12:08.488: vmx| Be sure that your host machine’s date and time are set correctly.
Jul 29 09:12:08.488: vmx| There is a more recent version available at the VMware Web site: “http://www.vmware.com/info?id=4″.
Jul 29 09:12:08.488: vmx| —————————————-
Jul 29 09:12:08.502: vmx| Module License power on failed.
Bene: devo installare la nuova versione, la RC1 (mannaggia a me che non ho messo il server prima versione invece che la beta della 2).
Scarico, installo, configuro, faccio partire.
Il server va in piedi, mi collego con il browser alla console e… niente… non va, non riesco a collegarmi… che mattinata di merda penso. Qualche minuto dopo, invece, misteriosamente e miracolosamente torna a funzionare anche l’interfaccia web.
Questo va ad aggiungersi alla meravigliosa giornata di ieri, quando una persona ha ben pensato di fare una query che è andata a sputtanare tutti i dati di una tabella (non è la prima volta che combina un casino simile). Si decide di fare il restore della tabella per scoprire che… il backup di quell’unico database non c’è. Ci sono i backup di ogni giorno della settimana di ogni database di ogni server ma quello no:
root@slave:/mnt/backup_slave# ls sabato/dbx
root@slave:/mnt/backup_slave# ls venerdi/dbx
root@slave:/mnt/backup_slave# ls giovedi/dbx
(alla fine, dato che i dati incriminati non venivano aggiornati da qualche mese, il restore siamo riusciti a farlo lo stesso partendo da uno dei vari dump che ho sparsi per il file system)
Voglio andare in ferie.
e chissà cos’ha trovato cassano in lei. A volte la vita è indecifrabile.