Ajout howto/redémarrer_crans.md

2024-11-09 18:09:41 +01:00 · 2024-11-09 18:09:41 +01:00 · 67af7977b1
parent d1ef8bac02
commit 67af7977b1
1 changed files with 106 additions and 0 deletions
--- a/howto/redemarrer_crans.md
+++ b/howto/redemarrer_crans.md
@ -0,0 +1,106 @@
 # Comment redémarrer le Crans ?
 Le Crans dispose de beaucoup de serveurs physiques en salle opérateur de l'ENS
 (actuellement en SQ39), ainsi que beaucoup de machines virtuelles tournant sur
 les hyperviseurs. De temps en temps (environ une fois par an), vous serez
 amené⋅es à redémarrer l'entièreté des machines, par exemple pour recâbler la
 baie, et il faudra alors faire les choses dans l'ordre. Voici un petit guide
 sur comment faire précisément.
 ## Préparation
 Tout d'abord, il faut discuter quelques semaines (~2 mois) en avance du besoin
 d'un redémarrage : ce n'est pas un acte à prendre à la légère car des personnes
 (même des vieilleux !) utilisent des services du Crans dans la vie de tout les
 jours, il faut donc éviter de les couper trop souvent. Cependant, pour faire
 des mises à jour majeures, du recâblage, des changements de serveurs, ... cela
 peut s'avérer nécessaire.
 Il faut discuter du besoin d'un redémarrage pendant au moins 2 IN au préalable
 pour bien définir ce qu'il y a précisément à faire, et quelles seront les
 nounous présentes pour aider. Bien évidemment, les apprenti⋅es sont les
 bienvenu⋅es, mais il est impératif que des nounous soient présentes pour bien
 expliquer ce qu'il se passe.
 Ensuite, une fois que le besoin de redémarrer est bien acté, il faut prévenir
 la **totalité** des adhérent⋅es et des ancien⋅nes adhérent⋅es du Crans avec ce
 qu'on appelle communément un "mail all". Pour cela, vous devez vous rendre sur
 la VM `re2o`, écrire le mail dans un nouveau dossier puis exécuter le script
 d'envoi de mail. Ce mail doit être envoyé au minimum deux semaines avant la
 coupure, voire plus si possible. Il ne faut pas hésiter en plus de cela de
 prévenir de nouveau les adhérent⋅es via d'autres plateformes de communications
 (newsletter BdE, Discord, ...).
 ## Avant la coupure
 Le jour de la coupure, le mieux est de réunir toutes les personnes souhaitant
 participer (sans compter les retardaires) dans le bureau du Crans (actuellement
 en MB87). Une bonne idée est de prendre le temps qu'il faut pour clairement
 poser le plan du jour sur un tableau avec les différents objectifs à réaliser,
 potentiellement en parallèle. N'hésitez pas à vous répartir sur différentes
 tâches effectuables simultanément si vous êtes suffisamment nombreux⋅ses
 (compter au moins deux personnes dont une nounou par tâche pour ne laisser
 personne seul).
 Vous pouvez au préalable ou par la suite récupérer les badges du Crans ouvrant
 la salle opérateur SQ39 au PC sécurité : prendre deux badges au lieu d'un est
 une plutôt bonne idée pour qu'un groupe de personnes puisse faire un
 aller-retour sans se retrouver coincé à l'extérieur. Ne pas hésiter également à
 prendre à boire, de préference dans des récipients qui ne se renversent pas
 facilement et des boissons qui ne tâchent pas trop.
 En parallèle, vous pouvez garder une trace de toutes les actions effectuées
 dans la journée en notant tout ce que vous faites sur un pad (qui n'est pas
 hébergé au Crans) pour pouvoir retracer toutes les actions, ce qui est pratique
 lorsque que quelque chose casse (un peu souvent donc).
 ## Éteindre les serveurs
 Pour éviter au maximum les problèmes, l'extinction des serveurs peut se faire
 dans un ordre important peu, sauf pour quelques machines importantes. Voici
 un ordre qui fonctionne avec l'infrastructure actuelle :
 - serv[ENS]
 - VM adh (passer par Proxmox sur stitch/odlyd/gulp)
 - hyperviseurs adh : stitch/odlyd/gulp
 - zamok
 - VM adm (sauf routeur-sam !, passer par Proxmox sur sam)
 - hyperviseurs adm (sauf sam !) : jack/daniel
 - cameron
 - tealc
 - sam
 Surtout ne pas hésiter à vous ssh sur les machines au préalable pour ne pas se
 retrouver coincé car le LDAP adm est éteint.
 ## Rallumer les serveurs
 De même que pour l'extinction, l'allumage des serveurs peut se faire dans à peu
 près n'importe quel ordre, sauf pour quelques machines importantes. Voici un
 ordre qui fonctionne avec l'infrastructure actuelle :
 - sam et routeur-sam
 - tealc
 - cameron
 - hyperviseurs adm : jack/daniel
 - zamok
 - VM adm (passer par Proxmox sur sam)
 - hyperviseurs adh : stitch/odlyd/gulp
 - VM adh (passer par Proxmox sur stitch/odlyd/gulp)
 - serv[ENS]
 Attention : pour zamok, vous devez redémarrer le service postfix avec
 ```bash
 sudo systemctl restart postfix.service
 ```
 après avoir rétabli le réseau et **avant** de redémarrer redisdead afin de ne
 perdre aucun mail. Plus exactement : il faut vérifier que le dossier
 `/home/mail` sur zamok contienne des centaines d'adhérent⋅es en non pas
 seulement quelques dizaines.
 Ensuite, assurez-vous bien que **TOUS** les serveurs soient allumés, dont ceux
 de serv[ENS] ! Profitez-en alors pour faire des mises à jour nécessaires
 pendant que les adhérent⋅es ne sont pas encore de retour sur zamok et les
 autres services.