469 lines
17 KiB
Markdown
469 lines
17 KiB
Markdown
# Réunion du Collège Technique
|
|
|
|
* Date : 30 Septembre 2019
|
|
* Début : 19h
|
|
* Fin : 21h25
|
|
* Lieu : Salle de conf du PDJ
|
|
* <<Pad>>
|
|
|
|
## Présents
|
|
|
|
* Mikachu
|
|
* Krokmou
|
|
* Erdnaxe
|
|
* Pollion
|
|
* Esum
|
|
* Vulcain
|
|
* Elkmaennchen
|
|
|
|
### Des gentils première année
|
|
|
|
* h@chi.no
|
|
* !TinyLinux
|
|
* Aka
|
|
* Charles
|
|
* Batablu
|
|
* Tinette
|
|
* Armand2
|
|
|
|
## Manger
|
|
|
|
Sarcozy se propose de nous ramener des pâtes de la soirée C4, donc on accepte
|
|
et on commande des pâtes.
|
|
|
|
## Ordre du Jour
|
|
|
|
On commence par faire un bilan des derniers événements
|
|
|
|
## Incidents et autres interruptions de services
|
|
|
|
### Crash de thot le 21 Juillet 2019
|
|
|
|
Pollion a tenté un changement de disque dur de Thot. À cause de l'agencement
|
|
non protestant des disques (RAID logiciel sur 4 RAID0 gérés par une carte
|
|
propriétaire HP) thot a crashé. On l'a réinstallé.
|
|
Mais pas trop le choix sur les Gen7-, on a gardé un truc de vieux sur les
|
|
Gen8+ alors que le mode HBA sur une carte Raid HP aurait pu éviter ça.
|
|
Le Raid logiciel c'est coool et je suis de l'avis que Raid bien fait
|
|
logiciel > Raid matériel « boîte noir déconnante »
|
|
|
|
Pour plus d'informations, allez
|
|
lire : <https://wiki.crans.org/CransTechnique/MaintenancesEtIncidents/20Juillet2019>
|
|
|
|
On manque de compétences sur ces sujets, mais aller tester à ServENS est une
|
|
bonne idée et c'est ce que Pollion a fait !
|
|
|
|
Faire un séminaire sur le stockage ? RAID, ZFS, NFS, iSCSI ... ? -- Mikachu,
|
|
qui se propose pour le faire un jour ==> Cool.
|
|
|
|
### Tocardise de Pollion
|
|
|
|
En bossant sur les radius, Pollion n'est apperçu qu'Odlyd n'était pas du tout
|
|
dans la conf des switches. Il a donc décidé de le rajouter. Pour ça il a voulu
|
|
utiliser le script re2o de provisionning des switches.
|
|
|
|
Après une rapide discussion sur la non documentation de ce script, il a essayé
|
|
de le modifier pour le rendre plus fonctionnel, avec un menu d'aide et
|
|
notamment un dry-run. Bon, il avait une erreur dans son script et il s'est
|
|
planté, il a lancé le provisionning en mode normal au lieu de dry-run. Résultat
|
|
des courses, il y a eu une petite confusion sur les conf des switches du
|
|
batiment M. En voulant réparer son erreur, il s'est rendu compte que plein de
|
|
switches étaient mal enregistrés dans la BDD (un arping ne donnait pas la bonne
|
|
MAC, donc soit c'était un problème de switch mal enregistrés, soit c'était une
|
|
permutation de conf). Dans le doute, il faut prendre la pire situation, donc il
|
|
s'est tappé une visite de la plupart des locaux techniques avec un cable série
|
|
pour vérifier ça à 2h du mat.... Ça lui apprendra.
|
|
En plus, les switches du RU n'ont pas réussi à reboot tout seul, mais comme
|
|
c'était les vacances le RU était fermé. C'est réglé.
|
|
Faudrait monitorer les switches (erdnaxe ?).
|
|
|
|
### Inondation du -1I --> Coupure
|
|
|
|
On ne pouvait pas faire grand chose. L'eau chaude du I, J, H était aussi down.
|
|
Je pense que les gens sont plus intéressés par l'eau chaude que internet (enfin
|
|
quoique...).
|
|
|
|
### Maintenance d'Août 2019
|
|
|
|
On a profité qu'il n'y ait plus d'électricité pendant un après-midi. On avait
|
|
prévenu les adhérents via un mailall.
|
|
|
|
Ce qui était prévu :
|
|
|
|
* Changement du Switch de la baie
|
|
* Agrandissement de {{{/var/mail}}}
|
|
* Fin de la migration vers le subnet 185.230.76.0/22 (à nous, pas à l'ENS)
|
|
|
|
vulcain à croisé la DSI et chez eux c'est la guerre :
|
|
/!\ ON PERD NOS IP LE 15 OCTOBRE. AAAAAAAH !!!! DE TOUTES FACONS DEBUT NOVEMBRE
|
|
YA PLUS DIPV4 !!!! C'EST LA FIN DU MMONDE !!!!! AAAAAAHHHHHHHHAAAAAAHHHHH !!!!
|
|
|
|
* Mise à jour de la baie
|
|
* Mise à jour du bios des virtualiseurs
|
|
* Mise à jour du backbone
|
|
|
|
Ce qui a été fait :
|
|
|
|
* Changement du Switch de la baie
|
|
* Agrandissement de {{{/var/mail}}}
|
|
* Mise à jour de la baie --> IMPOSSIBLE
|
|
* Vérification des failovers, radius, postgresql (qui n'avait pas sa partition
|
|
montée lol)...
|
|
|
|
`>> On n'a pas réparé le soucis avec le routage des IPv4 publiques Cr@ns. <<`
|
|
|
|
> Faut trouver une solution et réparer.
|
|
|
|
Pour les détails, voir le paragraphe suivant (quelle cohérence \o/)
|
|
|
|
## Retour sur les décisions de la dernière IN
|
|
|
|
[dernière IN](./2019_06_04.md)
|
|
|
|
On va annoncer les points dans le même ordre
|
|
|
|
## Maintenance baie
|
|
|
|
Le switch a été changé.
|
|
|
|
## Quid des mails ?
|
|
|
|
On a agrandi `/var/mail/` et on a viré les % réservés à root dans cette
|
|
partition.
|
|
|
|
On attribue un coeur en plus à redisdead pour qu'il arrête de crier à chaque
|
|
fois qu'il fait une compression ?
|
|
|
|
Je doute que ça règle le soucis, il va jsute prendre 100% de 2cpu
|
|
pendant ~2fois moins longtemps
|
|
On limite les performances dispo pour le process ?
|
|
On rallonge le temps passé à 100% avant de lancer une alerte ? -> pas con (oui
|
|
je sais o:) :D)
|
|
|
|
-> ça représente ~5min
|
|
|
|
erdnaxe vient de monter l'alerte à >10mn. On passe à 15mn si ça ne suffit pas.
|
|
On le met dans Ansible.
|
|
|
|
## Sputnik (Soyouz2) <https://lutim.crans.org/rKdWLFev/7gU52JVF.jpeg>
|
|
|
|
erdnaxe n'a pas trop envie d'être seul devant Soyouz2, en vrai le minimum
|
|
syndical a été installé. Il faut maintenant tout migrer.
|
|
En réalité le taf à faire ici correspond à une migration BCFG2 -> Ansible.
|
|
|
|
C'est un projet parfait pour un apprenti : <https://phabricator.crans.org/T443>
|
|
et des apprentis sont motivés, c'est cool --> Hachino, TinyLinux, Batablu (si
|
|
d'autres apprentis sont motivés, feel free to join !)
|
|
|
|
erdnaxe par contre est ultra volontaire pour former des codeurs Ansible et
|
|
relire des MR.
|
|
|
|
En parlant de wiki on nous signale des soucis, Hachino dit que de façon très
|
|
bizarre, il lui arrive de changer de theme, erdnaxe dit qu'il a déjà eu le
|
|
soucis, on ira regarder.
|
|
|
|
## Mettre à jour les serveurs de backup
|
|
|
|
`omnomnom` et `zephyr` ont enfin été migrés sous Stretch par Vulcain,
|
|
encadré par Pollion. Et ce, avant la release de Buster eheh.
|
|
et les webnews ? Nope.
|
|
|
|
## Titanic
|
|
|
|
Il y avait un gros soucis avec le DNS, problèmes de permissions and co. Le DNS
|
|
était à genoux sur tous les serveurs, les zones ne se généraient plus depuis
|
|
des mois. Ça cassait DNSSec mais puisque personne ne valide ça n'embêtait
|
|
personne, et vu que Silice et Soyouz sont surdimensionnés, ils n'avaient pas le
|
|
problème de perf. Pollion a corrigé tout ça, Titanic n'est plus du tout à
|
|
genoux, et DNSSec marche \o/
|
|
|
|
## Boeing
|
|
|
|
Pour remplacer titanic, c'est en pratique la même tache que Soyouz2.
|
|
|
|
## Prometheus et fy
|
|
|
|
Actuellement les problèmes de monitoring sont envoyés sur un chan irc
|
|
idoine[^ça veut dire quoi ?] : #monitoring.
|
|
|
|
LE MONITORING EST CLEAN ! et ouaip le crans n'a jamais aussi été propre (On
|
|
parle bien d'un bot d'esum fait tourner de son côté qui est utilisé pour plein
|
|
d'autre truc et non documenté ?)
|
|
|
|
Le monitoring des bornes a bien été mis en place. Ça a pas mal spammé quand le
|
|
controlleur a été coupé un moment pendant les vacances mais c'est revenu à la
|
|
normale. On continue le monitoring à fond cette année. Des volontaires ?
|
|
|
|
<http://lutim.crans.org/IGaYWBqh/fA9qZePT.png>
|
|
|
|
Problème de la persistance sur 25jours. Censé être trivial à fix
|
|
dans {{{/etc/default/prometheus}}}, mais erdnaxe est un tocard et à fail la
|
|
dernière fois qu'il a tenté de changer ça (j'ai ptetre juste oublié de restart
|
|
le service avec la fatigue)
|
|
Niveau espace disque la VM risque d'etre limite pour contenir 1an, mais l'algo
|
|
de compression a des surprises et il se pourrait que ça marche au final. Il
|
|
faudrait récupérer moins d'info inutiles en SNMP pour nettoyer la bdd
|
|
prometheus.
|
|
|
|
Grafana utilise le CAS ?
|
|
Non mais il faudrait. Il faut définir dans NGINX le fait d'aller chercher le
|
|
CAS et de passer le nom d'utilisateur en variable.
|
|
|
|
Réinstallation de fy ?
|
|
On backup quoi ? munin
|
|
On réinstalle juste prometheus ?
|
|
|
|
Ok pour la réinstallation, on backup munin je pense que ça suffit.
|
|
|
|
QUESTION IMPORTANTE POUR FAIRE AVANCER/MOTIVER ERDNAXE :
|
|
Prometheus et les serveurs sous Stretch => est-ce que l'on prend le paquet de
|
|
backport qui monitore en plus Systemd et APT (et donc qui remplace monit et
|
|
munin entièrement de ce que j'ai vu) ?
|
|
|
|
> It's a go.
|
|
|
|
Dans le dernier épisode :
|
|
|
|
Est-ce que l'on formatte fy à terme sur buster avec Prometheus ? +1 pour le
|
|
formatage une fois qu'on a une POC de Prometheus qui fait bien tout ce qu'on
|
|
veut :)
|
|
On va tester le downslampling sur la vm et quand tout marchera bien, fy fera du
|
|
monitoring.
|
|
|
|
Et on reinstalle quoi dessus ? Que prometheus.
|
|
Le souci du stockage qui grossit à l'infini a été résolu ? A priori, avec
|
|
prometheus 2 (donc sous buster), c'est mieux géré, il droppe ce qui est plus
|
|
vieux que $jours (mais il ne sait pas faire de downsampling (= sur les données
|
|
plus anciennes, ne garder que des tendances et pas toutes les données)
|
|
|
|
On peut peut-être continuer à garder Munin s'il fait du downsampling, et que
|
|
les vieux s'en servent ça peut aider à proposer un diagnostic non ?
|
|
|
|
Bah, du graphage sans historique, c'est pas très utile, parce que ça permet pas
|
|
de répondre aux questions du type
|
|
"Ce disque s'est rempli, mais est-ce que c'est symptomatique d'un
|
|
problème (=> le régler; virer le garbage généré), ou une inflation normale
|
|
résultant d'une tendance globale longue durée et on vient seulement d'atteindre
|
|
la barre (=> agrandir le disque) ?"
|
|
Historique sans downsampling, c'est mieux que pas d'historique du tout (on n'a
|
|
pas besoin de garder les précisions sur la durée), mais ça va vite poser des
|
|
problèmes d'espace disque et de perf pour tracer les graphes (si je te demande
|
|
de tracer le graphe sur 1 an et que tu dois compiler 1 data/min sur un an, tu
|
|
vas en chier).
|
|
Donc bah sans solution correcte à tout ça, jeter munin me paraît
|
|
dangereux. -> prometheus ne renvoie pas tout heuresement
|
|
D'un autre côté, au fur et à mesure que vous renouvelez certains morceaux de
|
|
l'infrastructure, si vous les ajoutez pas à munin, il finira effectivement par
|
|
ne plus remplir son purpose.
|
|
|
|
Conclusion : On fait par ordre de priorité : Downsampling avec
|
|
Prometheus > Couper les munin nodes > Formattage de fy et reinstallation.
|
|
|
|
## Knot
|
|
|
|
Résumé du dernier épisode :
|
|
|
|
Il y a eu des soucis avec Knot depuis qu'il a été mis en place, et il
|
|
semblerait que certaines feature de Bind ne soient pas supportées correctement.
|
|
Proposition : Revenir à Bind. Des gens sont motivés pour le faire, donc
|
|
pourquoi pas. On fera ça dans l'été, il n'y a pas urgence.
|
|
|
|
> On n'a pas eu le temps de le faire pendant l'été, il faudra toucher le
|
|
service et du ansible....
|
|
|
|
## RFC2136 avec knot/bind
|
|
|
|
Résumé du dernier épisode :
|
|
|
|
On pourrait utiliser certbot en wildcard avec cette RFC.
|
|
0+On pourrait réécrire le service re2o DNS pour utiliser cette RFC.
|
|
On pourrait drop le service re2o DNS et laisser le serveur DHCP remplir le DNS
|
|
quand un client se connecte avec cette RFC.
|
|
On pourrait expérimenter des choses fun quoi... avec cette RFC.
|
|
|
|
Marrant, mais pas urgent. On le rajoute dans la file d'attente mais avec une
|
|
priority low
|
|
On envoie un mail.
|
|
|
|
Mika met en garde, on peut perdre des trucs au reboot, faut voir.
|
|
|
|
On en rediscute, car on a envie de faire un certificat wildcard.
|
|
|
|
## Mailman 3
|
|
|
|
LOL !
|
|
|
|
Résumé du dernier épisode :
|
|
Faut motiver qqun dessus mais c'est critique et stressant.
|
|
Pendant l'été
|
|
TOUT PENDANT L'ETE !
|
|
On peut faire plein de choses pendant l'été.
|
|
|
|
--> On a présenté mailman aux 1A, mais la migration n'est pas une priorité, on
|
|
ne s'est pas attardé dessus.
|
|
|
|
## Migration des serveurs sur les ip RIPE
|
|
|
|
Parler de la maintenance d'Août.
|
|
|
|
Résumé du dernier épisode :
|
|
|
|
Un certain nombre de serveurs sont encore sur le / d'ip de l'ENS. Ça serait
|
|
bien de tout passer sur les IP Crans
|
|
sur 185.230.79.0/24 (voir [l'issue
|
|
phabricator](https://phabricator.crans.org/T323)), vlan qui a été nommé DMZ
|
|
l'an dernier.
|
|
|
|
On rappelle ce qu'est une DMZ : Il s'agit plus d'un sous-réseau séparé du
|
|
réseau local. On y met les machines qui doivent être accessibles depuis
|
|
Internet, mais qui sont susceptibles d'être attaquées, et n'ont pas besoin
|
|
d'avoir un pied sur le réseau local.
|
|
|
|
Actuellement Adm est le contraire d'une DMZ : Il s'agit d'un VLAN
|
|
d'administration sur lequel on a mis tous les serveurs crans. Les ip derrière
|
|
ADM ne sont pas accessibles depuis Internet.
|
|
|
|
A-t-on vraiment envie de faire une DMZ ?
|
|
|
|
On a migré en srv.
|
|
|
|
###############################################################################
|
|
|
|
Cool on a donc bien avancé.
|
|
|
|
###############################################################################
|
|
|
|
## Lutim
|
|
|
|
Projet d'apprenti fait par Vulcain, encadré principalement par esum.
|
|
C'est un pastebin pour des images, c'est cool ; un nouveau service.
|
|
|
|
Vulcain a mis en place un nouveau service.
|
|
Ça a l'air de bien marcher. On peut faire de la pub sur la page d'accueil de
|
|
l'intranet.
|
|
|
|
## Services framadate
|
|
|
|
Projets d'apprentis, apparemment frama ferme des projets, ça peut etre
|
|
pertinent de lancer un apprenti sur un projet des services frama qui
|
|
ferment. À voir.
|
|
|
|
## Les backups
|
|
|
|
Lien avec le crash de Thot susmensionné, les backups des bdd étaient mal faits,
|
|
Pollion a mis en place un réplicat postgres en RO sur Odlyd. C'est déjà mieux.
|
|
|
|
Chiffrement des backups : Ça n'a toujours pas été fait, mais ça peut se faire
|
|
soon. Fardale toujours intéressé pour aider même si ça fait ~1an et demi qu'il
|
|
en parle ?
|
|
(Fardale a mis en place un serveur chiffré récement donc a à nouveau charger
|
|
les données en mémoire, ça ne durera pas éternellement)
|
|
|
|
## Carte Raid sur thot, ou comment changer un disque ?
|
|
|
|
Erdnaxe a expliqué rapidement son idée de HBA :
|
|
Il existe une méthode pour pouvoir passer outre la carte raid et envoyer
|
|
directement les disques au noyau
|
|
linux (<https://fr.wikipedia.org/wiki/Contr%C3%B4leur_h%C3%B4te_de_bus>)
|
|
accessible via une mise à jour du bios à partir des HP Gen8, donc accessible
|
|
pour thot.
|
|
|
|
On a encore un serveur de test, on va essayer de mettre ça en place et on
|
|
envisage une nouvelle install de thot sous ce mode si ça marche bien.
|
|
|
|
## DHCP
|
|
|
|
Lors de la migration vers re2o, le serveur DHCP primary a été passé
|
|
sur odlyd alors que le secondary a été passé sur la vm dhcp.
|
|
La personne qui a fait ça est "Votre Nom <Vous@exemple.com>" cf commit
|
|
dece79374f94b64c3a79dfd9e8c54d03e3afb936 sur BCFG2. Anyway, qu'est-ce qu'on
|
|
fait ? On change ?
|
|
|
|
On décide de revert et de changer.
|
|
|
|
Dans tous les cas, penser à changer la page wiki
|
|
<https://wiki.crans.org/CransTechnique/LesServeurs/Virtuels/ServeurDhcp>
|
|
|
|
## Ansible
|
|
|
|
Il faut continuer, on fera une IN spécial Ansible pour lister tout ce qu'on
|
|
doit faire avec.
|
|
|
|
Il existe un serveur qui est sous buster et non sous ansible.
|
|
|
|
## Les disques cassés dans le 0b
|
|
|
|
Quid du disque orange de la baie ? --> On les rachete, pour la baie pas de
|
|
soucis pour changer, pour gulp ça va être probablement le même soucis que pour
|
|
thot. On annoncera une petite interruption de services et on passera sous
|
|
Buster à la toussaint.
|
|
|
|
## Séminaires édition 2019-2020
|
|
|
|
« Wow » beaucoup de jeunes au premier séminaire (salle de conf du Pavillon des
|
|
jard rempli au 3/4).
|
|
L'ambiance est VRAIMENT cool, y a parfois à manger en plus.
|
|
faut continuer comme ça et faire son max pour faire vivre les
|
|
séminaires ! C'est pas si difficile de faire venir des gens et faire de la pub
|
|
si on s'y prend à beaucoup.
|
|
C'est une des grandes forces du Cr@ns et c'est qqch qui continuera d'exister
|
|
après le déménagement donc autant mettre l'énergie ici. Et c'est aussi un peu
|
|
le coeur de l'assos :
|
|
|
|
```LaTeX
|
|
$$ \frac{\mathrm d \text{séminaires}}{\mathrm d t} > 0 \implies \frac{\mathrm
|
|
d \text{gens compétants}}{\mathrm d t} > 0 \implies \frac{\mathrm d \text{vie
|
|
de l'assos}}{\mathrm d t} > 0 $$
|
|
````
|
|
|
|
## SATIE + Crans
|
|
|
|
PAC et erdnaxe ont vu deux personnes du SATIE. Après long étallement de cahier
|
|
des charges d'un projet qu'ils veulent organiser, il semblerait qu'un
|
|
Matrix (non fédéré) + !EtherPad leur convient parfaitement.
|
|
On est en train d'installer une instance de test pour leur faire tester.
|
|
Deadlines ?
|
|
Ça peut être un chouette début de projet, ils ont clairement pas le même
|
|
background en info que nous et du coup ils n'imaginent pas forcément qu'une
|
|
solution à un de leur besoin existe.
|
|
On peut leur apporter des solutions qui (on l'espère) vont ptetre beaucoup les
|
|
aider.
|
|
Il faudrait faire idem dans LURPA / LMT...
|
|
|
|
On peut avoir le cahier des charges ? Ils devront adhérents au Crans ? Qui
|
|
finance ? (Les adhérents n'ont pas à financer un projet pour des non
|
|
adhérents + si le crans perd la gestion de la connection il lui faudra d'autre
|
|
source de revenu)
|
|
|
|
On laisse au CA
|
|
|
|
## KWEI
|
|
|
|
On a ouvert le portail captif au KWEI, allez voir le monitoring si vous voulez
|
|
voir l'utilisation.
|
|
Ok, ça marchait, on remettra ça pour l'install Party. C'est la nouvelle version
|
|
de fête du slip. En plus c'est monitoré.
|
|
Erdnaxe va documenter tout ça :) !
|
|
|
|
## NGINX qui reverse Apache cassait des choses
|
|
|
|
!PhpMyAdmin pleurait et Wordpress redirigeait à l'infini car Apache se croyait
|
|
en HTTP à cause du reverse proxy NGINX.
|
|
Solution ! On dit à NGINX d'ajouter un header pour dire à son poto Apache qu'il
|
|
est en HTTPS.
|
|
Et ça marche ! Son&Lumens ont enfin leur Wordpress fonctionnel, erdnaxe pense
|
|
également en parler au BDS (ils souhaitaient déménager leur wordpress à une
|
|
époque).
|
|
|
|
## Module NGINX de certbot
|
|
|
|
Bah en fait avec ça un certif wildcard ce n'est plus si pertinent...
|
|
Genre vraiment `certbot renew --nginx` c'est la folie.
|
|
Est-ce que l'on passe dessus à la place du module standalone/webroot ?
|
|
|
|
Le mieux c'est de faire du wildcard, donc on reste comme ça.
|
|
|
|
## Fin de l'IN
|
|
|
|
Bon, Sarcozy n'est pas venu avec les pâtes donc on a faim...
|