documentation/compte_rendus/2025_04_06.md

267 lines
8.9 KiB
Markdown

# Réunion IN
* Date : Dimanche 6 avril 2025
* Lieu : MB87 et Galène
* Début : 18h10
* Fin : 20h20
## présent⋅es
Lyes
Lzebulon
korenst1
Hachino
Chiaroush
Pigeon Moelleux
Alexis MDR
PyJaC++
GaBo
bleizi
Aeltheos
## Ordre du jour
[Lyes] Il y a trop de points, et certains sont plus urgents que d'autres,
il conviendrait de filtrer
[Hachino] En direct pendant l'IN et tant pis pour les derniers choisis ?
Sinon faut ptet programmer plus d'IN pour écluser un peu (+1),
même si c'est compliqué.
[Pigeon] <https://docs.numerique.gouv.fr/> -> on déploie ça ?
vs <https://github.com/toeverything/AFFiNE>
vs <https://github.com/outline/outline>
vs <https://anytype.io/>
[Otthorn] C'est très sympa anytype mais c'est pas vraiment
une alternatives à docs.
Hedgedoc c'est genre des pads avec du support markdown si vous voulez,
ça fait un peu moins que docs, mais les trois proposés ici font
beaucoup plus et sont plus des notion / obsidian / logseq /
joplin / zettlr alternative (en web based pour certaines)
Et grist
[Lzebulon] revoir le système de monitoring/alerte.
(Nextcloud down 2j personne ne l'a vu) (devenu sourd au logs),
proposition :
Fix de tous les Warning
Envoi journalier nb erreurs (voir évolution)
[Otthorn] voir <https://en.wikipedia.org/wiki/Alarm_fatigue>
[Hachino] Possible de faire des sous-chans de logs par niveau d'alerte ?
Un service de status.crans.org qui répond plus -> #roots/logs/critical ?
[Lyes] Retour sur les dadfailed (problème résolu)
[Lzebulon] retour sur coupure électrique
idéal : pas besoin d'intervention humaine pour redemarrer la baie
[Lzebulon] reconfigurations des switchs et vlan (acces aux ilos...)
[Lyes] Kiwi tourne en rond et fini avec un 502
dès qu'on essaye de modifier une page,
tout en prenant en compte les modifs (problème résolu)
[Lzebulon] faire un truc pour les erreurs
"Returned mail: Could not send message", check pour les agreger,
parce que c'est drole de faire monter les stats du serveur mail
mais au bout d'un moment je pense avoir compris le message du mail
[Pigeon] Comparer et choisir un remplaçant pour linx
Candidats pour le moment :
<https://github.com/stonith404/pingvin-share> (packagé en nix par Pigeon) :
supporte LDAP et reverse-share
<https://framagit.org/fiat-tux/hat-softwares/lufi>
(pas packagé en nix mais faisable) : supporte LDAP et chiffrement des fichiers,
mais plus maintenu depuis un an
[Otthorn] : <https://gitlab.com/timvisee/send>
c'est un firefox maintained de ff-send
(pas de support LDAP, je sais pas si c'est une feature
dans le cahier des charges)
[Hachino] Plutôt oui, a priori, pour tracer qui "fait de la merde"
(IYKWIM) avec le service.
[Pigeon] #roots est un moulin, aujourd'hui tout le monde peut entrer/sortir
(et pas mal de gens le font) ->
on fout des règles plus strictes / crée un autre salon que pour
nounous/apprenti⋅e⋅s pour des choses sensibles ?
[Hachino] "De mon temps", il fallait une invite explicite pour rentrer dedans.
C'est désactivé ?
[Pigeon] Matrix et OIDC (j'ai peut être dit "oui" à une MR qui cassait tout)
[Lzebulon] y a pas un serveur de test ? les tests c'est pas en prod...
[Pigeon] Ça fonctionnait sur le serveur de test ^^'
j'avais Nicomarg devant moi et tout allait bien
[bleizi] arrêter de recevoir les mails de NextCloud en copie
[Lzebulon] discussion autour d'une CI/CD pour nixos
auto update flake.lock : 1/jour ? 1/semaines ?
[korenstin] utilisation de cephiroth pour installer les VM :
c'est beaucoup moins trivial que ça n'en à l'air
[Lzebulon] on garde la zone de test ?
[Hachino] Le retour d'un partenariat Crans-Tuxae :
est-ce que le Crans a de la place pour des backups
(quelques centaines de Go au plus) ?
(Ceci n'est pas une demande formelle, juste un renseignement.)
[korenstin] le crans est pété (surtout tealc et adh)
[Lyes] Déployer Cephiroth
### revoir le système de monitoring/alerte
On reçoit beaucoup trop de logs mineurs,
on a une alarm fatigue où on commence à ignorer tous les logs.
Korenstin propose de passer tous les Cron en Systemd
grâce à un système rétro-compatible.
Pigeon répond qu'on aura plus de mails mais un #roots/log infini,
qu'on ne lis pas non plus.
Prometheus a une bonne interface graphique.
Ou Loki un agrégateur de log de grafana.
NixOS a un module pour créer un graphe des machines
qui permettrait de mieux visualiser l'infrastructure du crans,
[nix-topology](https://github.com/oddlama/nix-topology).
Pigeon propose d'investiguer Loki.
Lzebulon se charge de tester de déployer zabbix.
Faire un #roots/log/critical est une bonne
idée pour prioriser les logs critiques.
### Retour sur les dadfailed
Routeur-ft décidait de prendre plusieurs adresses IPv6,
mettant down plein d'autres VM.
On a dû désactiver routeur-ft et dire à toute les VMs de reprendre leurs adresses.
Sauf que routeur-ft était rallumé par un cron, qui a dû être désactivé.
L'incident est globalement réglé
### Retour sur la coupure électrique
L'ENS a eu une commission de sécurité mardi,
qui a coupé par erreur l'électricité des serveurs de la DSI et de l'ENS.
Le redémarrage a duré beaucoup plus longtemps que prévu,
parce que les switchs ont semblent-ils changé leur configuration
et ont perdu leur connexion au serveur cameron.
Arrivé à 3h du mat, on a trouvé un "fix" à cameron
qui consiste à casser le LACP.
Certains serveurs physiques, dont ft et thot,
ne sont toujours pas contactables.
Il faut aussi remettre en place la connexion aux ilos,
parce que la configuration aux switchs à sauté.
On remet ça à Aeltheos par décret suprême de Pigeon.
### Tealc is/si dead
Hier, l'infra du crans à commencé à tomber un par un
et dont l'origine est tealc,
le bug ressemble beaucoup à un bug rencontré il y a deux mois.
(L'erreur était dans un zero sur Aurore, qui a expiré depuis.)
Erdnaxe pense que c'est peut-être un problème avec l'un des disques de tealc.
Il faudrait demander au CA de passer aux SSDs.
Pigeon a éteint tealc de force et l'a rallumé,
puis a relancé tealc à la main.
Ses jours sont comptés et il faudrait penser à installer
cephiroth dans les plus brefs délais.
### Kiwi
Problème résolu avec les backups restic,
il suffit de clean les backups de temps en temps.
### Returned mail
À gérer avec les warnings
### #roots est un moulin
Beaucoup de gens sur #roots, alors que c'est réservé aux membres actif⋅ves.
Il faudrait virer les gens qui ne devrait pas être là,
mais il serait intéressant que les membres d'Aurore restent.
Est-ce qu'on a un endroit où on a toutes les chartes adhérents ?
Réponse : dans l'historique des mails.
### Matrix et l'OIDC
L'OIDC ne semblerait pas marcher.
Pour que l'OIDC marche sur matrix, il faut qu'un json très précis soit envoyé.
Il y a un problème de scope à régler.
Le bridge matrix-IRC est aussi réglé.
### Nextcloud met en copie roots
Nextcloud met pour une certaine raison à chaque fois roots
en copie lorsqu'un partage est effectué.
Nextcloud a une ou deux versions de retard.
Màj Nextcloud est chiant, il faut juste le faire,
on a donc décidé de passer Nextcloud à NixOS,
mais on a pas eu le temps de le faire encore.
Le bottleneck sur nextcloud pour le crans c'est les DD.
Solution : Passer à des SSD (prévoir ~7200€ de budget ?).
### utilisation de cephiroth pour installer les VM
C'est moins trivial que ça en a l'air.
La fonctionnalité qu'on voudrait utiliser n'existerait pas.
Aeltheos objecte et donne une autre solution qui marcherait : --builder.
En attendant, une solution trouvée serait de copier les closures,
mais il query internet, mais après il fait bien l'installation.
Sinon, il y a nixos-anywhere (mais c'est overkill).
Il faudrait update la documentation.
### NixOS CI/CD
Auto update la flake.lock ? Il faudrait faire des tests.
Les tests pourraient se faire sur la branche dev.
1/jour serait utile pour les patchs de sécu.
### Zone de test
Projet qui a duré longtemps avec ds-ac.
C'est une zone où on peut faire des tests,
mais il n'y a jamais eu le temps de mettre bien ça en place.
Depuis, il y a apprentis et apprentix.
Virer ecilis ? On pourrait les virer.
### le crans est pété (surtout tealc et adh)
tealc est en vie pour l'instant.
### Déployer Cephiroth
L'objectif donné est de déployer Ceph en mai.
### Docs
Grist serait une bonne alternative à Ethercalc,
il a des fonctionnalités très intéressantes.
Pour les Docs/Outline/AFFiNE il faudrait étudier ça plus en détail
pour voir quelle serait la plus value.
### Tuxae
Les jeunes qui ont repris le mandat sont surmotivés,
et l'un de leurs projets et d'enfin mettre à jour Proxmox et des backups,
donc potentiellement au Crans.
Pour l'instant ils sont moyennement chauds,
ils pencheraient pour juste un SSD, sinon, s'il serait possible d'emprunter
quelques centaines de Go.
Le Crans pourrait le faire, mais n'a pas nécessairement les ressources
pour le faire dans l'immédiat.
### Linx
On voudrait le remplacer par des services différents : Pingvin, lufi, send, Palmyr.