documentation/compte_rendus/2026_01_24.md

369 lines
16 KiB
Markdown

# Réunion IN
* Date : Samedi 24 janvier 2026
* Lieu : MB87 et Galène
* Début : 16h
* Fin : 18h40
## Présent⋅es
GaBo
Pyjacpp
RDB
Lzebulon
Rigobert
Ordre du jour :
[Maintenance/9 janvier] Voir si on a besoin de couper/reboot les serveurs adhérents.
En principe non, mais y réfléchir. Relance de la comm' adhérents.
CR: Obsolète
[GaBo/Hachino/Lzebulon/Pyjac/RDB] INFO : salamèche a retrouvé la flamme
(plutôt que la flemme) (et doc Gitlab mise à jour)
[Hachino] Emprunter la boombox de la Nekorale quand on descend en SQ39
[GaBo] : budget boule quies (pour les descentes en SQ39)
([Hachino] Loulous suggère en rigolant d'en chiper à la Kfet.)
[Lzebulon] On backup ft sur thot, c'est normal ? On retire ?
CR: Pas grave
[Hachino/Lzebulon] Accès au switch, ceux qui savent savent.
CR: Accès via ethernet ? Se brancher en ethernet avec un simple telnet
(plutôt que ssh + auth) donne les droits root. Pratique pour le manager.
CR: Problèmes d'IPs ? À voir début février. Problèmes IP des ilos ?
[Hachino] (02/12) Plusieurs serveurs avaient du swap utilisé, bizarre.
[Lz] si on leur a mis du swap c'est pas etonnant qu'il soit utilisé
CR: sécurité plutôt bien. Peut ralentir les VMs. Faire une étude ?
Grafana/Règle Prometheus ?
CR: RTC pas choqué
[Pyjac] INFO : Le BDE peut faire ses comptes Vaultwarden avec des adresses @ens.
Térence a dit qu'il allait commencer à jouer avec.
[Lz] c'est fait
[Pyjac] INFO : Anubis a été désactivé dans `/home/<login>/public/*`.
Pas suffisant pour V.G. visiblement ? (Check.)
CR: exception pour lui en attente d'une meilleure solution.
Config à partir des robots.txt ?
CR/ Config Anubis "à la demande", seulement en cas de grosse affluence.
[Pyjac/Lzebulon/Hachino] Quelques passages sous Debian 13. Non, pas kiwi.
(Et un point tocard bien mérité.)
[Hachino] La config de borgmatic change un peu, certaines options sont dépréciées
(cf roots@), il faudra faire une passe sur Ansible.
MR en cours sur Nounous/Ansible [elle est pas bonne en l'état, ne pas merge]
D'ailleurs, les anciennes modifs sur /cache et /security (cf IN du 29 novembre)
n'ont pas survécu, remise à la main sur neree et owl.
[Hachino] Dans le même genre, vérifier les configs/noms de modules Python
(cf boeing, helloworld)
[Lz] TODO: migrer sur nixos
[Hachino] Pourquoi Debian tire par défaut
python3-{sympy,scipy,tqdm,matplotlib...} ? Ça sert à rien pourtant.
[Hachino] Breaking change au passage : format du fichier snmp.yml sur helloworld,
à voir.
CR: Pyjacpp a copié la config de fyre. Pour les ilos aussi ?
[Hachino] Fichier d'origine backupé en local et nouveau tiré depuis Github
(<https://raw.githubusercontent.com/prometheus/snmp_exporter/v0.28.0/snmp.yml>),
"ça remarche"
[Hachino] Même chose sur fyre, allez savoir.
[Pyjacpp] Mailman3 est "réparé". Adresses mails supprimées
manuellement dans la BDD.
Changement de place d'humanize, à mettre dans ansible ? <https://dustri.org/b/fixing-humanize-is-not-a-registered-tag-library-on-postorious.html>
CR: Mise à jour loupée. Répartion à la main la DB.
CR: paquets obsolétes à virer et migrer. Et thème à refaire.
[Hachino/Tuxae] INFO : Le tunnel SSH fait son job, l'auth sur <https://grenade.tuxae.fr/asso>
fonctionne. (Et ils sont prévenus de la coupure de janvier.)
[Hachino] Ils ont une loop SSH qui a refonctionné à peine l'infra re-up, magnifique.
[Hachino] Le DMARC report de Nanein (10 décembre, 06h01) indique un ARC fail lors
du passage par lists.crans.org, on peut mettre ARC en place ?
CR: se renseigner
[Hachino] Quelques soucis sur adh de baux DHCP non accordés, 3 VM non rentrées
dans le hosts et un physique HP à identifier (<https://standards-oui.ieee.org/oui/oui.txt>).
EDIT : évidemment j'ai pas noté les noms des VM et ça fait un mois et demi...
CR: Flush ? Problème de fond DHCP à régler.
[Pyjacpp] Les mails borgmatic...
[Hachino] INFO : VM Med passée de 2 Go à 4 Go de RAM pour soulager uwsgi,
VM Roundcube passée de 1 à 2 Go (et ça va mieux omg)
[Hachino/Lyes/Pyjacpp] INFO : le Cas remarche sur Mailman après application du
fix <https://github.com/pennersr/django-allauth/issues/3408>
[Pyjacpp] Proposition de doc par service pour mieux suivre ce type de correctif
[Pyjacpp] django-allauth à virer un de ces quatre.
[Hachino] Proposition : mettre kiwi.svg (aux couleurs du Crans)
comme favicon de mediawiki.crans.org :>
CR: Ok
[Lyes] Idée : un dashboard dédié au monitoring du trafic purement externe
(par interface avec IP publique) *par VM*.
Une sorte de mélange de dashboard existants.
CR: Ok (c'est long)
[Pyjacpp] Cleanup nextcloud `nextcloud-occ preview:cleanup` existe
Les previews prenaient 4Go. Certains dataient de septembre
Option pour limiter leurs tailles / qualité ?
Supprimer les plus vieux / moins utilisés ?
[Pigeon] Je l'ai déjà fait plusieurs fois, mais ça ne règle pas le pb
de manière durable
CR: Séparation du ldap au profit gitlab/nixos ?
CR: Sécurité de révéler les IPs ?
CR: Centralisation de la documentation dans le repo de la documentation.
[Pyjacpp] printer.lp.crans.org: cela semble être un problème de routage depuis fyre.
CR: non problème snmp.yml. L'imprimante est mystique (c.à.d c'est une imprimante).
[Pyjacpp] VM interq pour le BDA
Ajout d'un club bda sur le ldap-adh (proprios: club-bda et pyjacpp)
Création de la VM bda id 109 sur stich (8 GB, 1 cœur, 2GB de RAM)
Installation de Debian Trixie (13)
Users root et bda: sans mot de passe, accès seulement par clés ssh à root
(pyjacpp et dans le home de club-bda).
Ajout du nom de domaine interq.crans.org -> bda.adh.crans.org
Pour info :
Actuellement, la VM a pour seul objectif l'hébergement d'un site django
(celui des interludes adaptée aux interq gitlab.crans.org/pyjacpp/interq-2026)
[Hachino] Nix aime bien s'étaler dans son store,
HowTo autoclean tout ça proprement ?
[Pigeon] Les options <https://search.nixos.org/options?channel25.11&querynix.gc>
sont très utiles
CR: Lz pense avoir fait une MR. Ça serait bien d'avoir de la doc et il y en a.
[Hachino] Mails chelous de Django sur roots@ (30 décembre, 15h54-56)
CR: Erreurs de re2o ?
CR: Projet : refaire le site de l'imprimante ;____;
[Hachino] Kenobi qui OoM, fuite de mémoire ou VM sous-dimensionnée ?
[Hachino] Gitlab OoM kill le 5/01 vers 3h.
CR: Le CT note une recrudescence d'OoM.
CR: de la marge de RAM mais pas trop non plus. (Si on coupe un hyperviseur adm,
on est à 100% RAM sur les deux autres, donc ric-rac.)
[Lyes/Samuel Allain] Ajout d'une application Nextcloud : Cospend et Notes
(et réexamen des problèmes de perfs)
[Hachino] Vieux thread Reddit relié : <https://www.reddit.com/r/NextCloud/comments/lahooa/is_nextcloud_always_this_slow/>
Et ça : <https://help.nextcloud.com/t/nextcloud-27-all-page-load-times-about-5-seconds-can-it-be-made-faster-on-a-core2duo/171722>
(sous Arch btw)
Et ça, plus récent : <https://ounapuu.ee/posts/2025/11/03/nextcloud-slow/>
Proposition : inspecter le JS en direct pour voir les apps les plus gourmandes
[Pigeon] Ça a déjà été fait avec korenstin. Conclusion : tout est lent,
il faudrait juste passer la VM sur des SSD
(oui je suis convaincu que ça fait une différence, cf zora)
[Hachino] Bon bah ok, commande de SSD un jour™ j'imagine.
CR: Fédération Nextcloud. Cospend : <https://github.com/spliit-app/spliit>
[Pyjacpp] comptes mails pas dans ré2o ? e.g zoecprl ?
CR: Ancien comptes avec .forward mais pas de mail renseigné.
[Hachino] INFO : Aplanos et ses scans, du DELETE bien gras.
Et on avait 366 jobs d'impression latents, DELETE aussi.
CR: suppression automatique des impressions ? Probablement des données dessus.
[Pyjacpp] Pourquoi autant de OOM ?
CR: déjà dit
[Hachino] Manque de ressources sur Nextcloud et/ou Collabora ?
Créer un .ods en local, l'upload sur Nextcloud, l'ouvrir (avec Collabora),
se prendre un avertissement -> ressources matérielles insuffisantes
[Pyjacpp] C'est Collabora il me semble
CR: On peut le faire si besoin.
[Hachino] Fait à l'instant. 2 Go -> 4 Go RAM, 1x2 coeurs -> 2x2 coeurs
[Lzebulon/Pyjacpp] Ilo à Tealc sans Tealc ?
CR: Problèmes ilo à tealc. Connexion de secours Sam -> ilo-tealc ?
[Pyjacpp] Plan pour Ceph ?
Reporté
[All] La maintenance, ses succès et ce qu'il reste à faire
Cameron est en mauvais états, les fibres ont disparu (ethernet d'urgence).
Problème de driver carte réseau à mettre à jour ?
Problèmes d'accès pour les switch
Problèmes d'accès ilos
[Hachino] Visiblement il faut mettre à jour la conf de Postfix (mail roots@,
il spamme un peu).
[Hachino] INFO : Augmentation subtile des ressources de la Note pour voir
(passage à 2x2 coeurs au lieu de 1x2)
[Hachino] INFO : Ajout de loulous27 comme admin de club-numens
[Hachino] INFO : Nettoyage de club-bde (on enlève tout le monde
et on met quark admin, il gère la suite).
[Hachino] loulous27 demande à ce qu'on monitore la disponibilité du serveur photos
(par Grafana).
CR: Page status ? Ping Raito pour la Nixification de status.bytestall.info,
ce serait un bon plan
[Hachino] TODO : MàJ de la doc après la grosse maintenance.
Et on a un peu de retard sur les CR de réunions. ;_; (Non merci, j'ai poney.)
CR: Version de Debian., plein d'infos obsolètes après la MàJ,
bref refaire une passe un jour.
[GaBo] Détourner le pass pour y insérer de la doc "secrète",
genre le plan du réseau, les IP importantes ?
[Hachino] Si on fait ça, proposition de faire un dossier par thème et dedans,
un fichier par serveur/VM important.
[Lz] as-t-on besoin de cacher le plan du reseau ?
les ip publics sont connues avec le DNS et en interne
il faut avoir deja reussi a se connecter
[Hachino] Dans ce cas, go for gitlab/documentation ?
CR: déjà dit, c'est pas forcèment dangereux de la mettre en public.
C'est mieux de centraliser sur la documentation.
[Hachino] Finir la suppression des comptes (une vingtaine petite quarantaine de
demandes latentes sur nounous@).(35 d'après mon décompte)
[Hachino] Ansible c'est quand même plus sympa que taper des commandes
sur chaque VM. Un jour.
[shirenn] Ajouter une unit systemd pour sudo chmod 777 /run/screen,
ça serait bien. ExecOnStart, un truc comme ça.
[Hachino] Resilver sur sam et jack ? (Le disque de sam a été changé mais on a
stop le resilver parce que trop lent, jack on a découvert l'absence de disque 2
mais ni vérifié à l'intérieur, ni changé.)
CR: Done par pyjacpp & korenstin
[korenst1 par Hachino] "hpasswd", mdp root Nix mais pas en clair,
pas tout compris ou retenu.
CR: mkpasswd hash -> agenix.
CR: Ça casse les mdp root des vm NixOs e.g. nextcloud.
[korenst1] Penser à mettre en place les backups de BDD par restic
(pour l'instant seul borg le fait)
CR: Ok.
[All] INFO : Ajout d'interfaces auto pour les serveurs qui nous faisaient suer
(au reboot)
[Hachino] Pénible, je me fais régulièrement jeter par kexchange quand je veux me
co à *.adm. :/ Quelqu'un comprend ? (Ah, ça a l'air calmé tiens.)
[Hachino/Pyjacpp] kex_exchange_identification: read: Connection reset by peer
CR: Resilver de sam ? Mise sous surveillance jusqu'à la prochaine IN.
[Hachino] INFO : Prometheus-apache-exporter sur Zamok avait un format
d'options obsolète, corrigé à la main (/etc/default/prometheus-apache-exporter).
J'ai pas compris comment, mais en précisant une config j'ai refait vivre le mysql-exporter.
(Probablement mal vu les logs d'erreurs.).
[Pyjacpp] Remise à jour projets-apprentis
CR: fait
[Hachino] Mauvaise config du ssh tealc -> ilo-* ? Ajout de l'option HostKeyAlgorithms
CR: un peu mieux.
[Pyjacpp] Ajout d'une documentation sur comment gérer les disques,
remplacement smartctl.
Ajouter comment refaire un boot proxmox avec proxmox-boot-tool
scsi vs ATA ?
Cameron /dev/sdg emplacement 29
CR: Cameron a une config mix
[Hachino] INFO : Fun fact : on a deux anciennes nounous.
Et on a oublié RDB sur CransNounous. :(
CR: à faire ?
[Pyjacpp] Daniel attention erreur checksum ZFS égale à 2
ET Deuxième disque sans partition de boot.
Attention pour corriger le second, on a besoin que le premier soit en bonne forme.
CR: À faire si on a le temps.
[Pyjacpp] le disque nvme-CT500P2SSD8_2212E61D5B50 est mystique sur sam cameron ?
Non utilisé ?
CR: SSD pour le boot
CR: Reste de la centralisation des logs ? Partir en recherche d'archives ?
CR: potentiellement un reliquat.
[Pyjacpp] tealc et cameron ont perdu lvm ? Probablement du raid géré par mdadm
CR: À checker un de ces quatre.
[Pyjacpp/korenstin] Attention avec ansible, mise_a_niveau n'est pas merge dans main
[Pyjacpp] Des disques de tealc sont en taille de secteurs
512/4096, c'est normal ?
CR: À vérifier.
[Pyjacpp] Compte Nextcloud ne fonctionnant pas : adam-c.
CR: Réglé
CR : point script suppression comptes, lien Nextcloud/LDAP,
comptes "supprimés" invisibles dans nextcloud-admin
(mais script pour les récupérer d'un coup)
[Pyjacpp] Imprimante
Beaucoup de bourrage papiers ces derniers temps
Monitoring:
réparé ? En copiant la config de fyre ?
La config ansible est à jour ?
Comment on fait pour générer snmp.yml ? Où est le generator.yml ?
CR: aller voir du côté de fyre ?
CR: À check avec les ilos.
[Hachino] yson-partou pas reboot ? + gitzly à upgrade +
nettoyage des vieux paquets post-maintenance
[Pigeon] Tous les serveurs ont reboot, c'est pas possible qu'il ait été laissé tranquille
[Hachino] Son noyau courant est en 6.1, alors qu'il a le 6.12 en magasin
EDIT : sudo update-grub fait, "plus qu'à reboot" quand ça gêne personne
CR: Potentiellement safe de reboot ?
[Hachino] (23/01/2026) Helloworld en souffrance, ressources x2
et ça semble aller un peu mieux ? À surveiller.
EDIT : 480 pages en une fois, ça fait mal cheffe.
[Hachino] INFO : nettoyage des miettes laissées par la migration pgsql
(monitoring notamment).
Les alertes autovacuum/autoanalyse semblent inoffensives, osef/20.
CR: recherche d'high availability des BDD
[RDB] 2FA sur le pass ?
[Pyjacpp] Mettre à jour backup-ft et ft ?
[Pyjacpp] script de récupération / suppression:
Avis sur un script se connectant en SSH avec des comptes nounous
et lançant des commandes ?
Avis sur le lancement de commandes sudo ?
Avis sur une connexion directement avec le mot de passe root ?
Avis pour une suppression semi-automatique (actuellement, la suppression
doit se faire à la main) ?
En particulier, le script devra faire des sudo rm -rf /home/pseudo
(ce qui est terrifiant, mais à la main aussi ?).
--> ajoute des --yes-i-want comme pour le mailall ?
demander de taper le login pour vérifier ?
[Lzebulon] bot renovate pour mise a jour auto du repo NixOS ?
CR: bot qui met à jour les dépendances
CR: avec signature de confiance ?
[Lzebulon] les travaux pour 2026 :
mises à jour
inventaire du matos (comment ? excel ? outil specifique ?)
(gitlab/documentation ? branche inventaire_materiel en MR)
Calc sur Nextcloud avec partage aux groupes nounou et bureau (synchro NC/LDAP)
nouveau wiki
date.crans.org [Hachino] Quoi t'est-ce ? Framadate v2 ? Framaforms v2 ? pollaris
(le nouveau framaform)
[Hachino] Comprendre et corriger (ou faire taire si pertinent) les alertes sur Grafana
un jour peut etre :
ceph et donc :
peertube
un nouveau re2o
serveurs de build nixos
Partir de django cas (mails entre autre)
Nouveaux serveurs
[Pyjac] Plan Ceph
Pyjac est nommé respo Ceph, mention bsahtek, félicitations.
<https://pad.crans.org/p/Samedi26Juillet2025>
Résumé des TODOs personnels à court terme :
Hachino : acheter SSD/HDD/câble port série;
contacter Rennes pour camtar InterQ (pour l'imprimante), rédaction mail DPAT
Lz: check snmp
Pyjacpp: Séminaires, Suppression des comptes, Switchs/ilos,
Imprimante, Wiki, Convention: affaire à suivre, Conférence, Ceph
Quelqu'un : vérifier que l'imprimante est toujours au 0B (en principe oui,
parce que le Crous)