documentation/compte_rendus/2025_10_19.md

384 lines
20 KiB
Markdown

# Réunion IN
* Date : Dimanche 19 octobre 2025
* Lieu : MB87 et Galène
* Début : 14h45
* Fin : 16h45
## présent⋅es
Hachino
Lyes
Lzebulon
Pigeon Moelleux
Pyjacpp
RDB
Ordre du jour (oui):
[pyjacpp] impossible de se connecter au matrix via element
(le nom de domaine n'apparaît pas)
Support des QRCodes pour se connecter ?
[Pigeon] PR associée : <https://github.com/matrix-org/matrix-spec-proposals/pull/4108>
(c'est pas encore dans la spec officielle)
Element X c'est vraiment la galère niveau protocoles : ça suit pas la spec
matrix donc faut configurer synapse avec des trucs pas encore finis
C'est faisable apparemment mais relou à maintenir
(Sinon je vous ai parlé d'XMPP ?) oui...
[Lzebulon] anubis c'est bien mais ca bloque trop
[Hachino] On coupe Anubis sur perso.crans.org ?
Seulement sur les adhérents qui le demandent ?
[Hachino] Demande de Martin Cesbron : extension de moyens EDIT : Réglé, a priori.
[Hachino] Talbot remonte un souci sur pdf.crans.org (cf #crans)
[Hachino] Vincent Lafeychine a trouvé un fix sur la timezone de l'imprimante,
yapluka merge.
[Hachino] (On a clairement ignoré la demande dovecotesque de eljj,
mais franchement on a pas le temps.)
[pyjacpp] Les factures de re2o d'inscriptions sont mal formées et ont un
décalage d'une colonne
[pyjacpp] Proposition: remplacer, dans la template default_invoice.tex, {{a.name}}
en {{a.name|safe}} pour désactiver l'escaping html
[Hachino] Why not Typst cependant ? /s
(Ah oui, Typst bouge un peu trop pour être utilisable en prod, pas faux.)
[Pigeon] C'est actuellement assez stable, surtout pour des constructions de base
donc je pense pas que ça pose pb (ou alors on fait un shell nix et plus de pb)
[Lz] parce que personne veut modifier le module de re2o
[Lzebulon] surveiller stirling pdf v2 (changement de formule, devient payant ? <https://www.stirling.com/blog/introducing-v2>)
[Lyes] Virer toutes les nounous non-actives du Pass pour rechiffrer facilement
le pass aux nouvelles nounous
Les infos de Hachino :
[Hachino] INFO : réparation de smartmontools,
qui devrait arrêter de pleurer dans #roots/logs
Il fallait éditer /etc/smartd.conf pour lui dire exactement
comment accéder au disque (à cause du Smart Array d'HP)
[Hachino] INFO : réparation de l'unit systemd pour logrotate et nginx sur owncloud.
Lui aussi pleurera moins.
Résumé : un reliquat de conf qui appelait un script mort dans
/etc/logrotate.d/{nginx, owncloud}.
[Lzebulon] Mailman couine(ait ?) tout fort.
Suppression d'un mail pourri vers un domaine mort. Espoir de résolution.
EDIT : le silence.
[Hachino] INFO : Modif de la conf journal de Jitsi, avec hardlimit à 500M de logs
(au lieu de 1,5G sinon). Constat : Prosody est *très* verbeux. Trop.
[Hachino] INFO : isc-dhcp-server demandait juste à être restart sur sam.
[Hachino] INFO : networking.service sur en7 est réparé.
Un vieux fichier écrit à la main par une ancienne nounou était en conflit avec
celui géré par Ansible (même IP, même gateway) et le fichier Ansible n'avait pas
de ifstate. Une archive se trouve dans /root/*.bak
Touche ens19 et ens20, voir ce que ça fait côté Ansible pour le long terme ?
Je purge #roots/logs (quand c'est possible) et c'est ma joie.
[Hachino] C'est normal que ecilis ne soit pas dans le hosts de Ansible ?
[Lzebulon] c'est une machine de test (qui date de ds-ac ?) -> oui
[Hachino] Un peu pareil, thot.adm est dans un sous-groupe non ciblé par
prometheus-node-exporter de plays/monitoring.yml.
On l'ajoute ou il y a une bonne raison ?
[Hachino] Cas de la ML club-cave-gestion : suppression définitive OK ?
(Zéro archive, inactive depuis > 5 ans, accord du seul proprio.) EDIT : nuke.
[Hachino] Mailman, DKIM et <abuse@LaPoste.net> qui répond vachement vite.
[Lzebulon] Proposer au BDE d'utiliser listmonk.app à la place.
[Hachino] Demande de relecture : <https://gitlab.crans.org/nounous/ansible/-/merge_requests/354>
(vieille MàJ un peu oubliée des VM surveillées)
[Hachino] Demande de relecture :
<https://gitlab.crans.org/nounous/ansible/-/merge_requests/355> (update /root/.nanorc)
[Hachino] Horst et Karst c'est qui déjà ? Ils couinent dans #roots/logs mais
sont nulle part dans la doc.
[Lzebulon] ce sont des switch
[Hachino] INFO : port 9100 ouvert sur ecilis.adm. Bon on gagne une alerte sur
getty@ttyS0, on peut pas tout avoir. Mais on progresse.
EDIT : getty@ttyS0 a été violemment tué, masqué, reset-failed, tout ce qu'on veut.
Il va faire un gros dodo.
[Hachino] Les alertes openipmi sont fictives sur les VM ? On peut les tuer
à la main,
voire dans Ansible ? Apparemment prometheus-node-exporter installe par défaut le
paquet openipmi (en tant que paquet recommandé et non dépendance stricte)
alors qu'il n'a rien à faire dans nos machines la plupart du temps,
on change cette conf ?
[Hachino] Borg et Restic en même temps sur certaines machines :
on peut tuer borg VM par VM ? (Ethercalc ou Kenobi par exemple.
Sur ft il y est plus vraiment ?)
[Hachino] Alertes AptObsolete : normal de garder du Python 2 pour le Wiki,
mais sur des VM comme Gitzly ou routeur-*, c'est vraiment utile ?
Idem pour du vieux gcc. On peut supprimer sans crainte ces vieux paquets ?
[Hachino] [cross-post CA] Je peux sortir la CB pour les disques et me faire
rembourser par note ? Pitié pour un pauvre sam qui pleure son /sdb.
EDIT : en fait on a des disques de rab dans le bureau, certains neufs et emballés.
[Hachino] Mamaaaan, tu peux rechiffrer le pass stpééééé ?
[Hachino] Éclat il va bien ? Comment on en prend soin ?
[Hachino] Suggestion : dans Gitlab://Nounous/documentation/services/monitoring,
ouvrir qui_est_monitore.md, probablement sous forme de tableau.
Ou alors ça fait doublon avec Grafana ?
EDIT : apparemment il y a une API pour ça, cool. -->
curl -G <http://fyre.adm.crans.org:9090/federate> -d 'match[]={__name__!=""}'
(puis du grep pour filtrer)
tu peux check sur prometheus, et normalement la reponse theorique c'est tout le
monde
[Hachino] Suggestion bis : dans
Gitlab://Nounous/documentation/outils/logiciels/backups, ouvrir qui_est_backupé.md.
Ne fait pas doublon avec Grafana a priori.
[Lz] normalement sur Grafana, il y a un onglet (au moins pour restic) pour
connaitre la dernière backup (a fix, car ca prends juste en compte le dernier
lancement du systemd)
[Hachino] INFO : manuel des LED des disques HP ici. <https://www.storagepartsdirect.com/spd-blog/what-do-the-indicator-lights-mean-on-hpe-hard-drives/?srsltid=AfmBOorJZuUMdn8oU-09XxHbknL8MnuH9BNEUBZf8eeXNlP1kw72sH9Y>.
Tl;dr :
Sam : les disques de sam ne sont dans aucun RAID (Off).
(sauf qu'en fait si, très probablement, cf les tailles des unités logiques)
--> ZFS et pas RAID
Pour sam : ls -l /dev/disk/by-path/ indique très fort que c'est l'emplacement
physique n°2 (en bas) qui va pas bien. (57k secteurs ~ 30 Go)
Daniel : OK.
Jack : son disque bas est en rebuild permanent (Flashing green).
(odlyd est éteint)
Stitch : OK.
Gulp : pas de RAID.
Zamok : OK.
ft : /!\ tous ses disques sont en Do not remove (Solid white)
Thot : /!\ la moitié de ses disques sont en Do not remove
[Hachino] Re-ping d'apf sur nos enregistrements DMARC. Réponse d'attente faite.
Cf <https://mxtoolbox.com/emailhealth/crans.org/> aussi
Cf <https://community.ovhcloud.com/community/fr/bloc-d-ip-bloques-uceprotectl2-et-uceprotectl3?id=community_question&sys_id=ae025ace91b99e901e11d3d71f8624f4>
pour la liste de spammeurs UCEprotectl3 (qui a elle-même mauvaise presse)
Cf <https://www.reddit.com/r/networking/comments/1h20b21/blacklisted_by_uceprotectl3_email_deliverability/?show=original>
aussi
[Lz] on a dit au précédentes IN que l'on devait le faire
[Hachino] Rezel va soon™ avoir un accès Internet de secours par moji.
Est-ce qu'on envisagerait pas de déplacer nos serveurs de secours chez eux plutôt
que chez OVH, à terme (pas demain, un jour) ?
[Hachino] INFO : Reboot manuel de neree (Galène), qui le réclamait.
## Le pass nous les cass'
Il manque plein de clés de vieilles nounous pour rechiffrer le pass,
dont certaines qui ne sont plus là depuis... longtemps... très longtemps.
Lyes va envoyer un mail demandant une réponse explicite pour garder les droits
d'accès au pass (sinon, bye bye), avec un délai raisonnable
(fin du mois d'octobre ?).
## Matrix, Element, QRcode
Lyes dit qu'il nous manque des .well-known et Element nous crache à la figure
quand il ne trouve pas les fichiers.
Peut-être qu'ils existent mais pas aux bons endroits du Crans ?
HS : Le lave-linge de Pigeon gagne un à zéro contre Lzebulon, c'est honteux.
Pigeon intervient pour dire que Element X utilise un protocole spécifique et
instable, avec plein de mises à jour tout le temps. Quelques tests en direct.
Il faudrait regarder dans .well-known/matrix/servier/client (modulo les `s`).
<https://crans.org> plutôt que crans.org pour Element X ?
Là Element X trouve le Crans. Connexion possible ?
La redirection Matrix pourrait faire merder ? Le reverse-proxy ?
Le .well-known devait être sur crans.org, mais il passe toujours par hodaur.
Le premier test lancé essayait well_known au lieu de well-known, dommage,
ça marche mieux avec un -.
Instant pub XMPP par Pigeon, abrégé par Lzebulon d'autorité.
## Anu[triste]
Un ancien adhérent se plaint que sa page perso ne soit plus référencée et plus
accessible par des voies non navigables (genre une RasPi).
L'idée de faire sauter Anubis pour les pages persos s'élève.
Ou alors Anubis uniquement sur les sous-pages strictes de perso.crans.org/{pseudo},
en opt-out pour les adhérents.
Décision : enlever Anubis sur perso.crans.org et surveiller régulièrement Grafana
(ou reparamétrer Prometheus pour des alertes de trafic élevé).
En parlant de trafic, on est à 32 Mbps de trafic sortant là tout de suite,
c'est un peu élevé.
## Martin Cesbron et sa VM o2c
Lyes a fait l'augmentation de quotas, ils ont étendu leur partition avec LVM/fdisk
et se sont plantés de partition, nukant leur table LVM au passage. Oups/20.
Quelques péripéties avec Lyes en support dans le RER et heureusement une backup
des données faite en avance (sur demande expresse de Lyes, qui a eu du flair).
Aujourd'hui tout va bien.
## Talbot remonte un souci sur pdf.crans.org (cf #crans)
Probablement juste une mise à jour de la VM Stirling à faire.
Apparemment l'OCR est en erreur.
## Stirling V2
<https://www.stirling.com/blog/introducing-v2>
Stirling semble changer son modèle économique, et il n'est plus certain de
pouvoir continuer à l'héberger.
C'est peut-être un modèle à la gitlab ? Ou un modèle de service.
Lzebulon pense que c'est plus une histoire de clé (de licence).
Il faudrait voir la v2, qui semble introduire des fonctionnalités
qu'on ne voudrait pas de toute façon.
## Mises à jour
Tellement de VM Nix à mettre à jour. Il faudrait le faire.
## Vincent Lafeychine a trouvé un fix sur la timezone de l'imprimante, yapluka merge
Aurore règle maintenant les problèmes du Crans, incroyable.
Hachino a traquenardé Vincent pour le faire, il est humblement remercié pour ses
services.
Il faudra tester le fix, en gros des modules de timezone ont changé de nom.
Lzebulon push de vieux merges, on attend qu'il finisse.
## On a clairement ignoré la demande dovecotesque de eljj
Oui.
## Les factures de re2o d'inscriptions sont mal formées
Elles ont un décalage d'une colonne.
Django envoie une apostrophe, l'échappe, le transforme en &amp;, sauf que le
fichier de destination est un latex, et donc ça fait un décalage bizarre.
On pourrait faire ça en modifiant le template. Le CT acquiesce.
## INFOs en vrac
[Hachino] INFO : réparation de smartmontools, qui devrait arrêter de pleurer
dans #roots/logs
Il fallait éditer /etc/smartd.conf pour lui dire exactement comment accéder au
disque (à cause du Smart Array d'HP)
[Hachino] INFO : réparation de l'unit systemd pour logrotate et nginx sur owncloud.
Lui aussi pleurera moins.
Résumé : un reliquat de conf qui appelait un script mort dans
/etc/logrotate.d/{nginx, owncloud}.
[Lzebulon] Mailman couine(ait ?) tout fort. Suppression d'un mail pourri vers un
domaine mort. Espoir de résolution. EDIT : le silence.
[Hachino] INFO : Modif de la conf journal de Jitsi, avec hardlimit à 500M de logs
(au lieu de 1,5G sinon). Constat : Prosody est *très* verbeux. Trop.
[Hachino] INFO : isc-dhcp-server demandait juste à être restart sur sam.
À changer un jour par son remplaçant (déprécié)
[Hachino] INFO : networking.service sur en7 est réparé.
Un vieux fichier écrit à la main par une ancienne nounou était en conflit avec
celui géré par Ansible (même IP, même gateway) et le fichier Ansible n'avait pas
de ifstate. Une archive se trouve dans /root/*.bak
Touche ens19 et ens20, voir ce que ça fait côté Ansible pour le long terme ?
Je purge #roots/logs (quand c'est possible) et c'est ma joie.
[Hachino] C'est normal que ecilis ne soit pas dans le hosts de Ansible ?
[Lzebulon] c'est une machine de test (qui date de ds-ac ?) -> oui
[Hachino] Un peu pareil, thot.adm est dans un sous-groupe non ciblé par
prometheus-node-exporter de plays/monitoring.yml.
On l'ajoute ou il y a une bonne raison ?
[Hachino] Cas de la ML club-cave-gestion : suppression définitive OK ?
(Zéro archive, inactive depuis > 5 ans, accord du seul proprio.) EDIT : nuke.
[Hachino] Mailman, DKIM et <abuse@LaPoste.net> qui répond vachement vite.
[Lzebulon] Proposer au BDE d'utiliser listmonk.app à la place.
[Lyes] Proposer au BDE d'arrêter d'utiliser gmail en général.
[Hachino] Explication probable : Mailman modifie l'objet/le header/le footer
et la signature DKIM devient invalide.
Le problème est certianement connu, il faut aller lire la doc de Mailman.
Cf <https://wiki.list.org/DEV/DKIM>
[Hachino] Demande de relecture : <https://gitlab.crans.org/nounous/ansible/-/merge_requests/354>
(vieille MàJ un peu oubliée des VM surveillées)
[Hachino] Demande de relecture : <https://gitlab.crans.org/nounous/ansible/-/merge_requests/355>
(update /root/.nanorc)
[Hachino] Horst et Karst c'est qui déjà ? Ils couinent dans #roots/logs
mais sont nulle part dans la doc.
[Lzebulon] ce sont des switchs. Horst est branché, Karst probablement
remplacé par Rodney (à vérifier).
[Hachino] INFO : port 9100 ouvert sur ecilis.adm (prometheus-node-exporter).
Bon on gagne une alerte sur getty@ttyS0, on peut pas tout avoir.
Mais on progresse. EDIT : getty@ttyS0 a été violemment tué, masqué, reset-failed,
tout ce qu'on veut. Il va faire un gros dodo.
[Hachino] Les alertes openipmi sont fictives sur les VM ?
On peut les tuer à la main, voire dans Ansible ?
Apparemment prometheus-node-exporter installe par défaut le paquet openipmi
(en tant que paquet recommandé et non dépendance stricte) alors qu'il n'a rien à
faire dans nos machines la plupart du temps, on change cette conf ?
"C'est possible."
[Hachino] Borg et Restic en même temps sur certaines machines : on peut tuer borg
VM par VM ? (Ethercalc ou Kenobi par exemple. Sur ft il y est plus vraiment ?)
[Pigeon] L'idée était de faire tester Restic aux gens et de laisser les géns
suivantes décider du meilleur outil.
Un problème avec Restic pour le Crans : Restic ne backup pas lui-même les BDD pgsql,
Borg si. Idée : déployer sur tealc un cron/timer systemd qui va backup les BDD
"à la main" et Restic se charge du reste.
Pourquoi ? Parce qu'un SGBD ne fonctionne pas avec juste des fichiers et des dossiers
et Restic ne comprend que les fichiers/dossiers basiques.
[Lzebulon] Et Plakar ? Pas mal hein, c'est français. :fr:
C'est le même mec qui a fait opensmtpd.
[Pigeon] Le logo mignon vaut +1 d'office. Mais ne semble pas supporter pgsql
(mais caldav et stdio si, parce que pourquoi pas).
[Hachino] Alertes AptObsolete : normal de garder du Python 2 pour le Wiki,
mais sur des VM comme Gitzly ou routeur-*, c'est vraiment utile ?
Idem pour du vieux gcc. On peut supprimer sans crainte ces vieux paquets ?
sudo apt remove '~o'
Après l'avoir fait Gulp pour voir, on dirait que oui. Youpi.
On enchaîne avec Kenobi, Stitch, Daniel, Jack, Sam.
On épargne Gitzly le temps de faire les migrations pgsql (un jour).
Sur Zamok, apt a marqué comme obsolète la version du kernel actuellement en prod.
WTF. Abort mission (au milieu, certains paquets ont été enlevés).
[Hachino] [cross-post CA] Je peux sortir la CB pour les disques et me faire
rembourser par note ? Pitié pour un pauvre sam qui pleure son /sdb.
EDIT : en fait on a des disques de rab dans le bureau, certains neufs et emballés.
--> Point à ignorer.
[Hachino] Mamaaaan, tu peux rechiffrer le pass stpééééé ? --> Cf plus haut.
[Hachino] Éclat il va bien ? Comment on en prend soin ? Oui pour l'instant.
EDIT : en post-IN, Lzebulon a tenté de lancer un ftpsync à la main,
bah c'est long son daron.
[Hachino] Suggestion : dans Gitlab://Nounous/documentation/services/monitoring,
ouvrir qui_est_monitore.md, probablement sous forme de tableau.
Ou alors ça fait doublon avec Grafana ?
EDIT : apparemment il y a une API pour ça, cool. -->
curl -G <http://fyre.adm.crans.org:9090/federate> -d 'match[]={__name__!=""}'
(puis du grep pour filtrer)
tu peux check sur prometheus/Grafana, et normalement
la reponse theorique c'est tout le monde
[Hachino] Suggestion bis : dans Gitlab://Nounous/documentation/outils/logiciels/backups,
ouvrir qui_est_backupé.md. Ne fait pas doublon avec Grafana a priori.
[Lz] normalement sur Grafana, il y a un onglet (au moins pour restic)
pour connaitre la dernière backup (a fix, car ca prends
juste en compte le dernier lancement du systemd)
Les fichiers adhérents sont backup une fois par semaine et pas une fois par jour
comme le reste de l'infra.
Après vérif, il y a un dash Grafana pour Restic,
mais pas pour Borg. Ça peut être une idée de le faire.
[Hachino] INFO : manuel des LED des disques HP ici. <https://www.storagepartsdirect.com/spd-blog/what-do-the-indicator-lights-mean-on-hpe-hard-drives/?srsltid=AfmBOorJZuUMdn8oU-09XxHbknL8MnuH9BNEUBZf8eeXNlP1kw72sH9Y>.
Tl;dr :
Sam : les disques de sam ne sont dans aucun RAID (Off). (sauf qu'en fait si,
très probablement, cf les tailles des unités logiques) --> ZFS et pas RAID
Pour sam : ls -l /dev/disk/by-path/ indique très fort que c'est l'emplacement
physique n°2 (en bas) qui va pas bien. (57k secteurs ~ 30 Go)
Daniel : OK.
Jack : son disque bas est en rebuild permanent (Flashing green).
(odlyd est éteint)
Stitch : OK.
Gulp : pas de RAID.
Zamok : OK.
ft : /!\ tous ses disques sont en Do not remove (Solid white)
Thot : /!\ la moitié de ses disques sont en Do not remove
[Hachino] Re-ping d'apf sur nos enregistrements DMARC. Réponse d'attente faite.
Cf <https://mxtoolbox.com/emailhealth/crans.org/> aussi
Cf <https://community.ovhcloud.com/community/fr/bloc-d-ip-bloques-uceprotectl2-et-uceprotectl3?id=community_question&sys_id=ae025ace91b99e901e11d3d71f8624f4>
pour la liste de spammeurs UCEprotectl3
(qui a elle-même mauvaise presse)
Cf <https://www.reddit.com/r/networking/comments/1h20b21/blacklisted_by_uceprotectl3_email_deliverability/?show=original>
aussi
[Lz] on a dit au précédentes IN que l'on devait le faire
Lyes : J'ai installé un serveur mail récemment, je suis chaud pour m'y sacrifier.
--> On va le faire juste après l'IN. Lzebulon l'a fait, avec <postmaster@crans.org>
en mail de contact (rua=). Moins de cinq minutes plus tard,
MXToolbox voit déjà les modifs, dnschecker idem.
[Hachino] Rezel va soon™ avoir un accès Internet de secours par moji.
Est-ce qu'on envisagerait pas de déplacer nos serveurs de secours chez eux plutôt
que chez OVH, à terme (pas demain, un jour) ?
[Lyes] Sinon en interENS avec la DGNum, Aliens et Sinfonie, comme discuté plus
haut ?
Surtout la DGNum, ça reste relativement proche pour une intervention sur place et
indépendant en cas de pépin localisé. Rezel est un peu trop proche et corrélée
au Crans.
D'ailleurs, Sinfonie est intéressée par ce projet (ils viennent de faire leur "passation
mail" et de répondre à un mail du 6 juin de Lyes le 17 septembre). Concours de
qui laisse
traîner le mail le plus longtemps ?
[Hachino] INFO : Reboot manuel de neree (Galène), qui le réclamait. Ok.
Clôture de l'IN.