12 KiB
Réunion du Collège Technique
- Date : Mardi 04 Juin 2019
- Début : 19h52
- Fin : 21h57
- Lieu : 2B
- <>
Présents
- Esum
- Mikachu
- Erdnaxe
- Vulcain
- Pollion
- 20-100
- Solal
- Raida
- PAC
Ordre du Jour
Liste de tête des choses à faire
- Pare-feu
- IP Zayo
- Soyouz2
- Routage
- Baie
Maintenance baie
Il faut changer le switch temporaire de la baie de disques par les petits switchs qu'on a achetés Il faudrait essayer d'avoir le maximum de gens pour le faire, ce serait formateur d'avoir des gens et de faire des choses en même temps
On la fait quand ? En juillet ?
Pollion est dispo à partir de début juillet (genre >= 5 Juillet)
Quid des mails ? solution temporaire de esum: virer les % réservés à root dans la partition /var/mail (qu'on devrait virer partout, ça sert ~à rien sur des partitions où root a pas à écrire) solution à long terme: agrandir la partition lors de la maintenance de la baie
Apparté RENATER
Ça a coupé, on a été avertis, les gens se demandent qui sont sur la ML DSI-Cr@ns. Il s'avère que c'est plein de gens random dont des dinosaures. Oups, on rajoute le bureau.
soyouz2
Quand est-ce que les apprentis sont dispo ? Ce serait bien de l'installer avant cet été. Je suis libre dans la semaine Vulcain, Raida, Benjamin sont chauds pour l'installer et tout déployer avec Ansible.
Mettre à jour les serveurs de backup
{{{omnomnom}}} et {{{zephyr}}} ASAP, Pollion et Vulcain s'en occupe après ses oraux sauf si vous voulez vous en charger avant.
Titanic
Achevez le. Il est à l'agonie et le rapelle un peu de temps en temps, le pont il fait des choses cheloues. Est-ce qu'il faudrait pas le réinstaller ? Si on le fait, il faudrait le faire en même temps que soyouz2.
Pollion explique ce que fait titanic : il fait passer un minimum vital via la Freebox. Mais cette feature a été laissée tombée il y a longtemps, ça n'est pas vraiment utile. Le gros intérêt est pour les membres actifs de rentrer sur le campus via la freebox quand les autres routes (Renater, Zayo) tombent.
Une nouvelle VM a été créée pour que les apprentis jouent avec, et tentent une installation en coordination avec soyouz2 (= Spoutnik). Ce serveur s'appelle Boeing.
Cableuse
Pas grand chose à dire à part qu'elle marche et que on va sûrement la mettre à la Kfet avec Windows 10 / Ubuntu 18.04 en dual boot (Erdnaxe : "Je voulais brûler Windows avec /dev/null mais on m'a convaincu que des câbleurs en aurait besoin et puis on a une licence") Elle fait beaucoup de bruit, quasiment autant que le bruit ambiant Kfet d'un jour calme. Si les gens l'utilisent beaucoup, il faudra ptetre investir dans un vrai ventilo >8€.
Erdnaxe il a tout réparé, Erdnaxe il est trop bien, on aime Erdnaxe. Elle est à disposition des câbleurs.
Prometheus et fy
Monitoring des bornes et des switchs, notamment.
Besoin d'un coup de main sur les MIBs SNMP mais sinon avec un peu de temps tout y sera. Est-ce que l'on formatte fy à terme sur buster avec Prometheus ? +1 pour le formatage une fois qu'on a une POC de Prometheus qui fait bien tout ce qu'on veut :)
Et on reinstalle quoi dessus ? Que prometheus. Le souci du stockage qui grossit à l'infini a été résolu ? A priori, avec prometheus 2 (donc sous buster), c'est mieux géré, il droppe ce qui est plus vieux que $jours (mais il ne sait pas faire de downsampling (= sur les données plus anciennes, ne garder que des tendances et pas toutes les données) Est-ce qu'on peut avoir des mails plus utiles ? Changer le template HTML des mails ferait qu'on divergerait d'une install classique. Essayer de les passer en raw text ?
##> envoyer le monitoring sur un channel IRC, plutôt ? Du coup erdnaxe fera un chan #monitoring accessible pour tout le monde (munin l'est, grafana aussi). Éviter d'y discuter Ça en est où niveau parité d'utilisation avec les solutions éxistantes ?
- A priori, tout ce que fait munin, prometeus sait le faire. Sauf l'historique.
Est-ce qu'on a une page alerte comme dans munin ?
On peut avoir le CAS pour se loguer sur grafana ? Ce serait cool parceque ça permet de faire du Single Sign On, grafana le supporte par le proxy.
On peut peut-être continuer à garder Munin s'il fait du downsampling, et que les vieux s'en servent ça peut aider à proposer un diagnostic non ?
Knot
Il y a eu des soucis avec Knot depuis qu'il a été mis en place, et il semblerait que certaines feature de Bind ne soient pas supportées correctement.
Proposition : Revenir à Bind. Des gens sont motivés pour le faire, donc pourquoi pas. On fera ça dans l'été, il n'y a pas urgence.
RFC2136 avec knot/bind
On pourrait utiliser certbot en wildcard avec cette RFC. On pourrait réécrire le service re2o DNS pour utiliser cette RFC. On pourrait drop le service re2o DNS et laisser le serveur DHCP remplir le DNS quand un client se connecte avec cette RFC. On pourrait expérimenter des choses fun quoi... avec cette RFC.
Marrant, mais pas urgent. On le rajoute dans la file d'attente mais avec une priority low On envoie un mail.
Mika met en garde, on peut perdre des trucs au reboot, faut voir.
Mailman 3
Faut motiver qqun dessus mais c'est critique et stressant. Pendant l'été TOUT PENDANT L'ETE ! On peut faire plein de choses pendant l'été.
Proxmox et le stockage
Est-ce qu'on essaie de faire un truc plus propre ? pourquoi s'embeter avec du LVM et pas faire gentiment du qcow2 ? (proposition: on exporte la baie en iscsi et on fait juste des disques qcow2 dedans, pas besoin de lvm, pas besoin de quoi que ce soit de relou...)
##> Erdnaxe : ça semble + maintenable que la solution actuelle donc je suis pour.
Attention à ne pas mettre trop de trucs en place en même temps tout de même. Chaque chose en son temps.
Voir le tableau des stockages supportés ici : https://pve.proxmox.com/wiki/Storage
Certains types de stockage ont été testés sur la baie de Servens, comme prétest avant le Crans. Cours résumé ici :
Qu'est-ce qui a été testé à servens ? ZFS over iSCSI ZFS puis export en NFS de pools zfs ZFS puis export en iscsi de volumes lvm dans la pool
Question : Pourquoi ne pas faire directement du iSCSI
- Parcequ'on avait envie de s'amuser avec ZFS
Erdnaxe propose du Ceph en achetant du stockage, mais c'est plutot une solution pour Aurore ça… Mikachu précise que bien que Ceph semble interessant, c'est seulement dans le cas où il y a plusieurs serveurs de stockage, et accessoirement avec une baie comme la notre, il faut mettre un serveur en plus si on veut faire plus que juste exporter en iscsi
Erdnaxe répond qu'on pourrait mettre des disques dans chaque virtu et faire du ceph dessus (l'idée est de garder la baie que pour les mails/homes)
Mikachu : Euh ça semble relou/20, ça veut dire que la mort d'un virtu implique aussi la mort d'une partie de ton stockage, mais ça peut se faire, je sais qu'en général les gens aiment bien séparer le compute (des hyperviseurs avec peu de disque et beaucoup de cpu/ram) et le storage (des baies avec plein de disques (et des ssd potentiellement pour faire du cache) et pas beaucoup de cpu/ram) oh ok :)
On coupe court à cette discussion : Ça ne sert pas à grand chose dans ces conditions. Il vaut mieux faire un thread sur la ML nounou@ pour que les gens aient le temps de regarder pour donner leur avis.
Lien vers l'issue phabricator : https://phabricator.crans.org/T434
Runner gitlab
Ça en est ou ? Ça semble tourner sur {{{vulcain}}} mais on n'en fait pas la
pub. Est-ce que le souci d'espace disque a été résolu ?
Il suffit de pull une deuxième image LaTeX différente pour saturer la CI.
Normalement la ci est censée faire le ménage dans les images peu utilisées mais
c'est pas trop le cas.
Après je trouve que l'on a été radin sur l'espace disque ici.
Solution :
Augmenter un peu le /var/docker
Mettre un cron qui docker image prune
régulièrement. Erdnaxe propose de
chercher ce que fait Gitlab, car pour le moment il crashe quand ça sature
plutôt que de nettoyer.
Migration des serveurs sur les ip RIPE
Un certain nombre de serveurs sont encore sur le / d'ip de l'ENS. Ça serait bien de tout passer sur les IP Crans sur 185.230.79.0/24 (voir [[https://phabricator.crans.org/T323|l'issue phabricator]]), vlan qui a été nommé DMZ l'an dernier.
On rappelle ce qu'est une DMZ : Il s'agit plus d'un sous-réseau séparé du réseau local. On y met les machines qui doivent être accessibles depuis Internet, mais qui sont susceptibles d'être attaquées, et n'ont pas besoin d'avoir un pied sur le réseau local.
Actuellement Adm est le contraire d'une DMZ : Il s'agit d'un VLAN d'administration sur lequel on a mis tous les serveurs crans. Les ip derrière ADM ne sont pas accessibles depuis Internet.
A-t-on vraiment envie de faire une DMZ ?
Mise en avant des services crans et statistique d'utilisation
On a plein de service cool mais souvent aucune pub n'est faite pour et on ne sait pas ce que les gens utilisent ou pas. Ça serait cool de regarder pour faire des stats sur ça réfléchir à la mise en avant de service. Du maintien ou non de service (coucou les news)
Erdnaxe dit que pour la plupart des services on peut facilement exporter l'utilisation s'ils sont derrière un nginx (prometheus).
Réponse : Alors non ça ne fait pas tout, mais ça sera déjà un début, par exemple tu peux vouloir avoir le nombre de pad créé et ça je ne pense pas que le fait qu'il soit derrière nginx t'aide.
Erdnaxe : Gitlab exporte de base en prometheus, django a un module pour
esum rappelle aussi que l'on peut faire des livrets On envoie ce problème au CA
Séminaires à la rentrée
Git le retour , Django, howtobasic du Crans (PAC, qui n'as pas encore choisi)
##> Django Contrib (erdnaxe) mais ptetre trop avancé pour un premier séminaire il faut commencer par python puis django peut être
Pour la rentrée il vaut mieux des séminaires faciles : Introduction à Linux, shell, ssh, comment marche le crans, internet c'est magique ? Le !BaBa de la sécurité & co. Python basique ça rentre dans les séminaires de rentrée oui. Après vu que Pac part en germanie on peut aussi faire d'autre types de séminaires
Ansible
On fait le bilan d'Ansible. Ce qui a déjà été fait, quelle est la prochaine étape.
Erdnaxe, avec l'aide d'autres membres du CT, a mis en place un certain nombre de playbooks Ansible. L'objectif à court terme est de remplacer BCFG2 qui viellit un peu.
Actuellement c'est toujours plus ou moins en phase de test, et seuls les serveurs les plus récents ont été mis en place avec Ansible. Peu de gens sont formés pour l'instant.
On propose d'avancer durant l'été dessus, ça serait cool de faire une transition depuis BCFG2.
Le portail captif
Le portail captif fonctionne au Villon.
Le Wifi
Chirac a mis à jour les bornes et ça a cassé le wifi.
Bilan :
- Le SNMP ne marche toujours pas dans les nouvelles versions du coup monitoring is not coming !
- Le Wifi a violemment diminué de portée.
- Il faut bidouiller pour pouvoir se reconnecter.
On rappelle aux nounous que c'est bien de faire des tests avant de mettre à jour des services assez critiques comme les bornes. Surtout quand une simple recherche sur la mise à jour indique une forte instabilité. Pour les bornes par exemple, celle du 2b est entre autre là pour ça. Par ailleurs, il faut vérifier que tout fonctionne correctement après la mise à jour.
On rappelle aussi qu'il faut arrêter de rager dès que quelqu'un fait quelque chose qui casse un truc ; ça peut arriver. On rappelle (encore une fois) aux gens qui ont l'habitude de casser des trucs qu'il faut se coordonner avec le reste de l'équipe technique et ne pas tout faire seul dans son coin. Personne n'est infaillible.
On va donc downgrade vers une mise à jour stable pour récupérer un meilleur wifi.
Commission achat Crans - AURORE
Le CT doit désigner 2 membres pour le représenter à la commission achat crans-AURORE.
Ce sera Mikachu et Erdnaxe