Certains systèmes rencontrent des problèmes

Incidents antérieurs

31st décembre 2019

Problème de performance sur PostgreSQL

La restauration de Mastodon hier a posé un problème lors de la recréation d'index à cause d'entrées dupliquées. Je fais tout mon possible afin de recréer cette entré.

  • La base de donnée est maintenant restauré et les problèmes de performance semblent avoir disparu.

    Nous surveillons notre métrologie afin de détecter le moindre problème.

  • Les différentes tentatives de réparations n'ont rien corrigé. Je remet le backup d'hier 9h qui était fonctionnel. Toutes mes excuses pour la gêne occasionnée

  • Même après une chute de l'utilisation du disque, celui ci reste très solicité par Mastodon. Je cherche des solutions

  • L'utilisation disque a chuté, l'index a été créé. Mastodon est plus réactif. Mais j'ai toujours un load de 10 sur le serveur PostgreSQL a cause de Matrix.

  • Tous les tags ont été dupliqué le 25 décembre, je les ai donc supprimé à partir de cette date. L'index se reconstruit.

  • Matrix Serveur Matrix arrêté

    La base de donnée de Matrix a augmenté de 50Go de manière anormal. Le service Matrix a donc été arrêté le temps de la suppression et du vacuum des events dans la base de donnée afin de revenir à une taille normale.

    Toutes mes excuses pour la gêne occasioné.

  • La base de donnée est de nouveau fonctionnelle !

  • Matrix est de nouveau fonctionnel Mastodon n'a pas eu cette chance

  • La base de donnée de Mastodon ne se réimporte pas

    psql:mastodon.dump:32082526: ERROR:  could not create unique index "index_tags_on_name_lower"
    DETAIL:  Key (lower(name::text))=(ヤギ) is duplicated.
    CONTEXT:  parallel worker
    
  • Catlife, DryCron et Invidious sont de nouveau UP. Il y a eu un défaut avec la restauration de la base de Mastodon car il s'agissait d'une sauvegarde avant de restaurer le cluster afin de ne pas perdre de donnée), j'ai relancé un import.

  • Le recovery est terminé. Je réimporte les dumps de mastodon et plume afin de ne pas perdre de donnée.

  • PostgreSQL a été relancé. Il récupère les xlogs afin de finir sa réparation.

  • La restauration des backups prennent plus de temps que prévu... J'ai rencontré des soucis entre la restauration dans le mauvais répertoire et l'espace disque qui a saturé.

  • Les actions ont généré d'autre problème, le service n'est plus accessible.

  • Le service est revenu.

  • 30th décembre 2019

    Aucun incident signalé

    29th décembre 2019

    Aucun incident signalé

    28th décembre 2019

    Aucun incident signalé

    27th décembre 2019

    Aucun incident signalé

    26th décembre 2019

    Aucun incident signalé

    25th décembre 2019

    Mise à jour de PostgreSQL

    En cette période de fête, les services DryCat sont peu utilisé. J'ai donc mis à jour la machine hébergeant PostgreSQL. Cela génère une indisponibilité sur les services dépendant (Mastodon, Matrix).

    Nous travaillons à rétablir au plus vite la situation.

  • Le serveur PostgreSQL est maintenant correctement configuré. Je clôture donc cet "incident".

  • L'indexation est terminée Les services sont de nouveaux accessible. Cependant je laisse tourner 24h afin d'avoir les points d'optimisation à avoir pour la base de données.

    Des lenteurs seront donc a constaté

  • La migration est terminé, la reindexation est en cours

  • 24th décembre 2019

    CatLife Mise à jour de plume échoué/

    Une mise a jour de catlife a échoué. Nous investiguons sur la cause.

  • L'application a été rollback. Une issue a été ouvert sur github.

  • 23rd décembre 2019

    Aucun incident signalé

    22nd décembre 2019

    Aucun incident signalé

    21st décembre 2019

    Aucun incident signalé

    20th décembre 2019

    Aucun incident signalé

    19th décembre 2019

    Aucun incident signalé

    18th décembre 2019

    Aucun incident signalé