Responsable d’exploitation

Logo Oceanet Technology
Logo Oceanet Technology
Responsable d’exploitation
 

La digitalisation accélère l’économie, la disponibilité des services et les interactions des entreprises. Le bon fonctionnement de vos applications métiers, de vos sites internet, des plateformes e-commerce dépendent de plusieurs services et parfois de plusieurs donneurs d’ordres. Mettre du liant et se doter d’une vision globale participe à l’amélioration continue, le responsable d’exploitation est donc un des maillons de la chaîne.

De nombreux domaines d’expertise & interlocuteurs

Certains projets mettent en oeuvre une multitude de compétences, de ressources, de personnes.

Lors d’incidents, les acteurs concernés vont focaliser sur la résolution de leur problématique et occulteront peut-être d’autres dépendances. Sur le maintien opérationnel de services clefs métiers, la maintenance combinée de deux ressources non critiques peut provoquer un incident majeur.

Exemple « classique » d’un parcours incident avec dépendance

9h00 : Une pelleteuse arrache des canalisations internet haut débit (THD) à Lyon

  • Vous disposez de raccordements SDSL ou FIBRE d’opérateurs locaux (DSP, Metropole) ou nationaux (OBS, Axione, SFR, Bouygues …).
  • L’appel abouti au support sera fréquemment : mon serveur d’application, ma messagerie, mon serveur de fichiers ne fonctionnent pas !
  • Via le monitoring global ou par questionnement, le technicien comprendra rapidement l’erreur d’interprétation et lancera la bonne action.

9h30 : Le siège ne reçoit plus une partie des emails (MX)

  • Vous disposez d’un relais de messagerie hébergé (relais smtp, filtrage antispam, antivirus …)
  • Le service financier n’a pas reçu la commande du commercial lors de son passage à Lyon
  • L’alerte au support indique : dysfonctionnement de mails. L’analyse montre que le serveur a un comportement normal. On soupçonne le filtrage (mots interdits, pièce jointe suspecte … )
  • L’utilisateur est invité à contacter son correspondant pour recommencer.

10h00 : Toujours pas de commande …

  • L’appel au support se réitère. On passe donc les logs au peigne fin pour découvrir qu’aucun mail n’a été émis depuis 9h depuis ce site.
  • La recherche des tickets de Lyon met en évidence la panne d’internet
  • On clôture le ticket de mails

11h00 : livraison de l’accès de secours (5G)

  • La réparation des fibres va être longue. Le support a pris la décision de faire livrer un accès de secours sur site.
  • L’activité reprend …
  • Réseau visible : le mail part.

11h30 : On perd une journée d’approvisionnement

  • Toujours pas de mail
  • L’alerte au support détermine la raison : il a bien tenté d’être livré mais la connexion d’origine était inconnue/abusive et il a été traité comme une tentative de fraude.
  • On recherche l’adresse IP en question … et on tombe sur le boitier de secours.
  • On modifie temporairement les règles de filtrage pour accepter leurs mails le temps des travaux.

Dans le cadre d’un suivi « responsable d’exploitation », les équipes de support sont informées des évènements impactant et le responsable a une vue globale des dossiers permettant d’assurer une vigilance auprès de chaque équipes :

  • la panne de fibre du site de Lyon aurait été notifiée en « incident générique »
  • l’appel au support de 9h30 aurait été clos immédiatement (cause connue)
  • la modification des règles de filtrage mails aurait été synchronisée avec l’envoi d’un boitier de secours 4G
  • le mail aurait été réceptionné à 11h05 et la commande d’approvisionnement gérée à temps.

Optimiser le fonctionnement global

Tout l’intérêt du responsable d’exploitation réside dans sa vision globale. Il est évident que cette prise de recul permet une résolution plus rapide des incidents et évite l’effet domino, mais son travail fluidifie également les process. Disponibilité de liens réseaux (sdsl), opérations de maintenance (sauvegardes, archivage), rechargement des paramètres ou déploiements de versions… le R.E. dispose d’une vision de l’ensemble des monitoring, supervisions et planification des taches. Il peut ainsi :

  • replanifier des opérations non critiques sur des plages utilisateurs moins chargées,
  • fournir aux équipes des métriques globaux pour l’amélioration de la qualité
  • comprendre l’origine de ralentissements aléatoires
  • coordonner des opérations de maintenance avec coupure dont les éléments sont interdépendants
  • proposer des optimisations (serveur de cache, réplication de fichiers)…

Le responsable d’exploitation (ou responsable opérationnel de compte) porte un objectif majeur : réduire la perte d’information et fluidifier les actions.

Des bénéfices immédiats : une réalité quotidienne très éloignée des habituels 10% !

Assurer une traçabilité des actions

Equipes réseaux, administrateurs systèmes, techniciens supports de domaines …

La journalisation des actions réalisées par nos équipes existe pour chaque ressource et une vue consolidée pourra être réalisée.

Mais qu’en est-il des actions externes, des collectes de données chez d’autres hébergeurs, des livraisons applicatives de votre éditeur ?

Le rôle du responsable d’exploitation n’est pas de piloter les équipes externes ni de s’assurer que chacun réalise les prestations attendues (cf Delivery Manager). Il participe toutefois à la traçabilité de l’ensemble des données impactant les infrastructures qu’il a en charge. Mise en place de sondes de monitoring sur des données externes, validation d’accès prestataires sur le bastion d’administration, procédure d’acceptation de livraison en pré-production … il va consigner des évènements externes à ses équipes pour assurer une traçabilité consolidée. Ce process lui permettra d’une part de déterminer les « incidents génériques » mais fournira également au porteur de projet ou au delivery manager les informations fines sur l’exploitation quotidienne.


Suivre et optimiser vos process et vos données

Suivre et optimiser vos process et vos données

Externalisation en datacenter, cloud privé ou public. Service support 24×5

« La réussite des uns dépend de la réussite des autres. » John Davidson Rockfeller

Cloud public, cloud privé, housing, SaaS … l’important n’est pas la ressource mais la maitrise des données gérées