L'exploitation informatique est l'activité qui consiste à maintenir opérationnel de manière stable, sûre et sécurisée un outil informatique dans un #environnement de développement, d’homologation, de qualification, de formation, de pré-production ou de production #informatique , dans ses parties matérielles et surtout logicielles.

Les équipes d’exploitation souvent appelées pupitreurs, pilotes, exploitant sont telles des mécaniciens de bateau au fond de la cale, on ne les voit que très rarement à l’extérieur. Pour autant, le navire n’avance qu’avec leurs attentions et expertises quotidiennes.

Leur rôles est ainsi de permettre aux serveurs de fonctionner, s’assure (avant/pendant/après) de la

haute disponibilité de tous les composants (maintien en condition opérationnelle #MCO) et de la bonne fin des traitements lancés ainsi que du dispatching des états (outputs/livrables).

En un mot nous leur sommes redevables du fonctionnement quotidien du système d’information….

Pour en savoir plus :

Sommaire :

1. Des compétences et connaissances requises

Compétences Techniques
Compétences Comportementales

2.     Des rôles et responsabilités attendus dans l’entreprise
3.     Comment le département d’exploitation opère-t-il pour assurer sa fonction ?
4.     Sur quoi l’exploitation s’appuie elle pour rester efficace ?

Identifier les parties prenantes et définir des contrats de service :
Contrôler les accès physique et systèmes

5. La routine d'un exploitant
6. Les sauvegardes
7. La résilience :
8. De la contribution aux projets

Des compétences et connaissances requises :

Les équipes de l’exploitation travaillent souvent en horaires décalée nécessitant un planning d’intervention bien définie et respectant la législation. Souvent reparties en shift/groupe/quarts qui se relaient pour couvrir les 24h de la journée et 7 jours de la semaine. Une bonne capacité de planification est nécessaire pour cet exercice, mais également une capacité à regroupés des profils compatibles pour la productivité (s’appuyer sur le DISC assessment 24/7) …

Au de la des compétences spécifiques requises par le poste en question, vous trouverez souvent des compétences générique suivantes :

Compétences Techniques :

- Bonne connaissance des systèmes d'exploitation, des architectures système et réseaux.
- Bonne connaissance du Scripting (Shell, batch, python, JavaScript …)
- Bonne connaissance des outils et utilitaires d'exploitation (Transfert de fichier, supervision, Gestion des indicateurs de performances …)
- Bonne maîtrise des outils de suivi des traitements automatisés (Ordonnanceurs, Control M, Job Scheduler, JCL)
- Bonne maîtrise des bases de donnée Informix, Oracle, PostgreSQL, SQL Server
- Bonne connaissance des suites Microsoft office ou équivalent

- Maitrise des langues (français, anglais, espagnol, arabe) souhaitable.

Compétences Comportementales :

De l'expérience générale en informatique et spécifique sur le domaine
-          Confiance en soi
-          Créativité ;
-          Débrouillardise ;
-          Efficacité ;
-          S'engager avec les autres
-          Habiletés en analyse et en raisonnement
-          Adaptabilité
-          Capacité d'apprendre
-          Capacité de travailler avec les autres
-          Rigueur, motivation et   persévérance
-          Fiabilité et sens de la responsabilité
-          Initiative
-          Intégrité (honnêteté et éthique)
-          Intelligence émotionnelle (pour agir avec les autres en situation très stressante)

Tous ces éléments doivent être mesurés (oui ils sont mesurables) et consigner dans une matrice de compétences. Cela permettra à chacun de prendre conscience de ses forces et faiblesses dans son groupe pour des besoins d’introspections et de rétrospections, mais également cartographier les rôles qu’on peut affecter aux profiles.

Des rôles et responsabilités attendus dans l’entreprise :

Comment le département d’exploitation opère-t-il pour assurer sa fonction ?

Exécute les travaux informatiques et restitue les résultats dans le respect des plannings et de la qualité attendue (….des exigences du régulateur).

Supervise les impressions/éditions
Contrôle le fonctionnement des ressources, CI (configuration Item)
Suit l’exploitation des systèmes et outils de production
Suit l'exploitation des applicatifs
Contrôle la gestion de la qualité des résultats d’exploitation
Aide à la prise en main des équipements et logiciels installés

Assure l’intégrité des bases de données existantes en garantissant :

- la sécurité physique (procédures de sauvegarde, restauration, journalisation, démarrage après incidents…);

- La sécurité logique (confidentialité, accès), authentification;

- Effectue le suivi de la qualité de la production (performances, incidents) conformément au contrat de service (avec les KPI);

- Met en œuvre les outils et procédures de surveillance (SP : surveillance permanente des ressources en référence au planning des travaux de la journée);

- Assiste les utilisateurs (formation, requêtes techniques…)

- Assure un rôle de correspondant technique entre les chefs de projets et le support technique des éditeurs

- Assure une veille technologique sur les SGBD et les progiciels retenus par l’entreprise

- Suit et contrôle les évolutions de version des bases existantes et progiciels retenus par l’entreprise

- Teste, valide, pour les aspects techniques, tous les logiciels et progiciels ; après chaque changement.

- Met en exploitation et en gestion les serveurs de données (administration, automatisation, développement des procédures, sécurité et autorisation d’accès, optimisation des traitements et des requêtes…)

Intervient dans la mise en exploitation de nouvelles applications ou la livraison de nouvelles versions de ces applications (PATCH).

Gère les changements concernant les applications en production (de l’organisation à la validation des processus)

Contrôle l’exploitabilité de la solution sur les serveurs
Valide la faisabilité des déploiements et intégration systèmes
Accompagne les projets d’un domaine d’activité en tant que spécialiste de la production
Planifie et suit l’activité d’intégration du domaine concerné en relation avec les études, développement
Diagnostique les incidents en cas d’alerte d’un utilisateur ou des applications de supervision

Alerte et intervient sur les incidents (diagnostic, intervention, ….)
Lance les outils ou les commandes de reprise (reprise manuelle, reconfiguration des ressources, recopie des fichiers, opérations de sauvegarde…)
Relance les travaux après résolution
Alimente la base des incidents
Maintient la documentation de pilotage ( post mortem pour alimenter la gestion des problèmes…..)

Effectue les tests et recettes utilisateurs des équipements informatiques durant les phases de projet pour s’assurer de recevoir une solution adaptée à la production (70% des projets mises en production génèrent des incidents….)

Sur quoi l’exploitation s’appuie elle pour rester efficace ?

Apres une bonne compréhension des orientations stratégique de l’entreprise , plus vraiment compliqué, on ne recrée pas la roue …… on s’appuie sur l’imagination avec comme garde fou les référentiels de bonne pratiques 😀 .

Les organisations n’ont pas les mêmes contraintes ni les mêmes exigences en terme de niveau de service attendu, il faudra faire un choix sur les outils à adopter et adapter à son mode de fonctionnement au regard de la taille de son entreprise et de ses aspirations.

Cependant, toute organisation doit se poser la question du niveau de service attendu car de cette étude, découlera la qualité normative dans les différents domaines. Un conseil toujours lire et s’aligner à la vision stratégique de l’entreprise

Identifier les parties prenantes et définir des contrats de service :

Définir des contrats de service avec tous les départements avec qui on travail contribue à la clarification des rôles, des responsabilités et améliore part conséquence la qualité du service. Ce contrat doit faire régulièrement l’objet de réévaluation dans un cadre d’amélioration continue … (S’appuyer sur les référentiels PRINCE2 et ITIL/ SLA (Service Level Agreement))

Les accès physique et système

Au vue de la nature des travaux effectués par les équipes exploitation, il est nécessaire de les regrouper dans des bureaux avec un accès physique contrôlé et limité (badge, clé, …) pour garantir une sécurité optimale.

Cette même rigueur est attendue sur les accès aux infrastructures et système (authentification), qui d’ailleurs au-delà de l’accès doit être tracés et audité.

Suivant la taille de l’entreprise, on peut avoir besoin d’une personne voire une équipe dédiée à cette activité.

La gestion des accès peut facilement devenir problématique si la légitimité et les bons protocoles sont mal pris en charge. Il est donc conseillé de mettre en place des solutions pour une réinitialisation automatique planifiée.

La routine à l’exploitation :

Il est souhaité, voire logique que les équipes qui sont à la rescousse, support, de la partie la plus importante du SI aient des équipements (personnal computer) adaptés et un réseau sûre et stable pour l’exécution au quotidien de leur fonction/rôle, leurs performances en dépendent.

Toute exploitation suppose un enchaînement des phases suivantes :

-          Planification,
-          Préparations,
-          Lancement
-          Suivi,
-          Restitution des livrables,
-          Rapport et REX de traitement

La planification consiste à ordonnancer les travaux à lancer compte tenu :

-          De la disponibilité des intrants (flux à intégrer avant le traitement …)
-          Des besoins des utilisateurs,
-          De la règlementation,
-          Des contraintes de charge serveur (Processus, CPU / disques / bandes, etc.),
-          Etc. ….
La préparation consiste à recenser et mettre à disposition des pupitreurs l'ensemble des moyens nécessaires au lancement des traitements planifiés :
- Vérifier que les conditions de lancement sont déjà accomplies ;
-          Renseigner la situation avant traitement dans un document (souvent appelé cahier d’exploitation ou cahier pupitre ou rapport de surveillance permanente)
-          Dispatcher les tâches à réaliser entre pilotes/pupitreur (rôle et responsabilité définies)
-          Initialiser la checklist des tâches à exécuter
Le lancement et le suivi des traitements sont le travail principal du pupitreur qui doit :
-          Renouveler sa concentration aux égards des tâches à réaliser,
-          S’accorder avec les membres de son shift/quart ;
-          Lancer les traitements préparés conformément au planning (suffisamment clair et explicite). Et aux possibilités matérielles,
-          Suivre religieusement leur exécution et surtout leur bonne fin,
-          Mettre à jour le planning après exécution des traitements,
-          Informer de l’évolution des traitements
-          Renseigner les blocages la base de gestion des incidents (KEDB : known error database)
-          Dispatcher les états issus des traitements

Préparer le rapport de changement de shift (pour rappel c'est une équipe qui fonctionne généralement en shift et fait un relais avec un autre par le biais du rapport de suivi, checklist, documents de suspens …)
L'objectif de qualité consiste donc à s'assurer que ces étapes sont respectées, contrôlées et formalisées.

Les Sauvegardes

Il n'est pas nécessaire de rappeler l'importance de la sauvegarde (programmes, données, système ...). Toutefois, une sauvegarde n'a d'intérêt que si elle est réutilisable, il est impératif de procéder à des vérifications de relecture, des tests de restauration, également consigné dans des documents ….souvent réclamé par l’audit.

Je profite de cette fenêtre pour rappeler que chaque fichier/objets qui doit être mise en jour en production doit être sauvegardé en amont.

Les sauvegardes sont faites notamment pour permettre de restaurer les fichiers en cas de sinistre. Il est donc indispensable qu'un jeu de sauvegarde des fichiers stratégiques soit périodiquement stocké en un lieu externe (Un robot de sauvegarde comme le TSM, produit IBM, est généralement utilisé pour stocker les données sur des bandes LTO et les externalisées du site de travail…et les traces conservées dans une application ou un registre).

En effet, les sauvegardes sont nécessaires en cas de crash ou indisponibilité du site informatique.

Le challenge reste sur la définition d’une bonne politique sûre et efficace de sauvegarde (données, périmètre, fréquence, la durée de rétention (défini par le régulateur pour les banques) ….)

La Résilience :

Une fois tous ses efforts en place, il est important de les consolider par un plan de secours, évaluer et développer la capacité à rebondir en cas de crise (PCA et/ou PRA.)

Aucun équipement ou centre informatique ne peut garantir une disponibilité du SI de 100 % dans le temps.

Il peut toujours arriver des situations qui paralyse les infrastructures et empêchent les équipes d’exploitation d’opérer (on va se limiter sur le cas des infrastructures, sachant que la résilience est large et peu faire intervenir un plan plus complexe avec un déplacement sur un site de replis des sachant, toxique Handler en cas d’impossibilité d’accès du site de travail) , d’où la nécessité d’avoir un plan de backup (réplication, synchronisation, archivage, externalisation …. )

Pour être efficace, toujours tenter de répondre aux questions suivantes pour adopter une démarche acceptable :

Combien de temps l’entreprise peut accepter que les applications soient H.S. (hors service?

Quelles sont les applications les plus indispensables à l'entreprise (cartographier les applications et évaluer leurs criticités (détermination des applications prioritaires, évalué périodiquement)) ?

Comment le système sera-t-il restauré en cas de problèmes, existe-t-il une procédure réaliste et formalisée?

Existe-t-il des procédures d’exploitation en mode dégradées pour fonctionner temporairement en mode manuel ?

Toute cette démarche n'a de sens que si elle est formalisée et régulièrement testée.

Un sinistre informatique déstabilise les équipes et l’entreprise (voir la résilience organisationnelle). Dans un tel contexte, l'improvisation et la créativité se révèlent généralement insuffisants. Les gens inconséquents comptent souvent sur la chance mais c'est rarement l'approche idéale, je vous promets.

Il est essentiel de prévoir une situation de crise généralement inconnue et réaliser des tests pour s’assurer de cerner tous les besoins essentiel et fluidifier la communication échange en cas de sinistre/crise:

L’exploitation s’appuie sur des procédures très souvent pour l’exécution de plusieurs traitements. Il est important de toujours revoir et évaluer ces procédures (s’appuyer sur COBIT) et les stocker dans un environnement sûre et accessible (pourquoi pas le cloud….)

De la contribution aux projets :

Très souvent source de discorde entre les équipes de projet et de production car étant la source de plus de 50% des incidents de la production.

Entre des équipes d’exploitation qui veillent à la stabilité des applications et les équipes de projet pour lequel cette étape est sensible dans la vie de leur projet par ce que souvent évalués sur le TTM (Time To Market) ;

Un réel défi des DSI d’évaluer les risques et prendre en compte le besoin de toutes les parties prenantes (voir COBIT) J

Un conseil : les mises en production (full release, delta release, package release) ne doivent se faire qu'en milieu de mois et tous les programmes qui doivent être livrés soumises à une validation, au moins une semaine avant.

Il est très fréquent que des organisations aient plusieurs projets en cours au même moment. S'appuyer sur le release management (ITIL) qui fournit une approche structurée pour rassembler ces changements, les tester et ensuite les introduire, en toute sécurité, dans les environnements réels dont dépendent les opérations de l'entreprise. Il vérifie également que toutes les connaissances et ressources applicables soient transférées aux équipes opérationnelles qui vont définitivement les prendre en charge. Souvent oublié dans la pratique de mise en production.

Pour l’exploitation, cela doit également être l’occasion de vérifier l’impact de leurs implications dans les recettes ou validation des cahiers de tests, mais également une étape qui souvent marque un changement de procédures et de mode opératoire donc une rupture en matière d’organisation des rôles et responsabilités, RACI.

Pour participer au succès des MEP, l’exploitation s’implique dans plusieurs phases du projet :

Le choix de l'outil, application : vérifié l’adhérence des produits choisis avec la production,

Cadrage (identification des moyens nécessaires à la mise œuvre du projet) : moment où l’on peut intégrer dans la réflexion les exigences de l’exploitation pour la mise en service,

Recette : vérifier que les processus et règles de sécurité de la production sont embarqués et respectés

Homologation : s’assurer avec des tests de charges/performance que l’application est assez robuste pour intégrer la production, mais aussi et surtout que la production actuelle est prête à le recevoir …

Il est recommandé (ITIL) de réunir les parties prenantes pertinentes de la production régulièrement pour évaluer la maturité des projets à rejoindre la production à travers des comités/conseils consultatifs de changement (CAB et eCAB).

Les étapes de préparation des CAB aura pour objet :

-          Constituer la documentation d’exploitation
-          Identifier les procédures de reprise nécessaires en cas d’incident, PCA, PRA….
-          Mettre à jour les procédures de supervision et de contrôles permanant
-      Vérifier la mise à jour de l’ordonnanceur d’exploitation (Control_M, job Scheduler …) ou le planning, afin d’y intégrer les nouveaux traitements
-          Paramétrer la sauvegarde et archivage des fichiers, base ….
-          Prendre en compte les nouvelles données dans la procédure de sauvegarde globale
-          Préparer les étapes ultérieures du plan de mise en production, chronogramme

A la suite d’une mise en production, il convient d’être particulièrement vigilant et de maintenir sous surveillance les nouveaux composants avec des consignes claires et explicites partagé avec le chef de projet owner de la MEP, document sur lequel les pupitreurs s’appuieront pour l’aller vite dans la prise en charge des incidents. Mais également de faire un bilan et consigner le REX dans le document de suivi des faits marquants.

Ce document reste encore très sommaire et ne traite donc pas tous les aspects de l’exploitation informatique, surtout spécifiques. D’autres essais seront réalisés prochainement dans le sens de lever la voile sur ce métier.

Next step :

-          Les outils et les hommes dans l’exploitation informatique
-          La présentation et communication des résultats
-          L’organisation et la résilience
-          Le choix des applications.

- ….

Momar DIAGNE

IT Manager

PRISM, PRINCE2®, ITIL®, SMC™, COBIT®

Mon Profile LinkedIn

Responsable exploitation informatique bancaire (7 banques Afrique de l'OUEST)

Rechercher dans ce blog

L' IT DANS LE SECTEUR BANCAIRE

DECOUVRIR L'EXPLOITATION INFORMATIQUE BANCAIRE

Momar DIAGNE

IT Manager

PRISM, PRINCE2®, ITIL®, SMC™, COBIT®

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

RESILIENCE

PSYCHOLOGIE & SERVICES

HUMEUR TWEET : partage de post-IT