DECOUVRIR L'EXPLOITATION INFORMATIQUE BANCAIRE
L'exploitation informatique est l'activité qui consiste à maintenir opérationnel de manière stable, sûre et sécurisée un outil informatique dans un #environnement de développement, d’homologation, de qualification, de formation, de pré-production ou de production #informatique , dans ses parties matérielles et surtout logicielles.
Les équipes d’exploitation souvent appelées pupitreurs, pilotes, exploitant sont telles des mécaniciens de bateau au fond de la cale, on ne les voit que très rarement à l’extérieur. Pour autant, le navire n’avance qu’avec leurs attentions et expertises quotidiennes.
Sommaire :
1. Des compétences et connaissances requises- Compétences Techniques
- Compétences Comportementales
3. Comment le département d’exploitation opère-t-il pour assurer sa fonction ?
4. Sur quoi l’exploitation s’appuie elle pour rester efficace ?
- Identifier les parties prenantes et définir des contrats de service :
- Contrôler les accès physique et systèmes
6. Les sauvegardes
7. La résilience :
8. De la contribution aux projets
Des compétences et connaissances requises :
Les équipes de l’exploitation travaillent souvent en horaires décalée nécessitant un planning d’intervention bien définie et respectant la législation. Souvent reparties en shift/groupe/quarts qui se relaient pour couvrir les 24h de la journée et 7 jours de la semaine. Une bonne capacité de planification est nécessaire pour cet exercice, mais également une capacité à regroupés des profils compatibles pour la productivité (s’appuyer sur le DISC assessment 24/7) …
Au de la des compétences spécifiques requises par le poste en question, vous trouverez souvent des compétences générique suivantes :
- Bonne connaissance du Scripting (Shell, batch, python, JavaScript …)
- Bonne connaissance des outils et utilitaires d'exploitation (Transfert de fichier, supervision, Gestion des indicateurs de performances …)
- Bonne maîtrise des outils de suivi des traitements automatisés (Ordonnanceurs, Control M, Job Scheduler, JCL)
- Bonne maîtrise des bases de donnée Informix, Oracle, PostgreSQL, SQL Server
- Bonne connaissance des suites Microsoft office ou équivalent
- Maitrise des langues (français, anglais, espagnol, arabe) souhaitable.
De l'expérience générale en informatique et spécifique sur le domaine
-
Confiance en soi
-
Créativité ;
-
Débrouillardise ;
-
Efficacité ;
-
S'engager avec les
autres
-
Habiletés en
analyse et en raisonnement
-
Adaptabilité
-
Capacité
d'apprendre
-
Capacité de
travailler avec les autres
-
Rigueur, motivation et persévérance
-
Fiabilité et sens
de la responsabilité
-
Initiative
-
Intégrité
(honnêteté et éthique)
-
Intelligence
émotionnelle (pour agir avec les autres en situation très stressante)
Des rôles et responsabilités attendus dans l’entreprise :
Exécute les travaux informatiques et restitue les résultats dans le respect des plannings et de la qualité attendue (….des exigences du régulateur).
- Supervise les impressions/éditions
- Contrôle le fonctionnement des ressources, CI (configuration Item)
- Suit l’exploitation des systèmes et outils de production
- Suit l'exploitation des applicatifs
- Contrôle la gestion de la qualité des résultats d’exploitation
- Aide à la prise en main des équipements et logiciels installés
- la sécurité physique (procédures de sauvegarde, restauration, journalisation, démarrage après incidents…);
- La sécurité logique (confidentialité, accès), authentification;
- Effectue le suivi de la qualité de la production (performances, incidents) conformément au contrat de service (avec les KPI);
- Met en œuvre les outils et procédures de surveillance (SP : surveillance permanente des ressources en référence au planning des travaux de la journée);
- Assiste les utilisateurs (formation, requêtes techniques…)
- Assure un rôle de correspondant technique entre les chefs de projets et le support technique des éditeurs
Intervient dans la mise en exploitation
de nouvelles applications ou la livraison de nouvelles versions de ces
applications (PATCH).
- Contrôle l’exploitabilité de la solution sur les serveurs
- Valide la faisabilité des déploiements et intégration systèmes
- Accompagne les projets d’un domaine d’activité en tant que spécialiste de la production
- Planifie et suit l’activité d’intégration du domaine concerné en relation avec les études, développement
- Diagnostique les incidents en cas d’alerte d’un utilisateur ou des applications de supervision
- Alerte et intervient sur les incidents (diagnostic, intervention, ….)
- Lance les outils ou les commandes de reprise (reprise manuelle, reconfiguration des ressources, recopie des fichiers, opérations de sauvegarde…)
- Relance les travaux après résolution
- Alimente la base des incidents
- Maintient la documentation de pilotage ( post mortem pour alimenter la gestion des problèmes…..)
Sur quoi l’exploitation s’appuie elle pour rester efficace ?
Apres une bonne compréhension des orientations stratégique de l’entreprise , plus vraiment compliqué, on ne recrée pas la roue …… on s’appuie sur l’imagination avec comme garde fou les référentiels de bonne pratiques 😀 .
Les
organisations
n’ont pas les
mêmes contraintes ni les mêmes exigences en terme de niveau de service attendu,
il faudra faire un choix sur les outils à adopter et adapter à son mode
de fonctionnement au regard de la taille de son entreprise et de ses
aspirations.
Cependant, toute organisation doit
se poser la question du niveau de service attendu car de cette étude, découlera
la qualité normative dans les différents domaines. Un conseil toujours
lire et s’aligner à la vision stratégique de l’entreprise
Identifier les parties prenantes et définir des contrats de service :
Définir des contrats de service avec
tous les départements avec qui on travail contribue à la clarification des
rôles, des responsabilités et améliore part conséquence la qualité du service.
Ce contrat doit faire régulièrement l’objet de réévaluation dans un cadre
d’amélioration continue … (S’appuyer sur les référentiels PRINCE2 et ITIL/ SLA
(Service Level Agreement))
Les accès physique et système
Au vue de la nature des travaux
effectués par les équipes exploitation, il est nécessaire de les regrouper dans
des bureaux avec un accès physique contrôlé et limité (badge, clé, …) pour
garantir une sécurité optimale.
Cette même rigueur est attendue sur
les accès aux infrastructures et système (authentification), qui d’ailleurs
au-delà de l’accès doit être tracés et audité.
Suivant la taille de l’entreprise,
on peut avoir besoin d’une personne voire une équipe dédiée à cette activité.
La gestion des accès peut facilement
devenir problématique si la légitimité et les bons protocoles sont mal pris en charge.
Il est donc conseillé de mettre en place des solutions pour une
réinitialisation automatique planifiée.
La routine à l’exploitation :
Il est souhaité, voire logique que les équipes qui sont à la rescousse,
support, de la partie la plus importante du SI aient des équipements (personnal
computer) adaptés et un réseau sûre et stable pour l’exécution au quotidien de
leur fonction/rôle, leurs performances en dépendent.
- Préparations,
- Lancement
- Suivi,
- Restitution des livrables,
- Rapport et REX de traitement
- Des besoins des utilisateurs,
- De la règlementation,
- Des contraintes de charge serveur (Processus, CPU / disques / bandes, etc.),
- Etc. ….
- Vérifier que les conditions de lancement sont déjà accomplies ;
- Renseigner la situation avant traitement dans un document (souvent appelé cahier d’exploitation ou cahier pupitre ou rapport de surveillance permanente)
- Dispatcher les tâches à réaliser entre pilotes/pupitreur (rôle et responsabilité définies)
- Initialiser la checklist des tâches à exécuter
Le lancement et le suivi des traitements sont le travail principal du pupitreur qui doit :
- Renouveler sa concentration aux égards des tâches à réaliser,
- S’accorder avec les membres de son shift/quart ;
- Lancer les traitements préparés conformément au planning (suffisamment clair et explicite). Et aux possibilités matérielles,
- Suivre religieusement leur exécution et surtout leur bonne fin,
- Mettre à jour le planning après exécution des traitements,
- Informer de l’évolution des traitements
- Renseigner les blocages la base de gestion des incidents (KEDB : known error database)
- Dispatcher les états issus des traitements
L'objectif de qualité consiste donc à s'assurer que ces étapes sont respectées, contrôlées et formalisées.
Il n'est pas nécessaire de rappeler l'importance de la sauvegarde (programmes, données, système ...). Toutefois, une sauvegarde n'a d'intérêt que si elle est réutilisable, il est impératif de procéder à des vérifications de relecture, des tests de restauration, également consigné dans des documents ….souvent réclamé par l’audit.
Je
profite de cette fenêtre pour rappeler que chaque fichier/objets qui doit être
mise en jour en production doit être sauvegardé en amont.
Les sauvegardes sont faites
notamment pour permettre de restaurer les fichiers en cas de sinistre. Il est
donc indispensable qu'un jeu de sauvegarde des fichiers stratégiques soit
périodiquement stocké en un lieu externe (Un robot de sauvegarde comme le TSM,
produit IBM, est généralement utilisé
pour stocker les données sur des bandes LTO et les externalisées du site de
travail…et les traces conservées dans une application ou un registre).
En effet, les sauvegardes sont
nécessaires en cas de crash ou indisponibilité du site informatique.
Le challenge reste sur la définition d’une bonne politique sûre
et efficace de sauvegarde (données, périmètre,
fréquence, la durée de rétention (défini
par le régulateur pour les banques) ….)
Une fois tous ses efforts en place, il est important de les consolider par un plan de secours, évaluer et développer la capacité à rebondir en cas de crise (PCA et/ou PRA.)
Aucun équipement ou centre
informatique ne peut garantir une disponibilité du SI de 100 % dans le temps.
Il peut toujours arriver des
situations qui paralyse les infrastructures et empêchent les équipes
d’exploitation d’opérer (on va se limiter
sur le cas des infrastructures, sachant que la résilience est large et peu
faire intervenir un plan plus complexe avec un déplacement sur un site de
replis des sachant, toxique Handler en cas d’impossibilité d’accès du site de
travail) , d’où la nécessité d’avoir un plan de backup (réplication,
synchronisation, archivage, externalisation …. )
Pour être efficace, toujours tenter
de répondre aux questions suivantes pour adopter une démarche acceptable :
Combien de temps l’entreprise peut
accepter que les applications soient
H.S. (hors service?
Quelles sont les applications les
plus indispensables à l'entreprise (cartographier les applications et évaluer
leurs criticités (détermination des
applications prioritaires, évalué périodiquement)) ?
Comment le système sera-t-il
restauré en cas de problèmes, existe-t-il une procédure réaliste et formalisée?
Existe-t-il des procédures
d’exploitation en mode dégradées pour fonctionner temporairement en mode manuel
?
Toute cette démarche n'a de sens que
si elle est formalisée et régulièrement testée.
Un sinistre informatique déstabilise
les équipes et l’entreprise (voir la résilience organisationnelle). Dans un tel
contexte, l'improvisation et la créativité se révèlent généralement
insuffisants. Les gens inconséquents comptent souvent sur la chance mais c'est
rarement l'approche idéale, je vous promets.
Il est essentiel de prévoir une
situation de crise généralement inconnue et réaliser des tests pour s’assurer
de cerner tous les besoins essentiel et fluidifier la communication
échange en cas de sinistre/crise:
L’exploitation s’appuie sur des
procédures très souvent pour l’exécution de plusieurs traitements. Il est
important de toujours revoir et évaluer ces procédures (s’appuyer sur COBIT) et
les stocker dans un environnement sûre et accessible (pourquoi pas le cloud….)
Très souvent source de discorde
entre les équipes de projet et de production car étant la source de plus de 50%
des incidents de la production.
Entre des équipes d’exploitation qui
veillent à la stabilité des applications et les équipes de projet pour lequel
cette étape est sensible dans la vie de leur projet par ce que souvent évalués
sur le TTM (Time To Market) ;
Un réel défi des DSI d’évaluer les risques et prendre en compte le besoin de toutes les
parties prenantes (voir COBIT) J
Un conseil
: les mises en production (full release, delta release, package release) ne
doivent se faire qu'en milieu de mois et tous les programmes qui doivent être
livrés soumises à une validation, au moins une semaine avant.
Il est très fréquent que des organisations
aient plusieurs projets en cours au même moment. S'appuyer sur le release management (ITIL)
qui fournit une approche structurée pour rassembler ces changements, les tester
et ensuite les introduire, en toute sécurité, dans les environnements réels dont
dépendent les opérations de l'entreprise. Il vérifie également que toutes les
connaissances et ressources applicables soient transférées aux équipes
opérationnelles qui vont définitivement les prendre en charge. Souvent oublié
dans la pratique de mise en production.
Pour l’exploitation, cela doit
également être l’occasion de vérifier l’impact de leurs implications dans les
recettes ou validation des cahiers de tests, mais également une étape qui
souvent marque un changement de procédures et de mode opératoire donc une
rupture en matière d’organisation des rôles et responsabilités, RACI.
Pour participer au succès des MEP, l’exploitation s’implique dans plusieurs phases du projet :
Le choix de l'outil, application : vérifié l’adhérence des produits choisis avec la production,
Cadrage (identification des moyens nécessaires à la mise œuvre du projet) : moment où l’on peut intégrer dans la réflexion les exigences de l’exploitation pour la mise en service,
Recette : vérifier que les processus et règles de sécurité de la production sont embarqués et respectés
Homologation : s’assurer avec des tests de charges/performance que l’application est assez robuste pour intégrer la production, mais aussi et surtout que la production actuelle est prête à le recevoir …
Il est recommandé (ITIL) de réunir les parties prenantes pertinentes de la production régulièrement pour évaluer la maturité des projets à rejoindre la production à travers des comités/conseils consultatifs de changement (CAB et eCAB).
Les étapes de préparation des CAB aura pour objet :
- Identifier les procédures de reprise nécessaires en cas d’incident, PCA, PRA….
- Mettre à jour les procédures de supervision et de contrôles permanant
- Vérifier la mise à jour de l’ordonnanceur d’exploitation (Control_M, job Scheduler …) ou le planning, afin d’y intégrer les nouveaux traitements
- Paramétrer la sauvegarde et archivage des fichiers, base ….
- Prendre en compte les nouvelles données dans la procédure de sauvegarde globale
- Préparer les étapes ultérieures du plan de mise en production, chronogramme
A la suite d’une mise en production, il convient d’être particulièrement vigilant et de maintenir sous surveillance les nouveaux composants avec des consignes claires et explicites partagé avec le chef de projet owner de la MEP, document sur lequel les pupitreurs s’appuieront pour l’aller vite dans la prise en charge des incidents. Mais également de faire un bilan et consigner le REX dans le document de suivi des faits marquants.
Ce document reste encore très sommaire et ne traite donc pas tous les aspects de l’exploitation informatique, surtout spécifiques. D’autres essais seront réalisés prochainement dans le sens de lever la voile sur ce métier.
Next step :
- La présentation et communication des résultats
- L’organisation et la résilience
- Le choix des applications.
-
….







Commentaires
Enregistrer un commentaire