Dans l’ère du Big Data, il n’est plus nécessaire de souligner la forte valeur des données issue de leur analyse et de leur exploitation. Tout comme il n’est plus nécessaire de vous convaincre que l’accroissement du volume des données est exponentiel, qu’une grande variété de données existe et que la vitesse des échanges est toujours plus rapide. 

Cette inépuisable matière première vecteur d’opportunités économiques et de sérendipité irrigue aujourd’hui tous les secteurs d’activité.

En revanche, à l’aune de ce constat, il est sans doute nécessaire de rappeler que ces données sont de plus en plus exposées (nombre d’utilisateurs connectés, migration des applications – cloud, menaces internes – externes …). La perception du risque a décliné graduellement en fonction du manque de visibilité des incidents, dans le sens où, les menaces ont évolué tendant de plus en plus vers la discrétion que l’exploit : spyware, robots, rootkits, extraction. Par ailleurs, notons qu’en parallèle, les fuites de données sont en augmentation depuis 2016.

En ce sens, la question n’est pas de savoir si les données peuvent être exposées mais comment déterminer une stratégie de gouvernance et de protection qui minimisera l’impact d’une éventuelle fuite de données au sein de votre organisation.

La difficulté réside dans la compréhension et la connaissance de ce que nous devons manager. Quelles sont mes données ? Où sont-elles ? Comment sont-elles collectées, analysées et traitées ? Qui a accès aux données ? De quelles natures sont-elles ? Et enfin, sont-elles internes, restreintes, confidentielles, sensibles, à caractère personnel ?

Une typologie duale des données

Nous parlons ici d’informations structurées (informations – mots, chiffres, signes – déterminées par des référentiels, formats et présentées dans des cases permettant ainsi leur interprétation et leur exploitation) et d’informations non structurées (« informations » non déterminées ni organisées en base de données – documents Office, vidéos, images …).

Les données structurées ne constituent pas réellement la bête noire des stratégies de gouvernance des données en ce qu’elles sont identifiables et s’inscrivent aisément dans des projets de Discovery, d’inventaire, de classification et de DLP (Data Loss Prevention). A l’opposé, les données non structurées, représentant la majeure partie du patrimoine informationnel d’une organisation, rendent lesdits projets plus complexes.

La classification apparaît dès lors comme une solution cohérente en ce qu’elle permet d’appréhender les informations non structurées dans les stratégies de gouvernance et de protection des données.

Si nous avons dans un article récent, détaillé l’importance de l’élaboration d’un inventaire de données, il semble opportun de comprendre comment la classification des données apparait comme une suite logique de l’inventaire et une composante essentielle de sécurité et conformité.

La classification : définition.

La classification des données est un processus regroupant les moyens techniques et organisationnels consistant à analyser des données structurées ou non structurées et à les organiser en catégories en fonction du type et du contenu des fichiers. Ce processus peut être manuel ou automatique. 

L’organisation en catégories permet de préciser et d’affiner la classification de l’information en fonction de son niveau de confidentialité (ex : interne, restreint, confidentiel, secret …), des métiers concernés (ex : RH, Marketing, Juridique …).

La classification par diverses catégories prédéfinies assure une meilleure connaissance et gestion des données au travers d’une fine granularité des catégories. Au travers de ce processus, nous sommes capables d’identifier les données à risques, par département, et d’y appliquer une protection adéquate et proportionnelle.

En parallèle, les projets de classification, tant manuels qu’automatiques, sont vecteurs d’implication des métiers, des responsables de traitement et des utilisateurs finaux. En ce sens, ils viennent briser les silos établis dans les organisations et permettent aux départements de se sentir impliquer dans une tâche commune importante.

Élaborer une politique de classification

En amont, avant de démarrer tout projet de classification, il convient d’élaborer une politique de classification. Une politique de classification des données est nécessaire pour fournir un cadre de protection de l’information, au regard de l’appétence au risque des divers départements et traitements liés.

Une politique de classification des données est nécessaire pour fournir un cadre de protection des données contre les risques, y compris, sans toutefois s’y limiter, la destruction, la modification, la divulgation, l’accès, l’utilisation et la suppression non autorisés. Cette politique décrit les mesures et les responsabilités requises pour la sécurisation des ressources de données. Elle doit être effectuée en conformité avec les lois nationales et fédérales.

La politique de classification des données se matérialise par un document détaillant une structure et un cadre définissant les différents niveaux de classification de l’information, associés aux risques éventuels. Elle inclue également les risques associés au regard d’une fuite ou d’un accès non autorisé.

Ainsi, la politique de classification se doit d’être claire, précise, compréhensible, concise, en cohérence avec les activités de l’organisation et enfin être révisée régulièrement.

Enfin, l’objectif de ce paramétrage est d’optimiser l’accès à l’information sans pour autant entraver le partage de cette dernière, ni par ailleurs altérer sa qualité ou son intégrité.

Inclure les données

Ainsi, la politique de classification des données doit inclure :

  • Une échelle de confidentialité (confidentiel, interne, restreint, public…) 
  • Une échelle d’intégrité (élevé, moyen faible…) 
  • Une échelle de disponibilité (élevé, moyen faible…)
    • Chaque échelle détaille l’expression de besoin des différents niveaux et son impact redouté.
  • On peut alors déterminer une documentation plus large, comprenant un détail par niveau de classification :
    • Description du niveau
    • Obligation légale
    • Risque redouté
    • Moyen de transmission
    • Stockage
    • Accès
    • Procédure de backup
    • Durée de rétention
    • Point d’audit

Bien entendu, comprenons qu’il n’existe pas de politique de classification unique en fonction des secteurs d’activités et des besoins même si les bases sont communes. 

Plusieurs acteurs sur le marché proposent des solutions de classification de données, via un outillage et une méthodologie efficace au travers du tag. L’approche par le tag permet, selon ces divers acteurs, une classification précise et impliquant les responsables de traitement. Enfin, la classification est alors un vecteur d’optimisation de connaissance, de disponibilité et sécurité de l’information.