Confidentiality Classification

Confidentiality Classification
Pour l’annotation « ShortDescription », l’analyseur n’a pas pu déterminer un code de langue (par ex. « foo@en »).
Statut	Listé
	Catégorie : Cas d'usage

Descriptif du use case[modifier | modifier le wikicode]

Objectif[modifier | modifier le wikicode]

Classifier (au sens DICT, confidentialité prédéfinie en 4 niveaux) des données non structurées à partir d'une analyse par similarité des données proches (structure, métadonnées, contenu) dans l'objectif de pré-classifier ou re-classifier une donnée sans intervention utilisateur.

Approche[modifier | modifier le wikicode]

Collecte de données labellisées ainsi que des leurs métadonnées (arbre de dossier, métadonnées, fichiers liés (au sein d'un même espace de partage))
Établissement d'une base de données graphe des relations entre les documents
3 modèles de classification (catégorisation) supervisée :
Développement d'un modèle de classification par similarité des métadonnées (attributs, niveau de classification, droits d'accès, etc.)
Développement d'un modèle de classification par similarité sur le contenu des documents (word embedding)
Développement d'un modèle de classification par analyse sémantique (NLP) du contenu des documents
Développement d'un mode de consensus sur les 3 modèles développés (Système expert) permettant de définir un niveau de classification final

Statut[modifier | modifier le wikicode]

Pourrait être implémenté sur la sandbox, s’il y a les jeux de données

Données[modifier | modifier le wikicode]

Documents labellisés[modifier | modifier le wikicode]

Source : espace de stockage
Volumétrie : 10 000 documents labellisés
Historique : pas d’historique nécessaire

Métadonnées des documents[modifier | modifier le wikicode]

Source : espace de stockage
Volumétrie : 10 000 documents labellisés
Historique : pas d’historique nécessaire

Attributs de contrôle d'accès / politique des documents[modifier | modifier le wikicode]

Source : espace de stockage
Volumétrie : 10 000 politiques d’accès labellisés
Historique : pas d’historique nécessaire

Catégories d'algorithmes utilisés[modifier | modifier le wikicode]

La première catégorie d’algorithme utilisée analyse les métadonnées des documents avec les méthodes de calcul de distances suivantes :

SVM sur un ensemble de données labellisé (cas de filer classifié) ;
DBSCAN sur les filer non labelliser ;
K-means sur les filer non labelliser.

Une seconde catégorie analyse le document par plusieurs techniques :

Une phase de NLP (word embedding) par TF/IDF ;
Une approche par regroupement hiérarchique ;
Une approche par Deep Learning en utilisant les techniques de BERT / CamemBERT.

Enfin une approche par consensus est en cours d’étude pour agréger les résultats et déterminer la classification finale.

Besoin en temps de calcul[modifier | modifier le wikicode]

Les phases d’entraînement sont consommatrices en ressources nécessaires aux calculs de distances. L’approche sur les métas donnés nécessite plusieurs minutes là où l’approche sur les documents nécessite plusieurs heures sur une infrastructure GPU.

Lors des phases de production, l’analyse est réalisée sur un temps court (quelques secondes) permettant une classification quasi-immédiate.

Cloud ou On-premise[modifier | modifier le wikicode]

Le cas d’usage a été développé pour être entraîné sur du on-premises et déployé sur des environnements hybrides (cloud ou on-premises).

Autres logiciels nécessaires : ETL, qualité, sécurité, crypto, anonymisation[modifier | modifier le wikicode]

Les données doivent être transformées par un ETL afin de garantir les mêmes attributs de méta-données ;
L’anonymisation du contenu des documents est essentiel avant toute analyse ;
Le cas d’usage est développé sur une infrastructure dédiée n’ayant pas d’adhérence avec le SI cible (qui sera la cible des analyses).

Mitre Att@ck[modifier | modifier le wikicode]

N/A

Mitre Defend[modifier | modifier le wikicode]

File Analysis / Dynamic Analysis / File Content Rules

Cyber Kill Chain[modifier | modifier le wikicode]

N/A