Confidentiality Classification
Confidentiality Classification | |
---|---|
For the "ShortDescription" annotation, the parser was unable to determine a language code (i.e. "foo@en"). | |
Statut | Listé |
Catégorie : Cas d'usage |
Descriptif du use case[edit | edit source]
Confidentiality Classification
Objectif[edit | edit source]
Classifier (au sens DICT, confidentialité prédéfinie en 4 niveaux) des données non structurées à partir d'une analyse par similarité des données proches (structure, métadonnées, contenu) dans l'objectif de pré-classifier ou re-classifier une donnée sans intervention utilisateur.
Approche[edit | edit source]
- Collecte de données labellisées ainsi que des leurs métadonnées (arbre de dossier, métadonnées, fichiers liés (au sein d'un même espace de partage))
- Établissement d'une base de données graphe des relations entre les documents
- 3 modèles de classification (catégorisation) supervisée :
- Développement d'un modèle de classification par similarité des métadonnées (attributs, niveau de classification, droits d'accès, etc.)
- Développement d'un modèle de classification par similarité sur le contenu des documents (word embedding)
- Développement d'un modèle de classification par analyse sémantique (NLP) du contenu des documents
- Développement d'un mode de consensus sur les 3 modèles développés (Système expert) permettant de définir un niveau de classification final
Statut[edit | edit source]
- Pourrait être implémenté sur la sandbox, s’il y a les jeux de données
Données[edit | edit source]
Documents labellisés[edit | edit source]
- Source : espace de stockage
- Volumétrie : 10 000 documents labellisés
- Historique : pas d’historique nécessaire
Métadonnées des documents[edit | edit source]
- Source : espace de stockage
- Volumétrie : 10 000 documents labellisés
- Historique : pas d’historique nécessaire
Attributs de contrôle d'accès / politique des documents[edit | edit source]
- Source : espace de stockage
- Volumétrie : 10 000 politiques d’accès labellisés
- Historique : pas d’historique nécessaire
Catégories d'algorithmes utilisés[edit | edit source]
La première catégorie d’algorithme utilisée analyse les métadonnées des documents avec les méthodes de calcul de distances suivantes :
- SVM sur un ensemble de données labellisé (cas de filer classifié) ;
- DBSCAN sur les filer non labelliser ;
- K-means sur les filer non labelliser.
Une seconde catégorie analyse le document par plusieurs techniques :
- Une phase de NLP (word embedding) par TF/IDF ;
- Une approche par regroupement hiérarchique ;
- Une approche par Deep Learning en utilisant les techniques de BERT / CamemBERT.
Enfin une approche par consensus est en cours d’étude pour agréger les résultats et déterminer la classification finale.
Besoin en temps de calcul[edit | edit source]
Les phases d’entraînement sont consommatrices en ressources nécessaires aux calculs de distances. L’approche sur les métas donnés nécessite plusieurs minutes là où l’approche sur les documents nécessite plusieurs heures sur une infrastructure GPU.
Lors des phases de production, l’analyse est réalisée sur un temps court (quelques secondes) permettant une classification quasi-immédiate.
Cloud ou On-premise[edit | edit source]
Le cas d’usage a été développé pour être entraîné sur du on-premises et déployé sur des environnements hybrides (cloud ou on-premises).
Autres logiciels nécessaires : ETL, qualité, sécurité, crypto, anonymisation[edit | edit source]
- Les données doivent être transformées par un ETL afin de garantir les mêmes attributs de méta-données ;
- L’anonymisation du contenu des documents est essentiel avant toute analyse ;
- Le cas d’usage est développé sur une infrastructure dédiée n’ayant pas d’adhérence avec le SI cible (qui sera la cible des analyses).
Mitre Att@ck[edit | edit source]
N/A
Mitre Defend[edit | edit source]
File Analysis / Dynamic Analysis / File Content Rules
Cyber Kill Chain[edit | edit source]
N/A