Vous n’avez pas le droit de modifier cette page, pour la raison suivante :
Description free text : Enregistrez pour pouvoir passer à l'éditeur visuel.
== Descriptif du use case == Confidentiality Classification === Objectif === Classifier (au sens DICT, confidentialité prédéfinie en 4 niveaux) des données non structurées à partir d'une analyse par similarité des données proches (structure, métadonnées, contenu) dans l'objectif de pré-classifier ou re-classifier une donnée sans intervention utilisateur. == Approche == * Collecte de données labellisées ainsi que des leurs métadonnées (arbre de dossier, métadonnées, fichiers liés (au sein d'un même espace de partage)) * Établissement d'une base de données graphe des relations entre les documents * 3 modèles de classification (catégorisation) supervisée : * Développement d'un modèle de classification par similarité des métadonnées (attributs, niveau de classification, droits d'accès, etc.) * Développement d'un modèle de classification par similarité sur le contenu des documents (word embedding) * Développement d'un modèle de classification par analyse sémantique (NLP) du contenu des documents * Développement d'un mode de consensus sur les 3 modèles développés (Système expert) permettant de définir un niveau de classification final == Statut == * Pourrait être implémenté sur la sandbox, s’il y a les jeux de données == Données == === Documents labellisés === * Source : espace de stockage * Volumétrie : 10 000 documents labellisés * Historique : pas d’historique nécessaire === Métadonnées des documents === * Source : espace de stockage * Volumétrie : 10 000 documents labellisés * Historique : pas d’historique nécessaire ===Attributs de contrôle d'accès / politique des documents=== * Source : espace de stockage * Volumétrie : 10 000 politiques d’accès labellisés * Historique : pas d’historique nécessaire ==Catégories d'algorithmes utilisés== La première catégorie d’algorithme utilisée analyse les métadonnées des documents avec les méthodes de calcul de distances suivantes : * SVM sur un ensemble de données labellisé (cas de filer classifié) ; * DBSCAN sur les filer non labelliser ; * K-means sur les filer non labelliser. Une seconde catégorie analyse le document par plusieurs techniques : * Une phase de NLP (word embedding) par TF/IDF ; * Une approche par regroupement hiérarchique ; * Une approche par Deep Learning en utilisant les techniques de BERT / CamemBERT. Enfin une approche par consensus est en cours d’étude pour agréger les résultats et déterminer la classification finale. ==Besoin en temps de calcul == Les phases d’entraînement sont consommatrices en ressources nécessaires aux calculs de distances. L’approche sur les métas donnés nécessite plusieurs minutes là où l’approche sur les documents nécessite plusieurs heures sur une infrastructure GPU. Lors des phases de production, l’analyse est réalisée sur un temps court (quelques secondes) permettant une classification quasi-immédiate. == Cloud ou On-premise == Le cas d’usage a été développé pour être entraîné sur du on-premises et déployé sur des environnements hybrides (cloud ou on-premises). == Autres logiciels nécessaires : ETL, qualité, sécurité, crypto, anonymisation == * Les données doivent être transformées par un ETL afin de garantir les mêmes attributs de méta-données ; * L’anonymisation du contenu des documents est essentiel avant toute analyse ; * Le cas d’usage est développé sur une infrastructure dédiée n’ayant pas d’adhérence avec le SI cible (qui sera la cible des analyses). == Mitre Att@ck == N/A == Mitre Defend == File Analysis / Dynamic Analysis / File Content Rules == Cyber Kill Chain == N/A