Qu’est-ce que l’exploration de données préservant la confidentialité ?

L’exploration de données préservant la confidentialité est le processus consistant à s’engager dans des efforts collaboratifs d’exploration de données sans exposer les détails confidentiels liés aux informations contenues dans l’une des bases de données exploitées. Il est traditionnellement utilisé lorsqu’un individu ou une organisation travaille avec des concurrents de l’industrie. Alors que les concurrents peuvent parfois bénéficier mutuellement du partage des ressources, toutes les parties ont intérêt à préserver des informations potentiellement privées ou confidentielles sur leurs projets en cours. L’exploration de données préservant la confidentialité protège la confidentialité de toutes les parties en produisant les résultats de l’exploration de données, sans divulguer réellement la source d’une information spécifique.

L’exploration de données est le processus qui consiste à prendre un grand nombre de données et à le scanner pour les tendances générales. Un exemple de base de l’exploration de données serait de parcourir une base de données de ventes pour savoir pendant quelles saisons les ventes d’un produit particulier sont les plus élevées. L’intelligence économique dérivée de cette exploitation aiderait une entreprise à créer des ventes pendant les heures creuses et à apporter d’autres modifications pour augmenter ses bénéfices bruts. Un autre exemple plus complexe consisterait à parcourir des bases de données pour rechercher les tendances des consommateurs dans les décisions d’achat. Cela permettrait aux fabricants de prédire avec précision quels types de produits deviennent populaires, leur permettant de savoir où concentrer leurs ressources limitées.

En mettant en commun les informations stockées dans une base de données avec les informations stockées dans des bases de données par des concurrents, l’efficacité de l’exploration de données est considérablement augmentée. Plus il y a de données à étudier, plus il devient facile de trouver et d’exploiter des tendances. En d’autres termes, lorsqu’une organisation individuelle dispose de 10,000 100 exemples, elle peut généralement détecter des modèles qui ne deviendraient pas évidents avec seulement XNUMX exemples du même type. Naturellement, cependant, il y a toujours des informations que les entreprises hésitent à partager avec leurs concurrents. C’est là que l’exploration de données préservant la confidentialité entre en jeu.

L’exploration de données préservant la confidentialité fonctionne en permettant aux entreprises concurrentes de n’introduire que les données qu’elles souhaitent partager dans une base de données centrale «commune». En limitant l’exploration de données à des informations strictement volontaires, la confidentialité est préservée des deux côtés sans porter atteinte à l’objectif central des efforts d’exploration de données. La confidentialité peut également être protégée en utilisant un intermédiaire désintéressé pour mener l’exploitation minière proprement dite, permettant aux entreprises de mettre en commun leurs ressources de base de données sans qu’aucune des deux entreprises n’ait un accès direct aux types de données privées de l’autre entreprise.