Qu'est-ce que la virtualisation des données?

La virtualisation des données est une méthode d’accès aux données. La virtualisation dans ce cas fait référence à la manière dont les données sont gérées plutôt qu’aux données elles-mêmes. Dans un système de données virtuel, plusieurs bases de données, référentiels et entrepôts de données sont accessibles simultanément, et les informations sont combinées dans un seul rapport avant d’être transmises à l’utilisateur. Le processus de virtualisation des données est complexe. De ce fait, la virtualisation des données est parfois utilisée au sein d’une entreprise.

L’idée de base derrière la virtualisation des données est d’une simplicité trompeuse. Une couche de masquage, appelée couche de virtualisation des données, est placée entre l’utilisateur et un système de stockage de données. Lorsque l’utilisateur demande des données, comme un numéro de facture, la requête passe par la couche virtuelle et vers plusieurs systèmes de stockage. Il extrait chaque système de stockage de données avec le numéro et ramène tous les résultats à la couche de virtualisation des données. À l’intérieur de la couche, le système compile toutes les informations dans un seul rapport qu’il remet ensuite à l’utilisateur.

Du côté de l’utilisateur, la virtualisation des données n’est pas différente d’une requête de base de données standard. L’utilisateur demande une information, et quelques secondes plus tard, celle-ci s’affiche à l’écran. Les données fournies pour la requête de facture peuvent contenir des informations marketing sur la commande, des historiques de commande pour l’acheteur et des informations sur les stocks des articles achetés, le tout provenant de différentes bases de données. Cette richesse de données permet à l’utilisateur d’avoir un point de vue complet sur la requête et donne des informations contextuelles pour la recherche.

La mise en place d’un système de virtualisation des données est très complexe. Faire apparaître une pile de données déconnectées sur un numéro de facture est simple, mais l’utilisateur devrait trier manuellement les informations pour trouver des données importantes. Cela ralentirait l’utilisateur et finirait par nuire à la productivité. Au lieu de cela, la couche de données doit trier et présenter les informations de manière claire.

Afin de mettre en place le système, des connexions doivent être établies entre les ensembles de données clés. Avant que les connexions ne soient établies, les données doivent être correctement formatées et indexées. Une fois que les données sont jugées utilisables, des connexions sont créées entre les données compatibles. Souvent, les ordinateurs auront souvent du mal à comprendre comment les données s’imbriquent. Étant donné que les connexions sont souvent plus contextuelles que directes, un humain effectue généralement une grande partie de la tâche.

Le travail de formatage et de connexion étant à la fois chronophage et difficile, la virtualisation des données se fait rarement à grande échelle. Une seule entreprise peut mettre en place la virtualisation parmi ses propres systèmes, mais la virtualisation des fournisseurs externes ou des systèmes d’entrepôt de données est très difficile. Parmi les petites entreprises, la richesse des sources de données est généralement absente, ce qui signifie qu’elles n’ont pas du tout besoin des systèmes.