Évaluation d'une architecture de stockage RDF distribuée
Résumé
Stocker des informations du web sémantique implique d'être capable de pouvoir potentiellement gérer de très importants volumes de données. D'où le besoin d'opter pour une solution forcément distribuée, entre autres de type pair-à-pair, pour pouvoir passer à l'échelle. Un système de stockage RDF réparti requiert de mettre en place un algorithme particulier pour la résolution des requêtes SPARQL. Les données étant distribuées à travers un réseau de pairs, il est nécessaire d'exécuter une partie de la requête sur certains de ces pairs, puis d'agréger et d'appliquer d'éventuelles conditions de filtrage sur les différents résultats intermédiaires obtenus, avant de pouvoir retourner les résultats finaux. Il existe actuellement une douzaine de benchmarks pour le RDF, mais aucun d'entre eux ne se présente comme étant pensé pour s'adapter à une architecture de stockage réparti. Dans cet article, nous mettons en évidence le nombre de résultats intermédiaires générés par les requêtes SPARQL, un aspect important dans un contexte distribué, et qui nous semble à l'heure actuelle négligé par les benchmarks pour le RDF.
Origine | Fichiers produits par l'(les) auteur(s) |
---|
Loading...