Resumé |
Ces dernières années, les données deviennent incertaines en raison du fleurissement des technologies de pointe qui participent continuellement et de plus en plus dans la production d'une grande quantité de données incertaines. Surtout, que certains nombres d'applications ou l'incertitude est omniprésentes sont distribuées dans la nature, e.g. Des réseaux de capteur distribués, l'extraction de l'information, l'intégration de données, le réseau social, etc. Par conséquent, malgré que 'incertitudes a été étudier dans la littérature des bases de données centralisé, il reste toujours des défis à relever dans le contexte des bases de données distribuées. Dans ce travail, nous nous concentrons sur le type de données qui est composé d'un ensemble d'attributs descriptifs, qui ne sont ni numériques, ni en soi ordonnés en aucune façon, à savoir des données catégoriques. Nous proposons deux approches pour la gestion de données catégorielles incertaines dans un environnement distribué. Ces approches sont construites sur une technique d'indexation hiérarchique et des algorithmes distribués pour efficacement traiter certain types de requêtes sur des données incertaines dans un environnement distribué Dans la première approche, nous proposons une technique d'indexation distribuée basée sur la structure d'index inversée pour efficacement rechercher des données catégoriques incertaines dans un environnement distribué. En utilisant cette technique d'indexation, nous adressons deux types de requêtes sur les bases de données incertaines distribuées (1) une requête de seuils probabiliste distribuée, où les réponses obtenues satisfont l'exigence de seuil de probabilités (2) une requêtes probabiliste de meilleurs k-réponse, en assurant l'optimisation de transfert du tuples des sites interrogés au site de coordinateur en un temps réduit . Des expériences empiriques sont conduites pour vérifier l'efficacité et l'efficacité de la méthode proposée en termes de coûts de communication et le temps de réponse. La deuxième approche se concentre sur les requêtes Top-k , on propose un algorithme distribué à savoir TDUD. Son but est de trouves les meilleurs k réponses sur des données catégorielles incertaines distribuées en un seul tour seul de communication. Pour aboutir à ce but, nous enrichissons l'index incertain global proposé dans la première approche avec d'autres informations qui résument les indexes locaux afin de minimiser le coût de communication, De plus, en utilisant les moyennes de dispersion de probabilité de chaque site, on peut prévoir le nombre de sites qu'on doit interroger afin d'avoir les meilleurs k réponse, ainsi élaguer les sites qui ne fournis pas de réponse, ce qui engendre un meilleur temps d'exécution et moins de transfert de tuples. Des expériences vastes sont conduites pour vérifier l'efficacité de la méthode proposée en termes de coûts de communication et le temps de réponse. Nous montrons empiriquement que l'algorithme lié est presque optimal, dans lequel, il peut typiquement récupérer les meilleurs k-réponses en communiquant un nombre restreint de tuples dans un seul tour seul. |