Après le web 2.0 et les réseaux sociaux, internet n’a pas fini d’évoluer. Une révolution discrète est en cours avec le web sémantique. À l’aide de langages communs qui structurent les données, il contribue à rendre interopérables les nombreuses bases de données en ligne.
Un web puissant mais limité
Le web tel que nous le connaissons, permet d’accéder à une multiplicité de pages sur internet. Ce web, qu’on peut qualifier de « web de documents », est certes utile et puissant, mais il rencontre ses limites quand il s’agit d’interroger des bases de données – des catalogues de bibliothèques par exemple – que les moteurs de recherche ne parviennent généralement à explorer qu’en surface. Ces bases de données constituent ce que l’on nomme le « web invisible ».
Autre limite du web actuel face aux bases de données : chaque base est très riche, mais elle ne communique pas avec les autres. De ce fait, si vous cherchez une information, vous devrez relancer votre recherche dans chaque base de données pour trouver ce qui vous intéresse. De plus, le catalogage de documents varie selon les types de bases et les différentes pratiques métier. Comme ces bases n’échangent pas leur données, il n’est pas possible de regrouper les informations qu’elles contiennent ou d’en extraire des données précises, recoupant une multiplicité de critères.
Vers le web sémantique
Le but du web sémantique est justement de permettre à un grand nombre de bases de données de communiquer, d’échanger des données et de s’enrichir mutuellement. En les structurant de façon identique, et en faisant en sorte que leurs données soient ouvertes (accessibles librement et gratuitement), les bases deviennent interopérables et peuvent faire converger leurs informations.
Sans constituer une rupture majeure avec le web que nous utilisons aujourd’hui – il est constitué d’urls et suit le protocole http – le web sémantique suppose de détailler les contenus au moyen de données descriptives finement structurées et liées entre elles. Cela peut faciliter les recherches d’informations en permettant avec une seule requête d’interroger plusieurs bases de données et ainsi d’obtenir des résultats beaucoup plus complets et précis.
Le web sémantique s’appuie sur un ensemble de règles normalisées et de standards informatiques, validés par le World Wide Web consortium (W3C) afin de favoriser le partage des données.
Web sémantique, web de données : comment ça marche ?
Le web sémantique repose sur deux conditions : l’exposition en ligne de données ouvertes et liées (Linked Open Data) et l’emploi d’un ensemble de standards informatiques qui permettent l’interopérabilité de ces données. Ces normes, appelées aussi vocabulaires descriptifs ou ontologies, décrivent la manière dont les données sont structurées, ce qui permet à différents systèmes informatiques de les réutiliser.
Les données du web sémantique sont structurées selon un modèle sujet-prédicat-objet, qu’on appelle un triplet RDF (ressource description framework) :
le « sujet » représente la ressource à décrire ;
le « prédicat » représente un type de propriété applicable à cette ressource ;
l’« objet » représente une donnée ou une autre ressource : c’est donc la valeur de la propriété.
Par exemple :
Victor Hugo (sujet) – est l’auteur de (prédicat) – Les Misérables (objet).
ou
Victor Hugo (sujet) – est né à (prédicat) – Besançon (objet).
L’objet de chaque triplet peut à son tour devenir le sujet d’un nouveau triplet RDF :
Les Misérables (sujet) – a été publié en (prédicat) – 1862 (objet)
ou
Besançon (sujet) – est situé en (prédicat) – France (objet).
Dans le web sémantique, chaque partie de ce triplet est identifiée par une adresse url unique : l’uri, qui fait office de référence unique. Cela permet d’interroger ensemble une multitude de sources différentes en s’assurant que la donnée aura le même sens pour chacune des bases interrogées, qu’il s’agisse de bases de données biographiques, géographiques ou historiques.
Le schéma ci-dessous présente les nombreuses bases de données du web sémantique et les liens entre elles :
Le langage SPARQL (SPARQL Protocol and RDF Query Language) permet d’interroger le web sémantique. Les interfaces SPARQL sont encore complexes à prendre en main et nécessitent de bonnes connaissances préalables du web sémantique.
Néanmoins, les standards et les technologies du web sémantique sont de plus en plus utilisés, sans que les internautes s’en rendent toujours compte. De nombreuses bases de données, bibliothèques en ligne, mais aussi des sites marchands, s’en servent pour être plus visible sur le web et faciliter les recherches des internautes. Ainsi Google en fait usage pour faire remonter des informations. La structuration des données permet par exemple au moteur de recherche d’associer à un film son résumé, la liste des acteurs, ou les horaires de diffusion en salle.
Data BNF est une base de données mise à disposition par la Bibliothèque nationale de France. Elle permet d’accéder à un ensemble de données sur les auteurs, les œuvres ou les thématiques. Outre les données produites par la BNF, DataBNF est enrichi avec des données provenant d’autres sources comme ISNI, VIAF, IdRef, Wikidata, etc.
Vous pouvez faire les recherches directement sur la base, ou extraire des données ré-utilisables, grâce à l’interface d’intérrogation SPARQL de Data BNF : https://data.bnf.fr/sparql/
Wikidata est une base de données libre et collaborative. Chacun peut y ajouter des données, dans une vingtaine de langues, pour enrichir celles existantes ou faire des liens avec d’autres jeux de données.
Vous pouvez rechercher directement sur Wikidata ou faire des recherches plus avancées et complexes en utilisant l’interface SPARQL de Wikidata à l’adresse : https://query.wikidata.org/
Ce cours en ligne de l’INRIA vous propose de vous former aux standards du Web de données et du Web sémantique. Il vous présentera les langages qui permettent : de représenter et de publier des données liées sur le Web (RDF), d’interroger et de sélectionner très précisément ces données à distance et au travers du Web (SPARQL), de représenter des vocabulaires et de déduire de nouvelles données pour enrichir les descriptions publiées et enfin, de tracer et de suivre l’histoire des données.
Rédiger un commentaire
Les champs signalés avec une étoile (*) sont obligatoires
XÉtant un service public, nous ne faisons aucun usage commercial des données collectées lors de votre navigation. Nous utilisons les cookies ou technologies similaires pour accéder uniquement à des données personnelles non sensibles stockées sur votre terminal, que nous traitons afin de réaliser des statistiques, mesurer les performances du site, ou permettre des accès à des ressources externes.
Vous pouvez à tout moment revenir sur vos choix en utilisant le lien "Personnaliser". En savoir plusRefuserAccepterPersonnaliser
Politique de confidentialité & cookies
Gestion de vos préférences sur les cookies
Ce site utilise des cookies pour améliorer votre expérience de navigation. Ces cookies sont classés en trois catégories : fonctionnel, statistiques et marketing.
Veuillez retrouver notre politique de gestions de données personnelles et de cookies : page "Informations sur les cookies" et page "Politique de confidentialité"
Ces cookies nous permettent de réaliser des statistiques de mesures d’audiences et de performances en analysant le volume et la source du trafic sur notre site. Ces cookies permettent également d’analyser de façon anonyme le comportement des visiteurs de notre site afin de mesurer et d'améliorer les performances de notre site et de nos campagnes en ligne.
Le recueil de votre consentement n’est pas requis, nous utilisons un logiciel d’analyse d’audience (Matomo) configuré selon les recommandations de la CNIL pour bénéficier de l’exemption de consentement.
https://www.cnil.fr/fr/cookies-et-autres-traceurs/regles/cookies-solutions-pour-les-outils-de-mesure-daudience
Cookie
Type
Durée
Description
_pk_id.*
13 mois
Ce cookie est installé par l'outil d'analyse Web Matomo.
Le cookie _pk_id est utilisé pour stocker des détails sur l'utilisateur tels que l'identifiant unique (ID).
Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses.
Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
_pk_ses.*
30 minutes
Ce cookie est installé par l'outil d'analyse Web Matomo.
Ce cookie _pk_ses de courte durée est utilisé pour stocker temporairement les données de la visite.
Les cookies créés par Matomo commencent par : _pk_ref, _pk_cvar, _pk_id, _pk_ses.
Pour plus d'informations sur les cookies de Matomo : https://fr.matomo.org/faq/general/faq_146/
Les cookies fonctionnels aide à améliorer les performances de certaines fonctionnalités comme partager le contenu du site sur les réseaux sociaux, collecter des retour d'expérience, et autres fonctionnalités.
Cookie
Type
Durée
Description
bcookie
0
2 years
Ce cookie est installé par LinkedIn pour activer les fonctions de LinkedIn sur ce site.
cookielawinfo-checkbox-necessary
0
11 months
Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Nécessaire».
cookielawinfo-checkbox-non-necessary
0
11 months
Ce cookie est défini par le plugin GDPR Cookie Consent. Les cookies sont utilisés pour stocker le consentement de l'utilisateur pour les cookies dans la catégorie «Non nécessaire».
csrftoken
0
11 months
Ce cookie est associé à la plateforme de développement Web Django pour python. Utilisé pour aider à protéger le site Web contre les attaques de falsification de requêtes intersites
lidc
0
1 day
Ce cookie est défini par LinkedIn et utilisé pour le routage.
viewed_cookie_policy
0
11 months
Le cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke aucune donnée personnelle.
Les cookies analytiques sont utilisés pour comprendre comment les visiteurs interagissent avec le site. Ces cookies génèrent des informations mesurables sur le nombre de visiteurs, le taux de rebond, la source du trafic etc.
Cookie
Type
Durée
Description
everest_g_v2
0
1 year
Le cookie est défini sous le domaine eversttech.net. Le but du cookie est de mapper les clics sur d'autres événements sur le site Web du client.
GPS
0
30 minutes
Ce cookie est défini par Youtube et enregistre un identifiant unique pour suivre les utilisateurs en fonction de leur emplacement géographique
mc
0
1 year
Ce cookie est associé à Quantserve pour suivre de manière anonyme comment un utilisateur interagit avec le site Web.
MR
0
1 week
Ce cookie est utilisé pour mesurer l'utilisation du site Web à des fins d'analyse.
VISITOR_INFO1_LIVE
1
5 months
Ce cookie est défini par Youtube. Utilisé pour suivre les informations des vidéos YouTube intégrées sur un site Web.
YSC
1
Ces cookies sont définis par Youtube et sont utilisés pour suivre les vues des vidéos intégrées.
Les cookies publicitaires sont utilisés pour procurer une expérience optimale aux visiteurs du site avec des publicités et des campagnes marketing pertinentes. Ces cookies traquent les visiteurs à travers les sites et collectent leurs informations pour générer des publicités personnalisées.
Cookie
Type
Durée
Description
ATN
1
2 years
Ce cookie est installé par atdmt.com et stockent des données sur le comportement de l'utilisateur sur plusieurs sites Web. Les données sont ensuite utilisées pour diffuser des publicités pertinentes aux utilisateurs du site Web.
bito
0
1 year
bitoIsSecure
0
1 year
bscookie
1
2 years
chkChromeAb67Sec
0
2 months
CMID
0
1 year
CMPRO
0
2 months
CMPS
0
2 months
CMST
0
1 day
cref
0
1 year
damd
0
1 year
dc
0
9 years
dmvk
0
dmxId
0
9 months
fr
1
2 months
Le cookie est installé par Facebook pour montrer des publicités pertinentes aux utilisateurs et mesurer et améliorer les publicités. Le cookie suit également le comportement de l'utilisateur sur le Web sur les sites dotés d'un pixel Facebook ou d'un plugin social Facebook.
GED_PLAYLIST_ACTIVITY
0
glassbox-session-id
0
30 minutes
IDE
1
2 years
Utilisé par Google DoubleClick, ce cookie stocke des informations sur la façon dont l'utilisateur utilise le site Web et toute autre publicité avant de visiter le site Web. Ceci est utilisé pour présenter aux utilisateurs des publicités qui les concernent en fonction du profil de l'utilisateur.
KADUSERCOOKIE
0
2 months
KTPCACOOKIE
0
1 day
lang
0
Ce cookie est utilisé pour stocker les préférences linguistiques d'un utilisateur afin de diffuser du contenu dans cette langue stockée lors de sa prochaine visite sur le site Web.
lissc
0
1 year
li_sugr
0
2 months
matchbidswitch
0
1 month
MUID
0
1 year
Utilisé par Microsoft comme identifiant unique. Le cookie est défini par des scripts Microsoft intégrés. Le but de ce cookie est de synchroniser l'ID sur de nombreux domaines Microsoft différents pour permettre le suivi des utilisateurs.
pardot
0
Le cookie est défini lorsque le visiteur est connecté en tant qu'utilisateur Pardot.
personalization_id
0
2 years
Ce cookie est utilisé par Twitter pour intégrer les fonctionnalités de partage de ce média social. Il stocke également des informations sur la manière dont l'utilisateur utilise le site Web pour le suivi et le ciblage.
PUBMDCID
0
2 months
Ce cookie est défini par pubmatic.com. Le cookie stocke un identifiant utilisé pour afficher des publicités sur le navigateur des utilisateurs.
ROUTEID
0
ss
1
9 years
SyncRTB3
0
2 months
TDCPM
0
1 year
Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
TDID
0
1 year
Le cookie est défini par le service CloudFlare pour stocker un identifiant unique afin d'identifier un appareil d'utilisateurs qui reviennent, qui est ensuite utilisé pour la publicité ciblée.
test_cookie
0
11 months
ts
1
1 year
tuuid
0
9 years
Ce cookie est défini par .bidswitch.net. Les cookies stockent un identifiant unique dans le but de déterminer les publicités que les utilisateurs ont vues si vous avez visité l'un des sites Web des annonceurs. Les informations sont utilisées pour déterminer quand et à quelle fréquence les utilisateurs verront une certaine bannière.
u
0
2 months
UserMatchHistory
0
1 month
usprivacy
0
1 year
ut
0
9 years
v1st
0
1 year
viewer_token
0
1 month
wfivefivec
0
1 year
_fbp
0
2 months
Ce cookie est défini par Facebook pour diffuser des publicités lorsqu'ils sont sur Facebook ou sur une plate-forme numérique alimentée par la publicité Facebook après avoir visité ce site Web.
Les champs signalés avec une étoile (*) sont obligatoires