Semantisches Web und Datenmodell
Inhaltsverzeichnis
- Das semantische Web und das Data-Projekt
- Experimentieren mit dem IFLA LRM-Modell
- Das Datenmodell von Data
- Verwendete Ontologien und Referenzsysteme
Das semantische Web und das Data-Projekt
Das Projekt Data ist Teil eines Ansatzes zur Öffnung von Daten und übernimmt die vom W3C-Konsortium geförderten Standards im Hinblick auf das semantische Web oder das Web der Daten.(Linked Data).
Durch die Übernahme dieser Technologien will er die Metadaten der BnF so strukturieren, dass sie von Maschinen ausgewertet werden können. Das Projekt Data das Projekt verwendet Daten, die in verschiedenen katalografischen Formaten produziert wurden, darunter Intermarc für Buchkataloge, XML-EAD für Archivinventare und Manuskripte und Dublin Core für die digitale Bibliothek.
Diese Daten werden neu strukturiert, gruppiert, durch automatische Verarbeitung angereichert und nach dem Beschreibungsmodell des Semantic Web, RDF, veröffentlicht. Das Ergebnis ist auf dieser Website in verschiedenen RDF-Syntaxen (XML, N3, NT) sowie in JSON und JSON-LD verfügbar.
Ein Teil der Daten wird mit anderen Repositories abgeglichen : id.loc.gov für Sprachen und Nationalitäten , DCMI type für Dokumententypen.
Sie sind auch auf anderweitig gut identifizierte Datensätze ausgerichtet: VIAF, Idref, Wikidata, etc. Schließlich werden die Daten der Rameau-Themenseiten mit anderen Thesauri, ausländischen Institutionen (LCSH, DnB, BNE) oder spezielleren Thesauri abgeglichen. (Agrovoc, Geonames, Thesaurus W).
Der Beitrag der Bibliothèque nationale de France zum semantischen Web besteht in der Bereitstellung :
Experimentieren mit dem IFLA LRM-Modell
Das Datenmodell von Data basiert auf dem konzeptuellen Referenzmodell für die Strukturierung katalografischer Daten in Bibliotheken: IFLA LRM (Library Reference Model), das von der International Federation of Library Associations and Libraries (IFLA) festgelegt wurde.
Diese 2017 veröffentlichte Vorlage fasst drei frühere Vorlagen zusammen und ersetzt sie : FRBR (betraf bibliografische Datensätze), FRAD (Autoritätsdatensätze) und FRSAD (Sachautoritätsdatensätze).
IFLA LRM definiert eine Reihe von Entitäten (die aufgrund ihrer Relevanz für den Nutzer ausgewählt wurden), die mit Attributen versehen und durch Eigenschaften miteinander verbunden sind. Dieses Entity-Relationship-Modell wurde so konzipiert, dass es auf die Technologien des Semantic Web übertragbar ist.
Weitere Informationen zu diesem Modell finden Sie auf der Website des National Bibliographic Transition Program.
Data nutzt nicht das gesamte IFLA LRM-Modell, sondern bietet die Möglichkeit, in den Beziehungen zwischen Entitäten zu navigieren. Die verschiedenen Seiten der Website (siehe eine kurze Übersicht über ihren Inhalt auf der Seite que demander à data ?) spiegeln mehrere Entitäten des Modells wider :
- Werkseiten bieten Zugang zu Informationen über das Werk als solches und ermöglichen darüber hinaus den Einstieg in den OEMI-Baum (Werk, Ausdruck, Manifestation, Item). Die ersten drei Ebenen werden in der RDF der Seiten dargelegt, der Item wird nur in Form der digitalen Version eines Dokuments verstanden, das in den Sammlungen der BnF aufbewahrt wird, sofern diese verfügbar ist. In den html-Seiten selbst können Ausdrücke indirekt durch die Anwendung des Sprachfilters erfasst werden, der die Sprache der unter "Ausgaben" aufgelisteten Veranstaltungen unterscheidet.
- Entitäten vom Typ "Agent" werden auf den Seiten "Autoren" in ihren beiden Unterklassen dargestellt, der der natürlichen Person einerseits und der der Organisationen andererseits. Eine Person kann Autor eines Werkes sein (dann besteht eine Verbindung zwischen der Seite "Autor" und der entsprechenden Seite "Werk") oder zu einer Phrase beitragen (Vorwortschreiber, Übersetzer, Librettist ...). In RDF-Daten wird die Beziehung zwischen einem Autor und einer Ressource auf der Ebene des Werks ausgedrückt, wenn die Person Autor des Werks ist (Autor des Originaltextes, Komponist, Regisseur); oder auf der Ebene des Ausdrucks, wenn sie eine Übersetzung, eine Interpretation (in der Musik) usw. produziert hat. Der auf der Werkebene ausgedrückte Begriff des Urhebers wird in jedem Fall auf der Ausdrucksebene wiederholt.
- Alle Entitäten des IFLA LRM-Modells können Thema eines Werkes sein, aber die Themenseiten haben einen engeren Umfang: Sie werden auf der Grundlage der Rameau-Autoritätsdatensätze, der aktuellen Indexierungssprache der BnF, erstellt.
Das Datenmodell von Data (neues Fenster)
Verwendete Ontologien und Referenzsysteme
Die Verwendung von weit verbreiteten Ontologien
Um die Interoperabilität zu fördern, wurde die Wiederverwendung bestehender Vokabulare bevorzugt, insbesondere :
rdf |
|
rdfs |
|
skos |
|
dcterms |
https://dublincore.org/specifications/dublin-core/dcmi-terms/#section-2 |
foaf |
|
rdaregistry |
Außerdem werden die folgenden Vokabeln verwendet:
bibo |
|
bio |
|
dbpedia |
|
dc |
https://dublincore.org/specifications/dublin-core/dcmi-terms/#section-3 |
dcmi-box |
https://www.dublincore.org/specifications/dublin-core/dcmi-box/ |
dcmitype |
https://www.dublincore.org/specifications/dublin-core/dcmi-terms/#section-7 |
frbr-rda |
|
geo |
|
geonames |
|
go |
|
ign |
|
rdagroup1elements |
|
rdagroup2elements |
Eingebettete Daten zur Förderung der Suchmaschinenoptimierung
Die html-Seiten von data.bnf.fr sind im Web offen und können von Internetnutzern direkt über Suchmaschinen aufgerufen werden.
Deshalb werden neben den herkömmlichen Methoden zur Indexierung der Homepage drei Arten von Daten an Bord genommen, um die Seiten der Website zu strukturieren:
- Schema.org, das ein Vokabular für das Hinzufügen von Informationen zu HTML-Inhalten mit einem Mikrodatenformat bereitstellt, das die Indexierung durch große Suchmaschinen fördert.
- JSON-LD, das ein Format für strukturierte Metadaten ist, die von Suchmaschinen gelesen werden können.
- Opengraph Protocol (OG), das es Seiten ermöglicht, in sozialen Netzwerken dargestellt zu werden.
Dies ist ein sehr einfaches Vokabular, das eingeführt wurde, um einige Metadaten in RDFa zu kodieren, die abgerufen werden, wenn der Nutzer die Ressource zu seinem Facebook-Profil hinzufügt. Im Header der HTML-Seite werden die folgenden Metadaten mithilfe von META-Tags eingebunden:
og:title
(Seitentitel)og:description
(Beschreibung des Seiteninhalts)og:type
(Typ der beschriebenen Ressource: Autor und Buch)og:url
(URL der Seite)og:image
(URL des Bildes, das die Seite illustriert)og:author
(für die Seiten "Werke" den Namen des Autors)
Ontologie und eigene Referenzsysteme der BnF
Die bnf-onto-Ontologie
Einige Eigenschaften und Klassen können nur ausgedrückt werden. durch eine eigene Ontologie der BnF: bnf-onto. Um ihre Ontologien zu veröffentlichen, hat die BnF einen homogenen Namensraum der Form https://data.bnf.fr/ontology.
Eigene Referenzen der BnF
Die spezifischen Referenzen der BnF werden unter der folgenden Adresse gemeldet: https://data.bnf.fr/vocabulary.
Liste der Referenden :
- Ländercodes : https://data.bnf.fr/vocabulary/countrycodes
- Rollencodes : https://data.bnf.fr/vocabulary/roles
- Arten von Rameau-Themen : https://data.bnf.fr/vocabulary/scheme
- geografische Klassifizierungscodes : https://data.bnf.fr/vocabulary/geo-scheme
- Musikgenre-Codes : https://data.bnf.fr/vocabulary/musical-genre