Topic on User talk:Magnus Manske

Jump to navigation Jump to search

Reinheitsgebot-Import von 30. Januar 2023 - Baudenkmäler in Hessen - Dubletten

12
M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)

Siehe auch

M2k~dewiki (talkcontribs)

Hallo, es wurden jetzt 75 Dubletten zusammengefügt.

M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)

Hallo Magnus, kann man schon abschätzen, wie vielen Dubletten durch den Reinheitsgebot-Import angelegt wurden? Wie können wir die betroffenen Dubletten ermitteln? Können diese ggf. automatisiert zusammengeführt werden?

Durch den Bot wurden teilweise neue doppelte Objekte angelegt, obwohl die Denk-X-Web-ID im bereits bestehenden Objekt eingetragen war:

Andererseits gibt es Fälle, wo die Denk-X-Web-ID noch nicht eingetragen war oder ist, und erst wenn diese in beiden Objekten eingetragen (im alten, bestenden Objekt zusätzlich zum neu, doppelt angelegten Objekt) ist, scheinen beide Objekte in der Auswertung mit Objekten mit identischen IDs auf.

Aktuell sind über 4.000 Objekte mit Denk-X-Web-ID mit einer Commonscat verbunden:

Siehe auch

M2k~dewiki (talkcontribs)

Kleine Korrektur: die beiden Objekte

https://www.wikidata.org/w/index.php?title=Q47004090&action=history

https://www.wikidata.org/w/index.php?title=Q116511720&action=history

wurden zwar durch den Bot (mit etwas über fünf Jahren Abstand) angelegt, die Denkmal-ID wurden beim ersten durch den Bot angelegten Objekt aber erst nach dem zweiten Import hinzugefügt.

M2k~dewiki (talkcontribs)
M2k~dewiki (talkcontribs)

Im schlimmsten Fall gibt es zwei parallele Datenstrukturen:

  • Objekte mit IDs
  • Objekte mit Sitelinks (de-WP und/oder Commonscat)

Die beiden werden unter Umständen nie voneinander erfahren.

Siehe auch Talk:Q480829

Magnus Manske (talkcontribs)

Viel Analyse hier, danke! Der Bot sollte keine Dubletten anlegen, falls die denkXweb-ID schon in Wikidata war, basierend auf SPARQL. Vielleicht hat das nicht alles abgedeckt, aber ich bin nicht sicher, was ich da hätte besser machen können. Ich finde 135 Artikel auf der deutschen Wikipedia, die einen einzelnen denxweb-Link haben und keine Liste sind; davon sind einige Personen. Dubletten automatisch auf Wikidata zu finden ist schwer; für einzelne Orte kann WikiShootMe bemühen, falls die "Original-Dublette" Koordinaten hat.

Magnus Manske (talkcontribs)

hier habe ich eine SPARQL-Abfrage gebaut, die Wikidata-Objekte (eins mit, eins ohne denkXweb) mit dem selben Namen in km Umkreis voneinander findet. Das läuft etwas langsam, daher hier nur 20 pro Abfrage. Qualität scheint recht hoch zu sein.

Reply to "Reinheitsgebot-Import von 30. Januar 2023 - Baudenkmäler in Hessen - Dubletten"