Dublettenerweiterungen

<< Click to Display Table of Contents >>

Navigation:  Die Menüleiste mit Ihren Unterordnern > Dubletten/Verkartung > Phonetik und Dubletten > Dubletten >

Dublettenerweiterungen

Die Optionen sind jetzt in zwei Bereiche geteilt:

 

1.

Suchoptionen  

Dubletten - Suche - Einstellungen

 

 

Hier wird festgelegt, welche Daten analysiert werden und angezeigt werden.

 

2.

Bewertungen  

Dubletten - Bewertungen

 

Die Bewertung legt fest, in welcher Reihenfolge die Daten angezeigt werden. Speziell bei höherer Anzahl von Dubletten ist das hilfreich, es sollte so sortiert sein, das die möglichen Dubletten mit der höchsten Wahrscheinlichkeit oben stehen.

Grundsätzlich ist die größe Wahrscheinlichkeit immer mit 1,0 bewertet. Alles andere führt zu einer Abwertung bis u.U. auf 0,01. Die Vorschläge mit der höchsten Wahrscheinlichkeit werden zuerst aufgeführt.

Auf der linken Seite sind Schieberegler, die festlegen, wie das Ergebnis abgewertet wird, wenn der Dublettenvorschlag z.B. durch den Alias-Namen verursacht wurde.

Schieberegler:

Wenn der Schieberegler ganz links steht, wird der jeweilige Name nicht berücksichtigt (Faktor 0,0), wenn der Schieberegler ganz rechts steht, der der jeweilige Name zu 100% (Faktor = 1,0) bewertet. Je kleiner der Wert ist (je weiter also der Regler nach links eingestellt ist), werden die gefundenen Einträge, die nach den jeweils eingestellten Kriterien als mögliche Dublette eingestuft wurden, in der Reihenfolge immer weiter nach unten geschoben (wenn es andere gibt, die höher bewertet werden).

Die jeweilige Schieberegler finden nur Berücksichtigung, wenn auch unter den Suchoptionen die angesprochenen Namen überhaupt nur gesucht werden.

„Erweiterte Namensprüfung" ?

Schieberegler „Name des Vaters" und „Name der Mutter" finden Berücksichtigung.

„Namensvarianten berücksichtigen" ?

Schieberegler „Sonstige Namen" findet Berücksichtigung

„Aliasnamen berücksichtigen" ?

Schieberegler „Alias" findet Berücksichtigung.

„Heiratsnamen berücksichtigen" ?

Schieberegler „Ehenamen" findet Berücksichtigung.

   

Beispiele aus der Praxis:

1. Beispiel

Uneheliches Kind wird z.B. in GES mit dem Namen der Mutter hinterlegt. Wenn die Mutter ein zweites Mal heiratet, kann es passieren:

1.Das Kind taucht mit dem Namen des 1. Vaters auf, da er dafür aufkommt

2.Das Kind taucht mit dem Namen der Mutter auf, da der 1. Vater die Vaterschaft nicht anerkennt und er zweite Vater das Kind nicht adoptiert hat.

3.Das Kind taucht mit dem Namen des Stiefvaters auf, da dieser es adoptiert hat.

In diesem Fall ist die erweiterte Namensprüfung einzuschalten und die Bewertung für diesen Bereich sollte > 50% stehen.

2. Beispiel

Eine Frau heiratet das zweite mal und taucht bei der Heirat und auch bei allen Kindern mit dem ersten Ehenamen auf.

In diesem Fall ist die Suchoption „Heiratsname berücksichtigen" und der entsprechende Regler sollte > 50% sein.

3. Beispiel

Ein Mann hat auf einen Hof eingeheiratet und hat den Namen des Hofes (das ist auch der Name der Frau) angenommen. Die Kinder heißen in der Regel auch so wie der Hof. Es kann aber auch vorkommen, dass das Kind mit dem Namen des Vaters heiratet. Um dann das Kind zu finden, ist in diesem Fall ist die „erweiterte Namensprüfung" zu aktivieren und die dazugehören Schieberegler sollten einen Wert über 50% haben.

Vornamen:

Wenn als Dubletten bei „Bernhard* Heinrich Kuick" z.B. ein „Heinrich Kuick" vorgeschlagen wird, wurde von zwei Vornamen nur einer gefunden (=0,5) und der Rufname fehlt (Siehe Schieberegler für „Rufname fehlt" ca. 0,4). Daraus ergibt sich 0,5*0,4=0,2 als Faktor alleine aus den Vornamen. Dieser Vorschlag landet also ziemlich weit unten.

Ähnlichkeitsverfahren

Zur Veranschaulichung nehme ich hier „Kuick" und „Kock", die bei der „Kölner Phonetik" als gleich erkannt werden.

Testen kann man diese Verfahren unter Einstellungen/Parameter/Test der Phonetischen Suche.

Folgende Ähnlichkeitsverfahren können genutzt werden. Für Interessierte stehen entsprechende Verweise auf Internetseiten zur Verfügung.

„Levenshtein": „Kuick"/"Kock" ? Ergibt Faktor 0,6

https://de.wikipedia.org/wiki/Levenshtein-Distanz

„Fuzzy": „Kuick"/"Kock" ? Ergibt Faktor 0,17

„NeedlemanWunch": „Kuick"/"Kock" ? Ergibt Faktor 0,7

https://de.wikipedia.org/wiki/Needleman-Wunsch-Algorithmus

„SmithWatermanGotoh": „Kuick"/"Kock" ? Ergibt Faktor 0,5

https://de.wikipedia.org/wiki/Smith-Waterman-Algorithmus

„MongeElkan": „Kuick"/"Kock" ? Ergibt Faktor 0,5

http://www.academia.edu/200314/Generalized_Monge-Elkan_Method_for_Approximate_Text_String_Comparison

Standard ist der „ Levenshtein"-Algorithmus. Dieser gibt im wesentlichen wieder, mit wieviel Tastendrücken man von einem Wort zu dem anderen kommt.

In der Praxis sollte man testen, was für einen die besten Ergebnisse liefert.

Halbwerte

Das ist eine Bewertung für die Zeitunterschiede (Geburt) zwischen Ursprungsperson und vorgeschlagener Dublette.

Schwelle

Hier kann man zusätzlich die Anzahl der Vorschläge reduzieren, um die weniger wahrscheinlichen nicht anzeigen zu lassen. Alle Vorschläge, deren Gesamtfaktor unter diesem Wert liegt werden nicht angezeigt. Bei Schwelle = 0 werden alle angezeigt.

In der Praxis sollte der Wert nicht größer als 0,5 sein.

Mit der neuen Version sieht dann der Vorschlag für die Dubletten so aus:

clip0250

Ergebnis:

Statt 30 Vorschläge werden nur noch 12 vorgeschlagen. Die Reihenfolge ist jetzt auch logischer.

Einfluss der Einstellungen untereinandern

Es gibt folgende unterschiedliche Faktoren:

–   Familienname (es wird der Familiennamen genommen, der am besten passt)

–   Vornamen

–   Zeitunterschiede

–   Namensähnlichkeit

–   Schwelle

Aus jeder Kategorie kommt eine Faktor zwischen 0 und 1. Diese werden alle miteinander multipiziert.

Beispiel:

Ich suche einen „Heinrich Bernard* Kuick" von (geschätzt) 1776.

Der „Heinrich Sunderman" von 1780, Sohn von „Bernard Sunderman gen. Kock" und „Maria Kock".

Erweiterte Namensprüfung ist aktiviert. Schieberegler bei „Name des Vaters" steht auf 100% und Alias auf 70% (0,7)

Familienname: Kuick" und „Kock" sind nach dem Soundexverfahren identisch. Beides ist der Name. Durch die Gewichtung kommt ein Faktor von 0,7.

Vornamen: Es wird nur die Hälfte der Vornamen gefunden (0,5) und der Rufname ist nicht vorhanden (Schieberegler steht auf 25% = 0,25).

Zeitunterschiede: Bei „Geschätzt" ist die Halbwertszeit 15 Jahre, das macht bei 4 Jahres ein Faktor von 0,8.

Namensähnlichkeit: ist 0,6 (Levensthein)

Das macht in Summe 0,7*0,5*0,25*0,8*0,6 = 0,042 ? Wenn die Schwelle darüber liegt wird diese Person nicht angezeigt.

Tip für die Praxis

Man sollte immer zuerst versuchen, die Dublettensuche mit möglichst wenig eingeschalteten Optionen zu nutzen. Damit wird das Ergebnis übersichtlicher und es dauert nicht so lange.

Erst wenn das abgearbeitet ist, kann man immer mehr Optionen hinzuwählen und die einzelnen Fälle untersuchen.


GESW-2000 Online-Hilfe © Genealogie EDV-Service