Nedenstående blev bragt i DIS-Danmark's medlemsblad Slægt & Data, december 1997.

Genvej til Gorm den Gamle.


Indtil fornylig har vi slægtsforskere været begrænset til at søge efter vores danske slægt via internettet på omtrent følgende måde:
1) Surf'e rundt på internettet og lede efter sider om genealogi.
2) Download'e et nærmest ubegrænset antal lister (ofte genereret med GED2HTML) med efternavne, evt. suppleret med oplysninger om fødsel, vielse og død.
3) Gennemlæse disse lister i håb om at støde på personer, der kunne være beslægtede.
4) Prøve at bekræfte/afkræfte slægtskabet.
Chancen for at finde beslægtede personer på denne måde er omtrent lige så god som hvis man går ind på Rigsarkivet og begynder at læse tilfældige mikro-film igennem. Kort sagt meget lille. Omvendt har man en meget høj sikkerhed for at spilde en masse tid på projektet.

Det er synd, for vi slægtsforskere burde bruge internettet til at udveksle slægtshistoriske oplysninger, og på den måde spare hinanden for en masse arbejde.

GEDCOMP.

Dette problem er jeg ved at gøre noget ved! Jeg har oprettet en database, kaldet GEDCOMP.
GEDCOMP er i skrivende stund knapt 2 måneder gammel, og har allerede en del successer bag sig. Mere om dem senere.
GEDCOMP står for GEDcom COMParison (altså GEDCOM sammenligning).
Formålet med GEDCOMP er at sætte slægtsforskere med interesse i de samme personer i kontakt med hinanden, og der igennem at hjælpe slægtsforskere til at finde flere oplysninger om deres slægt. GEDCOMP henvender sig til slægtsforskere med interesse i danskere og til dels svenskere, eftersom mange danskere har slægt på tværs af sundet. Inspirationen til GEDCOMP kommer faktisk fra Sverige. Vores søsterforening DIS-Sverige har nemlig en service, DISBYT, hvor medlemmer kan få udført en søgning blandt mere end 1 mio. personer. Desværre virker DISBYT praktisk taget kun på søgninger efter personer med svenske stedsangivelser. GEDCOMP virker derimod uafhængigt af stedsangivelser.

GEDCOMP virker ved at computer-sammenligne filer i GEDCOM format. GEDCOM er et standardiseret format for elektronisk kommunikation af genealogisk data. Praktisk taget alle slægtsforskningsprogrammer kan skrive slægtshistoriske oplysninger i GEDCOM formatet.

For at søge efter din slægt via GEDCOMP skal du skrive en GEDCOM-fil med dine slægtshistoriske oplysninger og sende den til GEDCOMP.

Find fejl i dine data.

Næsten alle har fejlbehæftede oplysninger i deres slægtsforskning. Grunden er at praktisk taget alle på et eller andet tidspunkt har tastet et årstal eller lignende forkert ind i deres slægtsforskningsprogram. Visse slægtsforskningsprogrammer f.eks. Brothers Keeper kan finde simple fejl i datoer, men på trods af det er der stadig rigtig mange som har alle mulige slags uopdagede fejl i deres data. For at undgå at GEDCOMP bliver ledt på vildspor af den slags fejl bliver alle indsendte GEDCOM-filer computer-kontrolleret for en række fejl, der alle er fundet i tidligere indsendt materiale, nemlig:
1) Ulovlige datoer. Hvis datoen ikke passer med GEDCOM's dato format, er der gode chancer for at datoen på en eller anden måde er fejlagtig. Mere end 95% af alle GEDCOM-filer indeholder denne type fejl.
2) Fødsels- og dødsdatoer der umuligt kan passe. Denne meget hyppige fejl opstår typisk pga. af indtastningsfejl.
3) Personer, der ikke har angivet noget køn. For navngivne personer antages dette at være en fejl.
4) Mænd (drenge) med et -datter efternavn. Skyldes oftest en indtastnings-fejl af køn.
5) Ulovlige navne. Dette skyldes oftest at der i et navne-felt er indtastet oplysninger, der hører til i et kommentar-felt eller lignende, f.eks. 'hustru til Jens Hansen' eller 'unavngivet dreng'.
6) Personer med mere end een moder eller mere end een fader.
7) Identiske personer. En del, især større GEDCOM-filer indeholder ofte identiske personer. Denne fejl opstår nemt når en slægtsforsker tilføjer et antal personer (f.ex. modtaget fra en anden slægtsforsker) til sin slægt.

Resultatet af denne grundige kontrol vil blive sendt til dig!
Eftersom praktisk taget alle indtil nu har haft nogle af ovenstående fejl i deres data, er der meget gode chancer for at du allerede på denne måde får gavn af GEDCOMP.

Find dine slægtninge.

Når din GEDCOM-fil er blevet kontrolleret, sammenligner GEDCOMP dine personer med de øvrige personer i databasen. Dine personer vil også blive sammenlignet med personer i GEDCOM-filer, der senere hen bliver optaget i databasen. GEDCOMP foretager sammenligningen på basis af køn, navne og datoer.

Personnavne bliver ofte stavet forskelligt. For at tage højde for det, konverterer GEDCOMP med hård hånd alle personnavne til en slags fonetisk stavning. F.ex. vil navne som 'Christiane', 'Christina' og 'Kirstine' blive opfattet som ens. Dette leder til et stort antal tilfælde af helt eller delvist navnesammenfald, hvoraf de fleste er uinteressante. For at tynde ud i alle disse sammenfald sammenlignes datoer.
GEDCOMP sammenligner datoer for alle de hændelser to personer med navnesammenfald har oplysninger om. Eftersom slægtshistoriske datoer angives med vidt varierende præcision, tager GEDCOMP hensyn til hvor præcist en dato er angivet. F.eks. tillægges det stor betydning hvorvidt to eksakte datoer er ens, mens det betyder mindre om datoer angivet med 20 års præcision er sammenfaldende. Upræcise datoer er dog stadig egnede til at tynde ud i listen over mulige personsammenfald. Nogle personer har ingen eller kun meget upræcist angivne datoer. For at kunne frasortere uinteressante sammenfald med sådanne personer, beregner GEDCOMP tidsperioder der indeholder fødsels- og dødsdatoer for disse personer. Det gøres ud fra oplysningerne om forældre, ægtefæller og børn. Selvom disse tidsperioder som oftest er ret lange, er de med til at tynde ud i listen over mulige personsammenfald. Din søgning har dog de bedste chancer, hvis så mange af dine personer som muligt har dato oplysninger. Datoerne behøver ikke nødvendigvis at være om kirkelige hændelser, det kan også være om f.eks. bopæl eller profession.

Styrken i GEDCOMP.

Den unikke fordel ved GEDCOMP er at personsammenligningen ikke kun sker ved at sammenligne navn og datoer for to personer. GEDCOMP udnytter at alle personer i en (normal) GEDCOM-fil har oplysninger om deres slægt. Så for at GEDCOMP erklærer to personer identiske, er det ikke nok at deres egne navne og datoer stemmer rimeligt overens, det samme skal også gælde for deres forældre, koner og børn i den udstrækning oplysninger om disse er tilgængelige. Den parvise sammenligning af de nære slægtninge udføres successivt således at også bedsteforældre svigerfamilie og børnebørn kan indgå i personsammenligningen.
GEDCOMP tildeler hvert par af mulige personsammenfald et antal point, således at jo flere points, desto sikrere er det at sammenfaldet faktisk vedrører identiske personer. To forskellige personer har indtil nu ikke fået mere end 100 points, mens identiske personer i to forskellige GEDCOM-filer nemt kan få flere hundrede points. To GEDCOM-filer med flere sammenfaldende personer kan nemt give flere tusind points. Så det er nemt for GEDCOMP at identificere to GEDCOM-filer med sammenfaldende personer.

GEDCOMP's samling af filer vokser løbende. Samlingen består ikke kun af indsendte filer, men også af GEDCOM-filer, som GEDCOMP selv download'er fra internettet. Til dette formål bruger GEDCOMP en web-crawler, der leder efter GEDCOM-filer, der indeholder oplysninger om danskere. GEDCOMP har allerede nu rundet den kvarte million personer.

Hvis man lader GEDCOMP sammenligne f.eks. tusind personer fra en GEDCOM-fil med et stort antal personer f.eks. en kvart million, så kan man forvente snesevis af navnesammenfald mellem personer, der har omtrent samme fødsels- og dødsdag. På trods af dette kan GEDCOMP via sammenligningen af slægtninge frasortere praktisk taget alt andet end virkeligt identiske personer.

Bingo!

Når GEDCOMP finder to GEDCOM-filer, der indeholder personsammenfald, modtager de to indsendere en meddelelse om dette. Meddelelsen indeholder navn og kontaktadresse på den anden indsender, samt uddrag vedrørende de sammenfaldende personer fra begge GEDCOM-filer, inklusive de points for sammenfald, de har fået tildelt.
Uddragene af GEDCOM-filerne sendes med, for at de to indsendere kan se hvilke personer sammenfaldene drejer sig om. Hvis den ene af GEDCOM-filerne er download'et fra internettet af GEDCOMP selv, sendes der kun een meddelelse, nemlig til indsenderen af den anden GEDCOMP-fil.

Med mindre en indsender giver besked om andet, er dette den eneste måde hvorpå GEDCOMP videregiver indsendte oplysninger. Hvis du mener din slægtsforskning har tilvejebragt oplysninger, der er private, følsomme, kontroversielle eller på anden måde uegnede til videregivelse, bør du udelade disse oplysninger fra den GEDCOM-fil du indsender.
Her er det værd at minde om, at indholdet af statens arkiver med enkelte restriktioner er offenligt tilgængeligt, og som sådan er det meste af indholdet i de fleste GEDCOM-filer offenligt tilgængeligt. Der er dog stadig et hensyn at tage til de nulevende mennesker, der måtte findes blandt dine oplysninger.

Hvis du via GEDCOMP udveksler oplysninger med en anden slægtsforsker, bør du som en god slægtsforsker ikke ukritisk tage de modtagne oplysninger for gode varer. Istedet for bør du så vidt muligt selv kontrollere de modtagne oplysninger på de relevante arkiver. Og hvor meget nemmere er det ikke at slå direkte op i en bog, fremfor at hige og søge i de gamle bøger? Og afsenderen vil kun være dig taknemmlig, hvis du kan finde fejl, som hverken han eller GEDCOMP har fundet.

Gorm den Gamle.

Som overskriften antyder, så har GEDCOMP allerede vakt begejstring hos et antal slægtsforskere. Med Flemming Molins tilladelse bringer jeg her et uddrag af et brev han har sendt til Ejvind A. Christensen (begge DIS-Danmark medlemmer), efter at GEDCOMP har bragt dem i kontakt med hinanden og efter at de har udvekslet oplysninger:

Tak for kaffe !!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Nu er min viv ikke let at skyde igennem:

Sidst på eftermiddagen i går, inden vi skulle afsted til min søns 30-års
fødselsdag, gik jeg så langsomt (troede jeg) i gang med at sammenligne
dine og mine data, idet jeg udskrev "efterslægt i bogform" for Ole
Hansen Aagaard (din #26) fra både din og min base.

Efter [...] notering til undersøgelse af din #25 [...], så nåede jeg
frem til dennes forældre, Jacob Christofer Heerfordt og en hos mig
"ukendt hustru", som var navngivet i udskriften fra din base (#29).

Da jeg - for at se hvad Du ellers havde om hende - bad om hendes
koncentrerede anetavle på skærmen, var der "bingo" - helt tilbage til
Gorm den Gamle!
Og efter et par hurtige udskrifter, markeringer (med BLÅT, naturligvis)
og optælling, kunne jeg konstatere, og om aftenen ved fødselsdagen hos
min søn (som nævnt 30 år) for den undrende skare proklamere, at hans
tip-30 oldefar var Gorm den Gamle.

Det var virkelig et scoop, må jeg sige!

Venlig hilsen - og tak

Flemming Molin

Så heldige kan alle ikke være, men godt 90% af alle indsendte danske GEDCOM-filer med mindst 600 personer har fået meddelelse om mindst een slægtsforsker, der forsker i de samme personer.

Chancen for gevinst.

Kun mellem 100.000 og 150.000 af GEDCOMP's personer er faktisk danskere. Dette virker ikke af meget når man tænker på at man leder efter personer blandt samtlige forfædre til godt 5 mio. mennesker, og man kan undre sig over hvordan GEDCOMP kan give gevinst så ofte.
Lad os overveje dette i det følgende.

Jo længere man bevæger sig tilbage i tiden desto mindre kildemateriale findes der, desværre. En behagelig konsekvens af dette er imidlertid, at chancerne for at andre slægtsforskere er interesserede i de samme personer som man selv, stiger efterhånden som man bevæger sig tilbage i tiden. Grunden er at jo mindre kildemateriale der findes, jo større er chancen for at andre, der er nået ligeså langt tilbage, også arbejder med det samme kildemateriale. Så en af grundene til at GEDCOMP har givet gevinst så ofte indtil nu, er at det indsendte GEDCOM-materiale går langt tilbage i tiden. Hvis man når tilbage før år 1600, er det bevarede kildemateriale så sparsomt, at man har meget gode chancer for at andre forsker i de samme personer.

Omvendt kan man for perioden efter år 1600 ikke regne med, at andre forsker i de samme personer som en selv. Så her er spørgsmålet: Mellem hvor mange personer er det at vi leder efter vore aner? I Slægt & Data nr. 1 '96 sandsynliggør jeg i artiklen 'MEGA BASE igen', at det antal mennesker der har levet i Danmark i årene 1600-1900 næppe overstiger 10 millioner. Denne periode er interessant fordi de fleste søger efter personer født før år 1900, og fordi der som sagt er et meget spinkelt kildemateriale før år 1600.

Lad os være pessimistiske og antage at der har levet 10 mio. mennesker i Danmark i perioden 1600-1900, og at GEDCOMP kun indeholder oplysninger om 50.000 af dem. Det præcise antal kender jeg ikke fordi de mere end 250.000 personer i GEDCOMP ikke kun er danskere, og fordi en del af dem har meget upræcise oplysninger om fødsels- og dødsår. Med denne antagelse kan man sammenligne en GEDCOMP søgning efter personer fra denne periode med at tage kugler op af en stor hat med 10 mio. kugler, hvoraf de 50.000 er hvide og resten sorte. Hvis man tager 600 tilfældige kugler op af hatten,
har man 95% (!) chance for at mindst en af dem er hvid. Denne sandsynlighed er ikke langt fra den observerede 90%
gevinsthyppighed med GEDCOMP. Man skal dog bemærke at en GEDCOMP søgning adskiller sig fra hatteeksperimentet ved at de personer man leder efter er beslægtede, mens det er tilfældige kugler man tager op af hatten. Den dag GEDCOMP har oplysninger om 1/2 mio. af danskerne fra perioden 1600-1900 antyder hatteeksperimentet,
at en GEDCOMP søgning vil have en gevinstchance på godt 90%
selvom man leder efter så lidt som 50 personer. Så det er bare om at komme i gang med at indsende data. Og bare rolig, GEDCOMP råder over masser af computerkraft og lagerplads.

Kontakt til GEDCOMP.

GEDCOMP drives af:
Lars Kr. Lundin
Lundtoftegade 86, 1.tv.
2200 KBH N

GEDCOMP har www-adressen:
http://www.imm.dtu.dk/~lkl/gedcomp/

GEDCOM-filer kan sendes til: lkl@imm.dtu.dk

I tilfælde af at min e-mail (og www-adresse) ændres, så vil den nye adresse fremgå af DIS-Danmarks www-fortegnelse over medlemmer.

Alle slægtsforskere med e-mail adresse kan bruge GEDCOMP.

Hvis du gerne vil bruge GEDCOMP, men hverken du eller din familie eller bekendte har e-mail, som du kan anvende:
Alt i GEDCOMP, inklusive afsendelse af e-mail til indsenderne,
er automatiseret. Bidrag indsendt med almindelig post vil derfor kræve en noget længere arbejdsgang. Bidrag til GEDCOMP indsendt med almindelig post VIL blive behandlet, men du må regne med at det vil tage lidt længere tid. Resultatet af din søgning vil blive lagt øverst i bunken hvis du vedlægger en frankeret svarkuvert. Hvis du har mobiltelefon hos Teledanmark eller Sonofon,
så send dit mobiltelefonnummer med ind til GEDCOMP. Så vil du kunne modtage korte e-mails fra GEDCOMP via mobiltelefonen.