Hej
Repost från
https://forum.sunet.se/s/swamid/
Jag har, efter gårdagens webinarium, funderingar kring vår tänkta implementation av en
algoritm för att automatiskt matcha uppgifter från eduID mot Ladok (eller annat
källsystem), det kan vara så att vi är på väg att göra några tankevurpor och behöver
därför synpunkter/svar på några frågeställningar.
Först och främst tänker vi använda Levenshtein Distance <= 1 för att avgöra om två
strängar(namn) kan anses vara samma, det ska hantera Thomas-Tomas, Andersson-Anderson
etc.
Förnamn
Om vi från eduID får ANNA, ANDERSSON och vi i Ladok har en anna, anderson så är det en
matchning - samma namn (i alla fall en tillräckligt liten skillnad).
Om det från eduID istället kommer ANNA BEDA, ANDERSSON så matchar fortfarande anna - det
förnamn som finns i Ladok ingår bland de som finns i ID.
Samma med ANNA BEDA CLARA som matchas av anna clara - alla namn i Ladok finns i ID.
Har man exemplet ANNA BEDA och anna diana så bör det vara så att de inte matchar - olika
namn även om anna är del av båda, alla namn i Ladok finns inte i ID.
Och då borde det även vara så att ANNA mot anna diana inte heller matchar - diana finns
inte med i ID.
Regeln bör bli att alla namn i Ladok måste finnas i ID men att alla namn i ID inte behöver
finnas i Ladok.
Tänker jag rätt här?
Finns det andra fall att ta hänsyn till?
Användande av e-post
Här blir jag mer osäker på hur man ska tänka.
Om vi har exemplet ANNA, ANDERSSON, född 19010101 med e-post
aaa@example.org<mailto:aaa@example.org> och vi i Ladok hittar dessa personer med
födelsedatum 1901-01-01
anna, andersson, pnr: 19010101-0000, e-post:
aaa@example.com<mailto:aaa@example.com>
anna, anderson, 19010101-1111, bbb@example.org<mailto:bbb@example.org>
beda, bertilsson, 190101-2222, ccc@example.org<mailto:ccc@example.org>
Då blir det en skillnad om man applicerar jämförelse av e-post ihop med matchningen av
varje tänkbar kandidat jämfört med om man först, enbart baserat på namn, plockar fram
tänkbara kandidater och sedan verifierar att man endast hittat en (1) möjlig kandidat samt
att den har rätt e-post.
I detta första fallet ser anna-0000 ut att vara en entydig matchning även om så kanske
inte är fallet medans man i det andra fallet har två möjliga kandidater anna-0000 och
anna-1111 och alltså inte kan göra en säker identifiering, eller?
Om man i det andra fallet använder e-post som "tiebreaker", använder man inte
även då e-post för identifiering?
\Anders