Hej,

Att tänka på när det gäller namnmatchning. En användare i eduID, eller annan identitetstjänst som används för proofing, kan komma att endast skicka över tilltalsnamn eftersom dessa tjänster även används för direkt inloggning i tjänster.

Att använda en verifierad e-postadress i matchningen handlar enbart om uteslutningsmetoden, dvs. om du får en e-postadress från eduID kan du utesluta alla individer som inte har den e-postadressen i ert källsystem. Det kan inte användas på något annat sätt.

Pål

From: Anders Gustavson via Saml-admins <saml-admins@lists.sunet.se>
Sent: Friday, November 17, 2023 2:53 PM
To: saml-admins@lists.sunet.se
Subject: [Saml-admins] AL2 för personer utan svenskt personnummer

Hej

Repost från https://forum.sunet.se/s/swamid/

Jag har, efter gårdagens webinarium, funderingar kring vår tänkta implementation av en algoritm för att automatiskt matcha uppgifter från eduID mot Ladok (eller annat källsystem), det kan vara så att vi är på väg att göra några tankevurpor och behöver därför synpunkter/svar på några frågeställningar.

Först och främst tänker vi använda Levenshtein Distance <= 1 för att avgöra om två strängar(namn) kan anses vara samma, det ska hantera Thomas-Tomas, Andersson-Anderson etc.

Förnamn
Om vi från eduID får ANNA, ANDERSSON och vi i Ladok har en anna, anderson så är det en matchning - samma namn (i alla fall en tillräckligt liten skillnad).

Om det från eduID istället kommer ANNA BEDA, ANDERSSON så matchar fortfarande anna - det förnamn som finns i Ladok ingår bland de som finns i ID.
Samma med ANNA BEDA CLARA som matchas av anna clara - alla namn i Ladok finns i ID.

Har man exemplet ANNA BEDA och anna diana så bör det vara så att de inte matchar - olika namn även om anna är del av båda, alla namn i Ladok finns inte i ID.
Och då borde det även vara så att ANNA mot anna diana inte heller matchar - diana finns inte med i ID.

Regeln bör bli att alla namn i Ladok måste finnas i ID men att alla namn i ID inte behöver finnas i Ladok.

Tänker jag rätt här?
Finns det andra fall att ta hänsyn till?

Användande av e-post
Här blir jag mer osäker på hur man ska tänka.

Om vi har exemplet ANNA, ANDERSSON, född 19010101 med e-post aaa@example.org och vi i Ladok hittar dessa personer med födelsedatum 1901-01-01
anna, andersson, pnr: 19010101-0000, e-post: aaa@example.com
anna, anderson, 19010101-1111, bbb@example.org
beda, bertilsson, 190101-2222, ccc@example.org

Då blir det en skillnad om man applicerar jämförelse av e-post ihop med matchningen av varje tänkbar kandidat jämfört med om man först, enbart baserat på namn, plockar fram tänkbara kandidater och sedan verifierar att man endast hittat en (1) möjlig kandidat samt att den har rätt e-post.

I detta första fallet ser anna-0000 ut att vara en entydig matchning även om så kanske inte är fallet medans man i det andra fallet har två möjliga kandidater anna-0000 och anna-1111 och alltså inte kan göra en säker identifiering, eller?
Om man i det andra fallet använder e-post som "tiebreaker", använder man inte även då e-post för identifiering?

\Anders