Hej,
Att tänka på när det gäller namnmatchning. En användare i eduID, eller
annan identitetstjänst som används för proofing, kan komma att endast
skicka över tilltalsnamn eftersom dessa tjänster även används för direkt
inloggning i tjänster.
Att använda en verifierad e-postadress i matchningen handlar enbart om
uteslutningsmetoden, dvs. om du får en e-postadress från eduID kan du
utesluta alla individer som inte har den e-postadressen i ert källsystem.
Det kan inte användas på något annat sätt.
Pål
*From:* Anders Gustavson via Saml-admins <saml-admins(a)lists.sunet.se>
*Sent:* Friday, November 17, 2023 2:53 PM
*To:* saml-admins(a)lists.sunet.se
*Subject:* [Saml-admins] AL2 för personer utan svenskt personnummer
Hej
Repost från
https://forum.sunet.se/s/swamid/
Jag har, efter gårdagens webinarium, funderingar kring vår tänkta
implementation av en algoritm för att automatiskt matcha uppgifter från
eduID mot Ladok (eller annat källsystem), det kan vara så att vi är på väg
att göra några tankevurpor och behöver därför synpunkter/svar på några
frågeställningar.
Först och främst tänker vi använda Levenshtein Distance <= 1 för att avgöra
om två strängar(namn) kan anses vara samma, det ska hantera Thomas-Tomas,
Andersson-Anderson etc.
*Förnamn*
Om vi från eduID får ANNA, ANDERSSON och vi i Ladok har en anna, anderson
så är det en matchning - samma namn (i alla fall en tillräckligt liten
skillnad).
Om det från eduID istället kommer ANNA BEDA, ANDERSSON så matchar
fortfarande anna - det förnamn som finns i Ladok ingår bland de som finns i
ID.
Samma med ANNA BEDA CLARA som matchas av anna clara - alla namn i Ladok
finns i ID.
Har man exemplet ANNA BEDA och anna diana så bör det vara så att de inte
matchar - olika namn även om anna är del av båda, alla namn i Ladok finns
inte i ID.
Och då borde det även vara så att ANNA mot anna diana inte heller matchar -
diana finns inte med i ID.
Regeln bör bli att alla namn i Ladok måste finnas i ID men att alla namn i
ID inte behöver finnas i Ladok.
Tänker jag rätt här?
Finns det andra fall att ta hänsyn till?
*Användande av e-post*
Här blir jag mer osäker på hur man ska tänka.
Om vi har exemplet ANNA, ANDERSSON, född 19010101 med e-post
aaa(a)example.org och
vi i Ladok hittar dessa personer med födelsedatum 1901-01-01
anna, andersson, pnr: 19010101-0000, e-post: aaa(a)example.com
anna, anderson, 19010101-1111, bbb(a)example.org
beda, bertilsson, 190101-2222, ccc(a)example.org
Då blir det en skillnad om man applicerar jämförelse av e-post ihop med
matchningen av varje tänkbar kandidat jämfört med om man först, enbart
baserat på namn, plockar fram tänkbara kandidater och sedan verifierar att
man endast hittat en (1) möjlig kandidat samt att den har rätt e-post.
I detta första fallet ser anna-0000 ut att vara en entydig matchning även
om så kanske inte är fallet medans man i det andra fallet har två möjliga
kandidater anna-0000 och anna-1111 och alltså inte kan göra en säker
identifiering, eller?
Om man i det andra fallet använder e-post som "tiebreaker", använder man
inte även då e-post för identifiering?
\Anders