Om faran med att dra slutsatser

Jag använder mig av Google Reader för att läsa RSS-flöden från bloggar och tidningar (tidningar i detta fallet är väldigt brett) och jag tycker det är praktiskt eftersom jag kan följa min omvärld på ”mitt” sätt var jag än befinner mig.

Google Reader har en ruta som heter Top Recommendations som visar ”tips” på flöden som jag kan tänkas vara intresserad av. Listan genereras på följande sätt (enligt hjälpen):
”Your recommendations list is automatically generated. It takes into account the feeds you’re already subscribed to, as well as information from your Web History, including your location. Aggregated across many users, this information can indicate which feeds are popular among people with similar interests. For instance, if a lot of people subscribe to feeds about both peanut butter and jelly, and you only subscribe to feeds about peanut butter, Reader will recommend that you try some jelly.”

Det som är grunden till denna postningen är att en RSS som Google Reader idag tyckte att jag antagligen var intresserad av var Info14‘s RSS. Och för er som inte känner till vad detta är för något så kan jag meddela att det definitivt inte är något som jag skulle vilja ha i min RSS-läsare.

Men något bra kom ändå ur rekommendationen, nämligen ett väldigt bra exempel på faran med att försöka gissa sig till en persons intressen utifrån information från personen själv och omvärlden.

Om vi återgår till förklaringen över hur Google Reader skapar listan så ser vi att den beror på vilka RSS’er jag redan läser, min webbhistorik (<- gissningsvis googlesökningar och vilka resultat jag klickade på medan jag var inloggad på mitt google-konto) och var jag befinner mig.
Ovanstående samkörs mot andra personer som använder Google Reader (gissar jag) och sedan kontrolleras vilka RSSer som ”saknas” hos mig jämfört med övriga som passar in i min ”profil”.

Ovanstående kan till stor del ses som trafikdata, och det var hit jag ville komma med denna postningen. Man kan dra slutsatser om en person, eller ett nätverk av personer, genom att titta på trafikdata och även innehållet i trafiken.
Men det är svårt att avgöra vilken sanningshalt slutsatsen verkligen har utan att studera väldigt stora datamängder, och då dyker ett nytt problem upp.
Den rena informationsmängden gör att saker som faller utanför genomsnittet antingen kommer uppfattas som misstänkt, eller så kommer det missas helt.

En enskild persons spår kan ses som misstänkta om man tittar på ett riksgenomsnitt, frågan är om personen verkligen behöver misstänkas och ifall spåren man ser verkligen kan säga om så är fallet?
Jag har varit inne på denna linjen förut vid ett par tillfällen förut, nämligen att det kan finnas legitima anledningar till ett ”misstänkt beteende”. Problemet här är att vi inte vet vad som är ”rent mjöl i påsen”.

Å andra sidan så kan en plötslig ändring i en persons trafikmönster ses som misstänkt, men det kan även ses som en naturlig fluktation.

Den korta slutsatsen lyder att datamining i syfte att förutspå framtiden eller stoppa misstänkta aktiviteter inte är en säker metod av flera anledningar.

Det är lätt att säga att urvalet sker med hjälp av exakta filter, men frågan är hur man mäter effektiviteten på sådana filter och hur detta förhåller sig till verkligheten?

Kartläggning av en signalmiljö är vettigt så länge signalmiljön är relativt begränsad, då informationsmängden som överförs ökar ökar även sannolikheten för att antalet falsklarm kommer bli högre än antalet riktiga larm. Och i diskussionerna kring övervakning i samhället är detta relevanta frågor att ställa; hur effektivt är effektivt?

Detta är något jag tror att många har missat när det pratas om övervakningslagar och övervakningssystem idag, nämligen var gränserna går. Hur många falsklarm i förhållande till antalet riktiga larm är godtagbart och lever systemen upp till detta?

Opassande har ett svärmprojekt om integritetskränkande lagar, Sagor från livbåten synar argumenten, OlofB har två pedagogiska poster.

Intressant

Annonser

6 svar to “Om faran med att dra slutsatser”

  1. Dennis Nilsson Says:

    Varför då ha konton kopplade till ens riktiga identitet??

    Då inbjuder man till övertramp.

  2. Martin a.k.a NPC]Otyg Says:

    Med en storskalig övervakning (behöver egentligen inte vara så storskalig) kan du göra "sannolika" kopplingar även till anonyma konton genom att titta på varifrån trafiken kommer.

    Om vi tar exemplet googel ovan så kan man kartlägga en persons vanor utan att denna har ett googlekonto genom tracking-cookies, då pratar vi inte om person direkt utan "användare X på dator Y". Motsvarande kan göras på serversidan genom att logga ip-nummer (det händer att dessa ändras, men i bredbandets dagar sker det väldigt sällan) vilket kan ses hos Facebook som ibland slänger upp rutan "du loggar in från en obekant plats".

    Summasummarum; visst konton kopplade till ens identitet har sina problem (som du säger), men även anonyma konton kan kopplas till identitet (speciellt om man har tillgång till hela trafikströmmen).

  3. Dennis Nilsson Says:

    Hmm, då borde det finnas utrymme för att någon nice person i världen programmerar mjukvara så "hela trafikströmmen" inte längre blir hel.

    Det har skrivits om det på andra forum, vetja.

  4. Martin a.k.a NPC]Otyg Says:

    Precis, och då faller hela poängen med att övervaka hela trafikströmmen i jakt på "fula fiskar" eftersom de fula fiskarna använder sådan mjukvara (tillsammans med folk som inte gillar att bli behandlade som fula fiskar även om de inte är det) ;)

  5. Dennis Nilsson Says:

    Det här borde intressera dig:

    "EU social network spy system brief, INDECT Work Package 4, 2009"

    https://secure.wikileaks.org/wiki/EU_social_network_spy_system_brief%2C_INDECT_Work_Package_4%2C_2009

    "This file, marked "confidential", describes development of an EU-funded intelligence gathering system ("INDECT work package 4") designed to comb webblogs, chat sites, newsreports, and social-networking sites to inorder to build up automatic dossiers on individuals, organizations and their relationships.

    "The aim of work package 4 (WP4) is the development of key technologies that facilitate the building of an intelligence gathering system by combining and extending the current-state-ofthe- art methods in Natural Language Processing (NLP). One of the goals of WP4 is to propose NLP and machine learning methods that learn relationships between people and organizations through websites and social networks. Key requirements for the development of such methods are: (1) the identification of entities, their relationships and the events in which they participate, and (2) the labelling of the entities, relationships and events in a corpus that will be used as a means both for developing the methods."

  6. Martin a.k.a NPC]Otyg Says:

    Tack Dennis, har plockat ned filen men inte haft tid att mer än skumläsa den.
    Återkommer när jag läst på lite mer, hursomhelst så verkar det intressant!

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s


%d bloggare gillar detta: