Hoe betrouwbaar is 'iemand googelen'?

Een (alweer een paar weken oud) bericht van Planet over onderzoek van Centerdata van de Universiteit van Tilburg onder ruim 2300 personen:

  • Ongeveer 80 procent van de personen die hun naam op internet opzoeken, vindt die daadwerkelijk terug in de zoekresultaten.
  • Ruim 10 procent kan zich niet vinden in het beeld dat anderen van hen via internet kunnen krijgen.
  • Van de mensen die hun naam op internet aantreffen, vindt ongeveer tweederde ook informatie die niet op hen betrekking heeft maar op anderen met dezelfde naam.

      Tot zover de onderzoeksresultaten. Maar dan gaat Planet interpreteren en slaat het de plank meteen helemaal mis:

      EPN concludeert in haar persbericht dat ‘iemand even googelen’ onbetrouwbaar is en uiteraard nemen veel media dit over. Maar met slechts 10 procent ontevreden personen valt dat wel mee. Bovendien, die personen kunnen zich zelf niet in het beeld vinden en dat wil nog niet zeggen dat het niet klopt.

      Dit is weer een mooi voorbeeld van hoe je met statistieken alles kunt bewijzen. Tien procent ontevreden personen lijkt inderdaad best mee te vallen. Maar wat volgens mij veel belangrijker is: als tweederde van alle internetgebruikers een naamgenoot heeft, dan weet je nooit zeker over welke naamgenoot je informatie tegenkomt op internet. In sommige gevallen kun je nog wel uit de context afleiden met welke naamgenoot je van doen hebt, maar er zal altijd verwarring blijven.

      En ook bij de overige eenderde moet je oppassen, want die kunnen best een naamgenoot hebben die niet zichtbaar is op internet. Stel dat er twee mensen rondlopen met de naam Jan de Vries. Eentje daarvan is zichtbaar via internet; de ander niet, maar die solliciteert wel bij een groot bedrijf. De personeelsfunctionaris van dat bedrijf googelt op de naam Jan de Vries en meent op grond van de zoekresultaten te kunnen concluderen dat hij steeds dezelfde persoon in de zoekresultaten tegenkomt. Dat is ook zo, maar niet dezelfde Jan de Vries die bij hem solliciteert.

      Overigens heb je helemaal geen statistieken nodig om te concluderen dat ‘iemand googelen’ onbetrouwbaar is. Google dekt lang niet het hele internet en internet biedt maar een fractie van alle persoonlijke informatie over een bepaald persoon. Al met al vind ik het onbegrijpelijk dat EPN 2300 mensen interviewt om vervolgens met de onderzoeksresultaten een open deur in te trappen. Maar ja, zoals Planet opmerkt: het is wel weer goed voor aandacht van de media.

    Italiaanse privacyzorgen om Google – of de ethiek van het indexeren

    Niet alleen het College Bescherming Persoonsgegevens maakt zich steeds meer zorgen om Google, ook het Italiaanse broertje Garante per la protezione dei dati personali is wakker geworden. Uit een ANP-bericht:

    Aanleiding is een klacht van een Italiaanse vrouw, die voor een misdrijf had moeten terechtstaan, maar inmiddels is vrijgesproken. Toen zij zichzelf googlede, merkte zij echter op dat bij de zoekresultaten nog allemaal verouderde hits bovenaan staan waarin zij nog als verdachte wordt aangemerkt.

    Google Italia had verklaard daar niets aan te kunnen doen, aldus de krant la Repubblica vrijdag op zijn website. Daarom heeft de overheidsinstantie Garante besloten het moederbedrijf aan te schrijven.

    De Garante vindt dat burgers foutieve informatie over zichzelf die hoge ogen scoort op zoekmachines, makkelijker moeten kunnen corrigeren. Gedetailleerde instructies hiervoor moeten duidelijk op www.google.it komen te staan.

    Op zich is het een goede zaak dat burgers kunnen optreden tegen foutieve informatie op internet, maar in hoeverre kun je daar Google op aanspreken?

    Betekent dit dat Google nog heiliger dan de paus (over Italië gesproken) moet zijn? En als Google besluit om webpagina’s uit zijn index te verwijderen omdat de daarop genoemde personen daarvan schade kunnen ondervinden, waar ligt dan de grens? Wordt Google straks massaal bestookt met ‘ont-indexeringsverzoeken’ van mensen die vinden dat ze schade lijden door informatie op bepaalde webpagina’s?

    Waarom niet het probleem bij de oorzaak aanpakken, namelijk die pagina’s zelf? Bijvoorbeeld een heldere wet die gebiedt dat verdachten alleen nog maar met hun initialen mogen worden aangeduid?

    Kortom: een ingewikkelde ethische discussie, die minder zwart-wit is dan het op het eerste gezicht lijkt.

    Kalender

    Ha, daar is Googles volgende stap richting totale controle over de informatiesamenleving, de aarde en de rest van het heelal: Google Calendar, een elektronische agenda. Even uitproberen en ja hoor, de dienst is al meteen overbelast:

    Calendar is unavailable right now, please try again in a few moments

    En dat is dan gelijk het beste argument om deze dienst niet te gebruiken: wie haalt het in zijn hoofd om zijn zakelijke afspraken in een agenda te zetten die niet altijd beschikbaar is?
    Als ik even later toch binnen zijn gekomen, moet ik toegeven dat de interface er voortreffelijk uitziet. Ook de features lijken goed doordacht. Je kunt een agenda delen met anderen en je zelfs via sms of een telefoontje laten attenderen op aankomende afspraken.
    Maar synchroniseren met je pda? Niet te vinden. Wel kun je een agenda uit MS Outlook of de Yahoo Calendar importeren, maar naar een exportmogelijkheid is het lang zoeken. Toch is die functie wel aanwezig, zo blijkt uit het Calendar Help Center.
    Al met al lijkt Google Calendar prima geschikt voor de voetbalclub die een agenda met zijn wedstrijden en andere activiteiten wil delen met zijn leden. Maar ondanks de fraaie interface is deze agenda voor een professional geen reële optie.
    Bovendien: wat als de Amerikaanse overheid weer eens bij Google aanklopt om gegevens van gebruikers op te vragen? Leuk om te weten wat een crimineel allemaal in zijn agenda heeft staan en met wie hij die gegevens deelt.

    Zembla over Google

    En Zembla ging er inderdaad flink tegenaan: veel bekende en onbekende deskundigen kwamen aan het woord. Het merendeel was behoorlijk kritisch en gaf een spooky beeld van de met afstand meestgebruikte zoekmachine.
    Vooral verontrustend was de Nederlandse directeur Marc Duijndam, die geen tijd bleek te hebben om alle nieuwe Google-diensten uit te proberen en bovendien niet wist hoe lang Google alle zoekgegevens van gebruikers bewaart. Waarom beloofde hij niet dat alsnog uit te zoeken? Of weet hij wel hoe het zit, maar heeft hij in de gaten dat Google misschien niet voldoet aan de Nederlandse wetgeving of Europese richtlijnen? Werk aan de winkel kortom voor het College Bescherming Persoonsgegevens.
    En ook maakt de uitzending terecht melding van dat Google zichzelf censureert in China. Eens te meer is duidelijk dat Google graag wat van zijn principes inlevert in ruil voor een marktaandeel in een groot land. Hier beloofde Duijndam overigens wél een officiële Google-verklaring te zullen leveren.
    Maar hoe zit het met de overige kritiek?

    • Dat scholieren en studenten een mythisch beeld hebben van de zoekcapaciteiten van Google, is inderdaad waar. Maar kun je dat Google wel aanrekenen? Zijn het niet de docenten die het hier totaal laten afweten? Zou er niet op elke basisschool verplichte lessen moeten komen over informatie zoeken op internet?
    • Zembla suggereert dat je het woonadres kunt achterhalen van een internetter aan de hand van zijn ip-adres. Onzin. Je kunt er alleen de eigenaar van een domein mee achterhalen, niet het adres van elke inbellende internetgebruiker. Bovendien heeft Google hier helemaal niets mee te maken.
    • Het nieuwe Google-zoeksysteem om medische gegevens in ziekenhuizen te doorzoeken is inderdaad dubieus. Maar het lijkt erop dat Google hier alleen maar de zoektechnologie levert, niet de data verzamelt. Het CBP moet zich dus niet op Google richten, maar op de artsen en instellingen die de medische gegevens leveren.

    Het optimaliseren van websites voor Google is een verhaal apart. Zembla wekt de indruk dat de de manier waarop Google zoekresultaten sorteert een ‘zuiver’ principe is en zoekmachinemarketeers dat principe dankzij trucjes bezoedelen. Ook dat is een te simpele voorstelling van zaken. Google sorteert in principe op de kwaliteit van de content (gemeten aan de hand van externe links en andere criteria), maar ook de technische kwaliteit speelt nadrukkelijk mee. Zo is bekend dat Javascript en Flash zich niet laten indexeren. Een webmarketingbureau dat dergelijke technische obstakels wegneemt, is volkomen legitiem bezig en bevordert juist de zuiverheid van de Google-sortering. Natuurlijk zijn er ook inferieure bureaus, maar heb je die niet in elke branche? Die mag je toch niet als voorbeeld gebruiken om de hele branche over één kam te scheren?
    Hoe geraffineerd de Zembla-journalisten te werk gaan, blijkt wel uit hun vraag aan Michon Cirkel over een nepsite die hij maakte: “Wist je dat je illegaal bezig was?” Het venijn zit in het suggestieve woordje ‘illegaal’ – alsof zoekmachinemarketeers niet alleen de algemene voorwaarden van Google, maar ook nog de wet overtreden. Sinds wanneer is er een wet die zoekmachineoptimalisatie reguleert?
    Al met al dus geen sterke uitzending van Zembla, maar het blijkt nog erger. Jos van Helvoort, docent aan de Haagse Hogeschool, geeft op zijn weblog een inkijkje in de Zembla-keuken:

    De documentairemakers zijn namelijk ook opnamen wezen maken bij een werkcollege dat ik gaf over het beoordelen van informatiebronnen. Aan de hand van een voorbeeld ga ik in zo’n werkcollege in gesprek met studenten over zaken als betrouwbaarheid, actualiteit, volledigheid en gebruiksgemak van (in dat geval) een platte html-tekst. Was een leuk college waar we wel wat last hadden van de rondlopende cameraploeg en interviewer maar waar mijn studenten enthousiast, gemotiveerd en kritisch aan deelnamen.

    Maar dat was niet waar het Zembla-team naar op zoek was. In een kort gesprek voor de lopende camera na afloop van het half uurtje opnamen werd mij één vraag gesteld en die luidde: of het ook niet mijn ervaring was dat studenten (door de interviewer steevast aangeduid met ‘scholieren’) alles wat met Google gevonden wordt voor zoete koek slikken. Daar sta je dan als docent die zojuist heeft laten zien dat jonge mensen ook heel volwassen kunnen omgaan met wat ze op het internet vinden.

    Het paste dus niet zo in hun straatje en van de Haagse Hogeschool was (behalve de lector HRM Sylvia van de Bunt) dan ook niet meer te zien dan het sfeerbeeld van de computerwerkplekken en de boekenkasten van onze hogeschoolbibliotheek.

    Als dit verhaal waar is, dan was Zembla duidelijk niet op zoek naar de waarheid, maar op zoek naar quotes en beelden om zijn eigen Google-aanval aan te kleden. Een kwalijke zaak voor een tv-programma dat zich profileert met onderzoeksjournalistiek.
    » bekijk de uitzending: Zembla

    Google doorzoekt medische gegevens

    Vanavond een veelbelovende Zembla-uitzending over Google, waarin het College Bescherming Persoonsgegevens een belangrijke rol zal spelen. De uitzending is nu al nieuws, zo blijkt uit een ANP-bericht:

    Het bedrijf maakt [...] zoveel nieuwe applicaties in korte tijd, dat het CBP de ontwikkelingen niet bij kan benen.

    Van een van de laatste nieuwe diensten van Google was het CBP dan ook niet op de hoogte. Google heeft sinds een maand een toepassing die de medische gegevens van personen kan zoeken. Dit systeem draaide proef in een onbekend ziekenhuis in Nederland en was alleen toegankelijk voor daartoe bevoegde doktoren. Kohnstamm: “Als er medische gegevens van Nederlandse artsen afkomstig zijn, dan is dat in strijd met de medische geheimhouding.”

    Systeemontwikkelaar Information Builders benadrukte donderdag dat het gaat om een afgeronde technische proef. Met nepinformatie keken bedrijf en ziekenhuis of het mogelijk was om bijvoorbeeld patiëntgegevens toegankelijk maken voor de bevoegde personen. Het ziekenhuis onderzoekt momenteel de mogelijkheden voor invoering binnen de bestaande privacywetten, aldus een woordvoerder van het bedrijf.

    Google moet 50.000 webadressen ophoesten

    Valt het mee of valt het tegen? Google moet van een Californische rechter aan de autoriteiten ‘maar’ 50.000 webadressen doorspelen van sites die door gebruikers bezocht worden.
    Het valt mee, want dat is veel minder dan de miljoenen webadressen en zoektermen die justitie oorspronkelijk had geëist. Bovendien hoeft Google helemaal geen zoektermen meer te leveren. Google beschouwt het vonnis dan ook als een overwinning voor de privacy van de gebruikers.
    Aan de andere kant valt het ook tegen, want eens te meer is duidelijk dat je als Google-gebruiker lang niet zo anoniem bent als je denkt. Maar misschien is dat ook wel goed, want anonimiteit brengt helaas bij te veel internetters het slechtste naar boven.
    Overigens had justitie dezelfde eisen gesteld aan andere zoekmachines, zoals MSN, AOL en Yahoo, en die hadden daaraan wel gevolg gegeven.

    Dezelfde rechtszaak, door twee brillen

    Nu.nl, vanochtend:

    De federale Amerikaanse overheid heeft in een rechtszaak tegen Google flink bakzeil moeten halen onder druk van de rechter. Dat hebben diverse media dinsdag gemeld. De regering wilde de zoekmachine dwingen tot het afgeven van informatie over het zoekgedrag van gebruikers. De data moeten dienen in een onderzoek naar het gevaar van pornografie op het internet voor kinderen.
    Advocaten van het ministerie van Justitie pasten dinsdag de reikwijdte van hun verzoek aan naar 50.000 internetadressen en ongeveer 5000 zoektermen. Ervoor wilden ze miljoenen of zelfs miljarden adressen. Justitie stelde zijn eis bij na aanhoudende vragen van de rechter naar de noodzaak van hun verlangen. De rechter liet weten de overheid op basis van het nieuwe verzoek “iets toe te staan”.

    Webwereld, enkele uren later:

    Google moet de Amerikaanse Justitie waarschijnlijk informatie verstrekken die de overheid kan gebruiken in een pornozaak. Dat heeft rechter James Ware dinsdag gezegd tijdens de behandeling van de zaak tussen Google en de Amerikaanse overheid. De rechter laat daarbij meewegen dat de overheid nu minder gegevens opvraagt.
    Aanvankelijk wilde de Amerikaanse Justitie onder meer een miljoen willekeurige webadressen (url’s) en de gegevens van een miljoen zoekopdrachten. Nu heeft de overheid gezegd genoegen te nemen met vijftigduizend adressen en vijfduizend zoekopdrachten.
    Nu Justitie haar zoekvraag heeft beperkt, lijkt Google wel akkoord te gaan. “Als ze dit meteen hadden gevraagd, zouden we een heel andere zaak hebben gehad”, verklaart Albert Gidari, advocaat van Google, tegenover The New York Times. “Het is twijfelachtig dat we dan ook bij de rechtbank waren geëindigd. We zijn nu waar we wilden zijn.”

    Nieuwe versie Google Desktop

    Er is een nieuwe versie van de Google Desktop verschenen. Nieuw is de mogelijkheid om persoonlijke bestanden vanaf een andere computer te doorzoeken.

    Hoe Google Desktop dat kunstje voor elkaar krijgt: de gebruiker moet zijn bestanden kopiëren naar de Google-server. Volgens Google worden ze versleuteld opgeslagen en na een maand weer verwijderd.
    Het klinkt allemaal erg mooi, maar wie is nu zo gek om zijn privé-spullen toe te vertrouwen aan een dienst die nog maar net een jaar geleden uit bèta-stadium kwam?

    Google en privacy

    Kritiek op de privacyrisico’s van het alwetende Google is er genoeg, maar hoe gaat Google zelf met die kritiek om? Forbes licht een tipje van de sluier.

    Tijdens de ontwikkeling wordt er al rekening mee gehouden (al is dat nauwelijks verifieerbaar):

    Google says it takes privacy seriously. “In general, as a company, we look at privacy from design all the way (through) launch,” said Nicole Wong, an associate general counsel at Google.

    Google luistert naar privacyorganisaties:

    She also said that Google regularly seeks feedback from civil liberties groups such as the Center for Democracy and Technology and the Electronic Frontier Foundation, both of which credit Google for listening even if it doesn’t always agree.

    En niet alle Google-medewerkers hebben toegang tot alle gegevens:

    Google’s privacy statements specify that only some of its employees have access to personal data – on a need-to-know basis – and such access is logged to deter abuse.

    Maar de bewaartermijn van gegevens is onbekend:

    Because storage is cheap, data from these services can be retained practically forever, and Google won’t specify how long it keeps such information.

    In an interview, Wong said Google had no set time limits on data retention; such determinations are left to individual product teams.

    En Google mag gegevens leveren aan partners:

    It also provides information to outside parties serving as Google’s agents – though they must first agree to uphold Google’s privacy policies.

    Klopt de overheid wel eens aan? Ook dat is niet bekend:

    Google says it releases data when required by law, but its privacy statements offer few details. Wong said Google doesn’t surrender data without a subpoena, court order or warrant. But she would not offer any details on how many requests it gets, or how often, and federal law bars Google from disclosing requests related to national security.

    Gaat het wel eens fout? Zelfs zoekmachinedeskundigen kunnen zich geen incident herinneren:

    “Everybody gets worried about what they (Google) could do but what they have done to date has not seemed to violate any privacy that anyone has documented,” said Danny Sullivan, editor of the online newsletter Search Engine Watch.

    De conclusie van het artikel lijkt te zijn: we weten erg weinig hoe Google precies omgaat met privacy, maar zolang het niet aantoonbaar fout gaat, moeten we maar niet al te moeilijk doen. Uiteindelijk is vertrouwen het sleutelwoord, zo blijkt uit een artikel van News.com over hetzelfde onderwerp:

    Trust is the key. As software industry analyst Stephen O’Grady wrote in his Tecosystems blog late last year: “Google is nearing a crossroads in determining its future path. They can take the Microsoft fork–and face the same scrutiny Microsoft does, or they can learn what the folks from Redmond have: Trust is hard to earn, easy to lose and nearly impossible to win back.”

    Privacy-zorgen om Google-logfiles

    Uit een artikel van CNN blijkt dat Google inderdaad doet waar privacy-organisaties al langer bang voor waren: logfiles bewaren. En wat voor logfiles: 19 miljoen internetgebruiker raadplegen dagelijks Google. Dat levert ongetwijfeld een zondvloed aan statistische informatie op.

    Maar wat als al die informatie in handen van Amerikaanse opsporingsdiensten vallen? Voor die diensten zijn de Google-logfiles veel gemakkelijker te analyseren dan telefoongesprekken en e-mailverkeer.

    “What if someone comes up to them and says, ‘We want to know whenever this key word comes up’? All the capability is there and it becomes a one-stop shopping center for all these kinds of things,” said Lauren Weinstein, an engineer who co-founded People for Internet Responsibility, a forum for online issues.

    De reactie van Google lijkt met knippen en plakken overgenomen uit een lesboek voor pr-functionarissen:

    Google officials say their extensive log files help them improve service, fight fraud and develop new products, and unlike many other online companies, it seems willing to pay for the enormous storage capacity needed to save the data.

    “If it’s useful, we’ll hold on to it,” said Nicole Wong, a Google associate general counsel.

    Google complies with law-enforcement investigations, Wong said. She declined to comment on the frequency or scope of those requests.

    Overigens is niet iedereen onder de indruk van dit probleem. Danny Sullivan van Search Engine Watch:

    “You wouldn’t want them to throw away all the queries that have been done — that’s like throwing away history.”

    Bezoekersstatistieken een deel van onze geschiedenis? Kom nou toch.

    © Copyright Wessel Zweers - Designed by Pexeto - Photography: Alexandre Duret-Lutz