Una volta durante una discussione il mio amico Leonardo Chiariglione disse "i metadati sono anche più importanti dei dati!"
Il mio ex socio Marco Negri usava dire che un sistema è caratterizzato dalla sua interfaccia utente: se una funzione non c'è nella interfaccia utente, non esiste. (dal punto di vista dell'utente)
Per tornare a Leonardo, i metadati associati ad un contenuto media sono la descrizione del contenuto, la sua immagine, i tag relativi, il prezzo, le compatibilità con dispositivi e formati, ecc.
Ovvero tutte quelle cose che consentono all'utente di selezionare il contenuto nella sua interfaccia utente di accesso; se non ci sono i metadati, il contenuto non lo vendi.
I metadati sono dati sui dati, ovvero sono dati anch'essi. Checchè ne dicano alcuni legulei.
Questa distinzione tra metadati e dati che fanno le intelligence di certi paesi in questo periodo mi sembra capziosa, un sofisma.
Dati apparentemente "non personali" possono essere rivelatori, se analizzati bene.
Da leggere questo articolo per certi versi divertente: How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did - Forbes.
[Pole]
ran test after test, analyzing the data, and before long some useful
patterns emerged. Lotions, for example. Lots of people buy lotion, but
one of Pole’s colleagues noticed that women on the baby registry were
buying larger quantities of unscented lotion around the beginning of
their second trimester. Another analyst noted that sometime in the first
20 weeks, pregnant women loaded up on supplements like calcium,
magnesium and zinc. Many shoppers purchase soap and cotton balls, but
when someone suddenly starts buying lots of scent-free soap and
extra-big bags of cotton balls, in addition to hand sanitizers and
washcloths, it signals they could be getting close to their delivery
date.
Sulla base di questi dati l'azienda ha scoperto che una ragazza era incinta, prima che lo sapesse il padre (arrabbiato perche' le avevano mandato coupon per sconti su prodotti per future mamme)
Con chi ti relazioni può dare indicazioni sulle tue abitudini sessuali, anche se non le citi esplicitamente
Questo studio che proviene dal MIT mi pare emblematico Gay men 'can be identified by their Facebook friends' - Telegraph.
As
part of the study the researchers Carter Jernigan and Behram Mistree
scanned the Facebook friends of more than 1,500 fellow students who
indicated their sexual orientation – straight, gay or bisexual – on
their profiles.
This analysis revealed that homosexual men had proportionally more gay
friends than straight men, allowing the students to devise a computer
programme to predict the sexual orientation of other Facebook users
based solely on the sexualities of their friends.
They ran this programme on 10 men who were known to be homosexual but
did not reveal this information on their profiles. In each case, the
software correctly identified the men to be gay.
Anche i dati anonimi, a volte non lo sono del tutto, grazie alle correlazioni che si possono fare con i metadati: Why 'Anonymous' Data Sometimes Isn't.
Arvind
Narayanan and Vitaly Shmatikov, researchers at the University of Texas
at Austin, de-anonymized some of the Netflix data by comparing rankings
and timestamps with public information in the Internet Movie Database,
or IMDb.
Their research (.pdf) illustrates some inherent security problems with
anonymous data, but first it's important to explain what they did and
did not do.
They did not reverse the anonymity of the entire Netflix dataset. What
they did was reverse the anonymity of the Netflix dataset for those
sampled users who also entered some movie rankings, under their own
names, in the IMDb. (While IMDb's records are public, crawling the site
to get them is against the IMDb's terms of service, so the researchers
used a representative few to prove their algorithm.)
...
Google, with its database of users' internet searches, could easily
de-anonymize a public database of internet purchases, or zero in on
searches of medical terms to de-anonymize a public health database.
Merchants who maintain detailed customer and purchase information could
use their data to partially de-anonymize any large search engine's data,
if it were released in an anonymized form. A data broker holding
databases of several companies might be able to de-anonymize most of the
records in those databases.
What the University of Texas researchers demonstrate is that this
process isn't hard, and doesn't require a lot of data. It turns out that
if you eliminate the top 100 movies everyone watches, our
movie-watching habits are all pretty individual. This would certainly
hold true for our book reading habits, our internet shopping habits, our
telephone habits and our web searching habits.
The obvious countermeasures for this are, sadly, inadequate. Netflix
could have randomized its dataset by removing a subset of the data,
changing the timestamps or adding deliberate errors into the unique ID
numbers it used to replace the names. It turns out, though, that this
only makes the problem slightly harder. Narayanan's and Shmatikov's
de-anonymization algorithm is surprisingly robust, and works with
partial data, data that has been perturbed, even data with errors in it.
Ciò che caratterizza i metadati rispetto ai dati è l'uso che se ne fa, non è una proprietà connaturata nel dato.
Prendiamo ad esempio i CDR (Call Detail Records) delle telefonate: ci dicono chi parla con chi e quando. Se ci attacchiamo l'informazione sulla cella usata, anche dove. Non ci dice il contenuto della comunicazione.
Se siamo interessati al contenuto di ogni specifica comunicazione, questi sono metadati
Ma se siamo interessati a ricostruire la rete sociale, le abitudini di comunicazione e la localizzazione di un gruppo target, questi sono dati!
Chiamarli metadati è un modo per diminuirne nella precezione del pubblico la loro rilevanza: "non sono dati, sono meta-dati"
Il paradosso, se vogliamo, è che ciò che Snowden ha rivelato non sono dati. Non c'e' una informazione su un contenuto di una comunicazione, non c'e' un dato (o metadato) che l'intelligence ha raccolto.
Ha solo rivelato che le agenzie americana e britannica collaborano per raccogliere dati.
Se i metadati fossero innocui, perchè tutto questo casino ?
Perchè in realtà i metadati sono dati e possono rivelare ben più di quanto a prima vista si intuisca.