Anche
nel campo dell'informatica, i dati di vendita (leggi: il numero di
copie vendute) sono considerati un indicatore tutto sommato oggettivo
del grado di successo di un prodotto hardware o software: anche perché
sono confrontabili, in modo altrettanto oggettivo, con i numeri ottenuti
dai concorrenti diretti. Determinare invece, soprattutto in termini
rigorosamente numerici, il successo o il fallimento di un "prodotto"
Web, sia esso un sito informativo, un portale o un'iniziativa di e-commerce,
è un'impresa quantomai ardua.
Le ragioni di queste difficoltà sono almeno due: i parametri che entrano
in gioco sono molti, ed è soprattutto difficile sia misurali che confrontarli
obiettivamente con i dati della concorrenza.
O meglio, è abbastanza facile rilevare alcuni valori, i quali però
hanno una validità assoluta perlomeno discutibile, nel senso che possono
essere interpretati facilmente in maniera a volte anche diametralmente
opposta: è dunque spesso difficoltoso proporre un sensato confronto
con prodotti analoghi.
Dall'HTTP arrivano le informazioni
Per entrare nel dettaglio, ogni Web server è in grado di tenere
un log abbastanza preciso degli accessi alle singole pagine: grazie
alle caratteristiche intrinseche del protocollo HTTP, è possibile
memorizzare l'indirizzo IP del client dal quale proviene la richiesta.
E, fortunatamente, esiste uno standard di fatto per il formato di
registrazione di queste informazioni: quello, diciamo così, storico
dei primi server Web di pubblico dominio, Ncsa e Cern, dai quali
deriva fra l'altro il più diffuso Web server attualmente più diffuso,
Apache. Tutti i successivi prodotti della categoria, anche quelli
commerciali, hanno continuato e continuano a offrire un logging
compatibile con tale formato, anche se molti possono ormai generare
log personalizzati, contenenti anche informazioni aggiuntive rispetto
allo standard. Tutto ciò, unito al fatto che la tecnologia Web si
è in gran parte sviluppata in ambito dell'open source, ha permesso
il proliferare di strumenti di analisi dei file di log, in molti
casi anche public domain: basta fare una ricerca su un qualsiasi
search engine Internet con parole chiave Web log analyzer per trovare
un'infinità di prodotti gratuiti, in grado di esaminare e riassumere
le statistiche degli accessi utenti alle pagine di un sito.
Capire esattamente cosa si analizza
Tutto facile, dunque? Assolutamente no, e per svariati motivi.
Innanzitutto la validità intrinseca del concetto di "numero di accessi"
a una pagina è opinabile: il Web server è infatti in grado di registrare
che un certo client ha richiesto un file HTML o un'immagine o quant'altro,
ma è ormai noto ai più che buona parte delle pagine che vengono
visualizzate da un utente non proviene direttamente dal server.
Per velocizzare le operazioni e per ottimizzare la banda, dopo il
primo accesso il browser infatti le preleva, se disponibili e se
non aggiornate, dalla propria cache: quindi un utente può teoricamente
consultare per diversi giorni la stessa pagina senza che il Web
server sia a conoscenza del fatto. E fino a qui poco male, in fondo
l'accesso del singolo utente, quindi il suo potenziale interesse,
è stato comunque memorizzato almeno una volta: ma ormai una larghissima
fetta di utenti accede ai siti via proxy, quindi prelevando, sempre
se disponibile, la pagina dalla cache del proxy server senza contattare
direttamente il Web server. Una certa pagina può quindi essere consultata,
potenzialmente, da un numero considerevole, spesso migliaia se non
addirittura milioni, di utenti anche se su log del Web server è
registrato un solo accesso (per la verità buona parte dei proxy
offrono l'opzione, molto politically correct, di riferire al Web
server di destinazione gli accessi utenti alle pagine nella cache,
ma ciò comporta comunque una certa occupazione di banda, e sinceramente
dubitiamo che siano molti gli amministratori di sistema ad abilitare
questa opzione).
La presenza di proxy e di firewall crea un altro inconveniente,
quello cioè di nascondere il client reale: i log del Web, quindi,
riportano nella maggior parte dei casi, alla voce indirizzo del
client, non il vero IP Address dell'utente ma quello della sua porta
di ingresso a Internet. Un dato significativo a livello di aggregazione,
perché indica il dominio di provenienza della richiesta, ma sicuramente
non molto valido analiticamente.
Insomma, come dicevamo, i numeri relativi agli accessi a un sito
Web sono dunque approssimativi, o almeno più discutibili rispetto
a dati quali le vendite fisiche di un prodotto, e soprattutto sono
difficilmente comparabili con quelli dei concorrenti, perché alle
stesse cifre possono essere associate interpretazioni diverse. Solo
per fare un esempio, se un file di log una pagina risulta consultata
dal proxy server di una grande azienda multinazionale, è probabilmente
capzioso ma non errato tecnicamente sostenere che il numero di accessi
reali a quella pagina può corrispondere al numero totale di client
presenti in quell'azienda.
|