sabato 20 febbraio 2010

Vade retro Google.



Nel post precedente abbiamo segnalato la poco elegante abitudine del ministro Brunetta di rendere invisibili alcune parti dei siti ministeriali grazie all'uso dei file robots.txt

Ebbene sì, questa pratica pare sia diffusa anche nelle redazioni online dei quotidiani e in particolare in quella di Repubblica.it

Già, ma cosa diavolo sono i file robots.txt? Lo scopriamo con l'aiuto del sito di Gery Palazzotto:

I file robots.txt sono muri tirati su dagli amministratori di un sito internet per evitare che i motori di ricerca entrino in alcune stanze del sito stesso. In pratica servono per dire a Google, Yahoo e compagnia bella di non indicizzare (leggi: di non rendere pubbliche) certe pagine.
E per essere più chiaro ecco subito qualche esempio:

1) Il Corriere.it ha blindato questa stanzetta:

Disallow:/politica/10_febbraio_05/sabrina_ferilli_non_ sono_la_sora_palin_5d9b4bb8-1224-11df-b50d-00144f02aabe.shtml

Ciò significa che ha sottratto agli spider dei motori di ricerca un articolo (che nel caso specifico è stato anche cancellato) riguardante alcune controverse dichiarazioni di Sabrina Ferilli sulla mancanza di gnocca nel Pd.

2) Nel sito di Repubblica.it la situazione si fa più complessa. Qui i robots.txt blindano la notizia dell’arresto nel 2006 del capogruppo dei Ds nel consiglio regionale della Calabria.

Disallow: /2006/08/sezioni/cronaca/ds-arrestato/ds-arrestato/ds-arrestato.html

Alzano il muro su un’antica (e per noi siciliani nota) vicenda di cocaina al ministero delle Finanze.

Disallow: /online/cronaca/cocafinanze/interce/interce.html
Disallow: /online/cronaca/cocafinanze/mai/mai.html
Disallow: /online/cronaca/cocafinanze/inte/inte.html
Disallow: /online/cronaca/cocafinanze/interce/interce.html


E cercano di rinchiudere nel dimenticatoio la campagna di stampa sul caso Telekom Serbia.

Disallow: /2003/i/sezioni/politica/telekomserbia3/caso/caso.html
Disallow: /2003/i/sezioni/politica/telekomserbia3/taormina/taormina.html
Disallow: /2003/i/sezioni/politica/telekomserbia3/taormi/taormi.html
Disallow: /2003/i/sezioni/politica/telekomserbia2/dini/dini.html
Disallow: /2003/h/sezioni/politica/telekomserbia/nomi/nomi.html

2 commenti:

aghost ha detto...

davvero interessantissima questa disamina dei file robot.txt, capiamo un po' meglio come funziona l'informazione ufficiale...

Nemo ha detto...

Ciò rende i disillusi come il sotoscritto più dis e meno illusi.