Nuovi comandi robots.txt: assicuriamoci che Google possa indicizzare il nostro sito
Sembra che Google stia sperimentando alcuni nuovi comandi robots.txt. Se il nostro file robots.txt contiene accidentalmente uno di questi nuovi comandi, potrebbe darsi che il nostro file robots.txt dica a Google di andare via.
Cos'è un file robots.txt?
Il file robots.txt è un semplice file di testo che deve essere posizionato nella directory principale (http://www.esempio.com/robots.txt). Tale file indica allo spider del motore di ricerca quali pagine del nostro sito devono essere indicizzate e quali devono invece essere ignorate.
Possiamo usare un semplice editor di testo per creare il file robots.txt. Tale file è costituito dai cosiddetti "records".
Un record contiene le informazioni per un particolare motore di ricerca. Ogni record è formato da due campi: la riga agent line e una o più righe Disallow. Ecco un esempio:
User-agent: googlebot
Disallow: /cgi-bin/Questo file robots.txt permette al "googlebot", chè è lo spider del motore di ricerca Google, di trovare tutte le pagine del nostro sito ad esclusione dei file contenuti nella directory "cgi-bin". Tutti i file della directory "cgi-bin" saranno ignorati da googlebot.
Quali nuovi comandi sta testando Google?
Alcuni webmaster hanno scohave scoperto che Google sembra che stia sperimentando un comando Noindex per il file robots.txt. Pare che si tratti in sostanza dello stesso comando Disallow, dpertanto non è chiara la ragione per cui Google stia usando questo comando.
Altri comandi che potrebbero essere testati da Google sono Noarchive e Nofollow. Comunque, nessuno di questi comandi è ancora ufficiale.
Come tutto ciò influenza il nostro posizionamento su Google?
Se incidentalmente usiamo i comandi sbagliati, potremmo dire a Google di andare via benchè noi vorremmo che indicizzasse le nostre pagine.
Per tale ragione è indispensabile che controlliamo il contenuto del nostro file robots.txt.
Come controllare il nostro file robots.txt
Apriamo il nostro browser e digitiamo www.nostrodominio.com/robots.txt per vedere il contenuto del nostro file. Elenchiamo di seguito i suggerimenti più importanti per un corretto file robots.txt:

- Ci sono solo due comandi ufficiali per il file robots.txt: User-agent e Disallow. Non usiamo altri comandi oltre questi.
- Non cambiamo l'ordine dei comandi. Partiamo con la riga user-agent e quindi aggiungiamo il comando disallow:
User-agent: *
Disallow: /cgi-bin/
- Non più di una directory nella riga Disallow. Per esempio, Il comando "Disallow: /support /cgi-bin/ /images/" non funzionerebbe. Dobbiamo usare una riga aggiuntiva Disallow line per ciascuna directory:
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/
- Assicuriamo di scrivere correttamente i nomi per quanto riguarda i caratteri minuscoli e maiuscoli. Il server fa una distinzione, perciò se il nome della nostra directory è "Supporto", non scriviamo "supporto" nel file robots.txt.
Cosa accade se non abbiamo un file robots.txt?
Se il nostro sito non ha un file robots.txt (possiamo controllare digitando www.nostrodominio.com/robotx.txt nel nostro browser) allora i motori di ricerca indicizzeranno automaticamente tutto ciò che troveranno sul nostro sito.
Controllare il file robots.txt è importante se desideriamo che i motori di ricerca indicizzino le pagine del nostro sito. Comunque l'indicizzazione da sola non è sufficiente. Dobbiamo anche assicurarci che i motori di ricerca trovino ciò che stanno cercando quando indicizzano le nostre pagine.
Possiamo accertarci che Google indicizzi le nostre pagine per le giuste parole chiave ottimizzando in nostro sito web. Se lo spider del motore di ricerca indicizza pagine non otimizzate sarà molto probabile che non otterremo buoni posizionamenti.
Filed under Ottimizzazione - Strategie by