Cos'è il file robots.txt
Il cosiddetto robots.txt è un semplice file di testo, che dovrebbe essere presente nella root di ogni sito web, attraverso il quale è possibile impartire alcune direttive agli spider (detti anche robot o bot) riguardo le preferenze del webmaster in merito alla scansione dei contenuti del sito.
Con il file robots.txt è possibile, ad esempio, impedire l'indicizzazione dell'intero sito da parte dei motori di ricerca, oppure escludere singole cartelle (come aree riservate), specifici file o, ancora, limitare l’accesso a determinati spider.
In sostanza, quando uno spider accede al nostro sito web, la prima cosa che fa è cercare il file robots.txt, analizzarne il contenuto e adeguarsi alle eventuali direttive presenti.
Il file robots.txt può essere creato manualmente, utilizzando un comune editor di testo (come il Blocco Note di Windows), a patto di conoscerne la sintassi. In alternativa, è possibile utilizzare un generatore di file robots.txt come quello disponibile in questa pagina.
Per un approfondimento completo sul funzionamento del file robots.txt, vi consigliamo di leggere questo articolo su Mr.Webmaster.
Esempi pratici di robots.txt
Di seguito alcuni esempi pratici di istruzioni valide per alcuni casi di utilizzo comuni.
1. Consentire l’accesso a tutti gli spider
User-agent: * Disallow:
2. Bloccare completamente l’indicizzazione del sito
User-agent: * Disallow: /
3. Bloccare una cartella specifica (es. /admin/)
User-agent: * Disallow: /admin/
4. Bloccare un singolo file (es. /private.html)
User-agent: * Disallow: /private.html
5. Bloccare solo un determinato spider (es. Googlebot)
User-agent: Googlebot Disallow: /
6. Aggiungere la sitemap XML
User-agent: * Disallow: Sitemap: https://www.miosito.it/sitemap.xml
Generare il contenuto del file robots.txt
Lo strumento presente in questa pagina consente di generare automaticamente il contenuto del file robots.txt per il vostro sito web.
Ecco come procedere:
- Per prima cosa, selezionare la regola di default: si tratta di decidere se consentire o bloccare l’accesso degli spider al sito (attenzione: bloccando gli spider, le pagine non verranno indicizzate nei motori di ricerca!).
- Dopo aver impostato la regola di default, è possibile definire alcune eccezioni:
- cliccare sul pulsante +;
- scegliere il comando (Ammetti / Escludi);
- selezionare lo spider (tutti gli spider o uno specifico);
- indicare il percorso relativo della cartella o del file a cui applicare la regola (es.
/cgi-bin/
). Per riferirsi all'intero sito, è sufficiente inserire una semplice slash (/
);
- Infine, è possibile specificare all'interno del file anche la URL della sitemap XML del sito.
- Al termine, cliccare sul pulsante per generare il codice e copiare il contenuto prodotto nel proprio file robots.txt, utilizzando un editor di testo.