Generatore di file Robots.txt

Attraverso questo strumento puoi generare on-line il file robots.txt per il tuo sito web per istruire gli spider su come interaqgire con le tue pagine web.

Regole aggiuntive (eccezioni alla regola di default)
Sitemap XML
Pubblicità

Cos'è il file robots.txt

Il cosiddetto robots.txt è un semplice file di testo, che dovrebbe essere presente nella root di ogni sito web, attraverso il quale è possibile impartire alcune direttive agli spider (detti anche robot o bot) riguardo le preferenze del webmaster in merito alla scansione dei contenuti del sito.

Con il file robots.txt è possibile, ad esempio, impedire l'indicizzazione dell'intero sito da parte dei motori di ricerca, oppure escludere singole cartelle (come aree riservate), specifici file o, ancora, limitare l’accesso a determinati spider.

In sostanza, quando uno spider accede al nostro sito web, la prima cosa che fa è cercare il file robots.txt, analizzarne il contenuto e adeguarsi alle eventuali direttive presenti.

Il file robots.txt può essere creato manualmente, utilizzando un comune editor di testo (come il Blocco Note di Windows), a patto di conoscerne la sintassi. In alternativa, è possibile utilizzare un generatore di file robots.txt come quello disponibile in questa pagina.

Per un approfondimento completo sul funzionamento del file robots.txt, vi consigliamo di leggere questo articolo su Mr.Webmaster.

Esempi pratici di robots.txt

Di seguito alcuni esempi pratici di istruzioni valide per alcuni casi di utilizzo comuni.

1. Consentire l’accesso a tutti gli spider

User-agent: *
Disallow:

2. Bloccare completamente l’indicizzazione del sito

User-agent: *
Disallow: /

3. Bloccare una cartella specifica (es. /admin/)

User-agent: *
Disallow: /admin/

4. Bloccare un singolo file (es. /private.html)

User-agent: *
Disallow: /private.html

5. Bloccare solo un determinato spider (es. Googlebot)

User-agent: Googlebot
Disallow: /

6. Aggiungere la sitemap XML

User-agent: *
Disallow:

Sitemap: https://www.miosito.it/sitemap.xml

Generare il contenuto del file robots.txt

Lo strumento presente in questa pagina consente di generare automaticamente il contenuto del file robots.txt per il vostro sito web.

Ecco come procedere:

  1. Per prima cosa, selezionare la regola di default: si tratta di decidere se consentire o bloccare l’accesso degli spider al sito (attenzione: bloccando gli spider, le pagine non verranno indicizzate nei motori di ricerca!).
  2. Dopo aver impostato la regola di default, è possibile definire alcune eccezioni:
    • cliccare sul pulsante +;
    • scegliere il comando (Ammetti / Escludi);
    • selezionare lo spider (tutti gli spider o uno specifico);
    • indicare il percorso relativo della cartella o del file a cui applicare la regola (es. /cgi-bin/). Per riferirsi all'intero sito, è sufficiente inserire una semplice slash (/);
  3. Infine, è possibile specificare all'interno del file anche la URL della sitemap XML del sito.
  4. Al termine, cliccare sul pulsante per generare il codice e copiare il contenuto prodotto nel proprio file robots.txt, utilizzando un editor di testo.