Indeksowanie - plik robots.txt
Plik „robots.txt” jest jednym z mechanizmów wykluczania dostępu do pewnych sekcji strony www dla robotów sieciowych. Każda wyszukiwarka ma system robotów (botów), które przeszukują Internet i indeksują treści w nich zawarte, żeby je potem wyświetlić w wynikach wyszukiwania. Pozwala to na otrzymanie interesujących nas danych.
Jednak nie wszystkie miejsca takie roboty powinny odwiedzać, np. katalogi z prywatnymi danymi lub wywołanie operacji w cms (edycja strony, edycja artykułu, operacja logowania). Doświadczony webmaster zablokuje właściwą komendą dostęp do takich katalogów, a pozwoli czytać robotom treść serwisu.
Komenda pozwalająca na indeksację całości serwisu wygląda tak:
User-agent: *
Allow:
Komenda zabraniająca dostępu do wybranych katalogów wygląda tak:
User-agent: *
Disallow: /images/
Disallow: /private/
W naszym cms'ie domyślnie zablokowane są niektóre katalogi (images, uploads, i op=), a treść indeksowana jest bez przeszkód.
Należy jednak pamiętać o kilku ważnych sprawach:
- zawartość pliku jest publicznie dostępna, a sam plik „robots.txt” nie jest metodą zabezpieczającą przez dostaniem się do zasobów strony
- roboty, które skanują serwisy www w poszukiwaniu dziur w oprogramowaniu stron mogą ignorować zapisy z pliku robots.txt.
- sam plik informuje o odpowiednim, pożądanym zachowaniu robotów, ale nie wymusza go
- nie można narzucić przestrzegania zasad zawartych w pliku „robots.txt”, w związku z czym spamerzy lub inni oszuści mogą go zignorować.