https://www.google.com/robots.txt
wget http://www.google.com/robots.txt
head -n5 robots.txt
curl -O http://www.google.com/robots.txt
head -n5 robots.txt
git clone https://github.com/cmlh/rockspider.git
head -n5 robots.txt
文中有說到robots.txt會有disallow的頁面,如何去查看和HTML中有meta會寫,但是因為同樣的檔案在現在已經找不到了,我從https://www.facebook.com/robots.txt 找了一頁,想要看看
但是找不到有寫<META NAME=”ROBOTS”
詳細的說明我參考這篇有提到
因為標題是說從robots的資料找出有可能洩露資料的地方,所以不給爬蟲的資料,應該屬於下列三種
1.未完成的頁面
2.測試頁面
3.網站後台、其他理由(機密)
留言