WSTG-INFO-03

https://www.google.com/robots.txt

wget http://www.google.com/robots.txt

head -n5 robots.txt

curl -O http://www.google.com/robots.txt

head -n5 robots.txt

git clone https://github.com/cmlh/rockspider.git

head -n5 robots.txt

文中有說到robots.txt會有disallow的頁面,如何去查看和HTML中有meta會寫,但是因為同樣的檔案在現在已經找不到了,我從https://www.facebook.com/robots.txt 找了一頁,想要看看

但是找不到有寫<META NAME=”ROBOTS”

詳細的說明我參考這篇有提到

因為標題是說從robots的資料找出有可能洩露資料的地方,所以不給爬蟲的資料,應該屬於下列三種

1.未完成的頁面

2.測試頁面

3.網站後台、其他理由(機密)

最後修改日期: 09/11/2020

作者

留言

撰寫回覆或留言

發佈留言必須填寫的電子郵件地址不會公開。