做網(wǎng)站的朋友可能都聽說過Robots.txt文件,這個Robots.txt是網(wǎng)站與搜索引擎溝通的一個重要的渠道,通過這個文件,可以告訴搜索引擎自己做的網(wǎng)站那些頁面可以允許他們收錄,那些不允許他們收錄。那么自己就可以在建網(wǎng)站的時候,通過這個文件和搜索引擎達(dá)成協(xié)議。
Robots.txt文件必須要放在網(wǎng)站根目錄的下面,搜索引擎也會自動地根據(jù)網(wǎng)站域名,自動的找到這個文件來判斷自己是否可以收錄這個頁面。如果自己的網(wǎng)站允許搜索引擎可以收錄自己網(wǎng)站的所有的內(nèi)容,那么就可以不放這個文件。
要放相關(guān)的文件的話,就要做Robots.txt,那么就要符合相關(guān)的格式,格式內(nèi)容是用一個記事本命名為Robots.txt。里面寫上下面的內(nèi)容。大家可以在建網(wǎng)站的時候做好之后傳到網(wǎng)站根目錄下。
格式如下:
User-agent:*
這個指的就是針對所有的搜索引擎蜘蛛代理
Disallow:/search.html
Disallow是不允許的意思,這一行說明的是不允許收錄/search.html這個文件;
Disallow:/index.php?
這一行說的是不允許搜索引擎收錄URL里面包含index.php?的文件;
Disallow:/tempweb/
這一行說的是不允許搜索引擎收錄這個文件夾/tempweb/里面所有的內(nèi)容。
很多建網(wǎng)站的朋友做了這個文件之后不是很自信,這個時候,不妨可以找一些大型的網(wǎng)站,去看看他們的是怎么做的,對比一下自己的是不是有錯誤,自己就會確信其效果了。
另外需要注意一些符號是否有錯誤,比如大小寫空格啊什么的,盡量不要用一些復(fù)雜的參數(shù);盡量的采用這種比較簡潔的方式來屏蔽自己一些不想讓搜索引擎收錄的內(nèi)容。
大家可能聽說過一些網(wǎng)站被人惡意的修改Robots.txt文件,本來排名很好的被修改后,搜索引擎就不收錄了,所以大家在做網(wǎng)站維護(hù)的時候,有時候要不斷地檢查下自己的這個Robots.txt文件。