旗下網站

互聯網新聞

報道公司事件 · 傳播行業動态

搜索引擎訪問網站返回碼最全解答

發布日期:2018-06-26    發布者:消息

  當搜索引擎蜘蛛抓取網站的(Of)時(Hour)候,每一(One)次都會有一(One)個(Indivual)返回碼,表示本條内容抓取的(Of)狀态,我(I)們可以(By)通過網站日志中查看這(This)些返回碼信息,來(Come)提升青島網站建設的(Of)優化效果。

  你把IIS日志從空間下到(Arrive)自己電腦,然後用(Use)文本工具打開;

  2010-05-14 15:52:03 W3SVC1 121。187。5。143 GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

  分析下 200 0 0組成部分 sc-status(協議狀态) sc-substatus(協議子狀态) sc-win32-status(Win32狀态碼)

  sc-status(協議狀态): 200 連接成功

  sc-substatus(協議子狀态) :0 成功

  sc-win32-status(Win32狀态碼):0 代表抓取成功并帶回數據庫 ; 64 指定的(Of)網絡名不(No)再可用(Use)

  1: 在(Exist)這(This)個(Indivual)訪問記錄裏面121.187.5.143是你服務器的(Of)IP地址,220.181.7.74 是bd蜘蛛的(Of)IP,/category-8-b0-min1100-max2200.html 爲(For)蜘蛛訪問你的(Of)頁面 80是端口 GET是打開方式 W3SVC1是記錄的(Of)文件夾,這(This)裏說明,bd蜘蛛已經訪問了你的(Of)category-8-b0-min1100-max2200.html 這(This)個(Indivual)頁面,那麽最重要(Want)的(Of)是最後面的(Of)這(This)個(Indivual)參數200 0 0。

  2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這(This)個(Indivual)時(Hour)候你就放心了,這(This)個(Indivual)頁面已經被bd收錄,但是還沒有釋放出(Out)來(Come),bd更新時(Hour)就可能釋放出(Out)來(Come)。

  3:200 0 64 網絡上流傳着這(This)麽三種解釋

  第164爲(For)K站的(Of)前兆。

  第264的(Of)出(Out)現隻是64位操作(Do)系統。

  第三:網絡不(No)可達,由于(At)某種原因無法完全打開頁面,或者網絡不(No)穩定這(This)些原因,導緻蜘蛛無法帶回頁面或者說不(No)抓取該頁面,

  所以(By)200 0 64的(Of)解釋也應該爲(For):訪問了該頁面,但并沒有任何抓取也沒有帶回數據庫。這(This)種原因多爲(For)空間不(No)穩定、服務器不(No)穩定。

  或者說是蜘蛛訪問了但快照不(No)更新

  4:304 0 0這(This)個(Indivual)返回碼代表蜘蛛訪問的(Of)頁面沒有更新,和(And)他(He)之前來(Come)的(Of)時(Hour)候是一(One)樣的(Of),所以(By)看到(Arrive)這(This)個(Indivual)不(No)要(Want)擔心,蜘蛛來(Come)過,隻不(No)過你沒有更新,所以(By)他(He)也不(No)願意帶走這(This)個(Indivual)頁面。

  5:404 0 0這(This)個(Indivual)是代表404頁面,但是有個(Indivual)很嚴重的(Of)問題,這(This)個(Indivual)返回碼告訴我(I)們,蜘蛛來(Come)到(Arrive)了404頁面并把他(He)帶走了

  ,要(Want)是這(This)樣的(Of)話基本上你要(Want)倒黴了,要(Want)你有太多的(Of)404,那麽蜘蛛就會不(No)斷是抓取,不(No)斷的(Of)帶走,這(This)樣會造成無數的(Of)重複頁面,最終導緻K站或者降權,

  正确的(Of)返回碼是404 0 64 這(This)就代表蜘蛛沒有抓取你這(This)個(Indivual)頁面。 (好像是内容有死鏈的(Of)意思)

  6:500錯誤500錯誤是服務器内部錯誤,是由程序的(Of)錯誤造成的(Of),我(I)不(No)懂程序,但是500錯誤是會給你減分的(Of),這(This)點基本的(Of)邏輯都可以(By)想的(Of)到(Arrive),要(Want)發現500錯誤,馬上查看是哪個(Indivual)頁面的(Of),然後去修正以(By)下錯誤吧!

  7:302要(Want)在(Exist)日志中發現302的(Of)返回碼也是需要(Want)注意的(Of),302爲(For)臨時(Hour)重定向,要(Want)你是長期的(Of)将這(This)個(Indivual)頁面重定向到(Arrive)另一(One)個(Indivual)頁面,麻煩你使用(Use)301永久重定向,要(Want)是302的(Of)話bd蜘蛛下次來(Come)還會訪問這(This)個(Indivual)頁面,這(This)樣又會造成複制大(Big)量頁面的(Of)問題,結果肯定是K,所以(By),抽空檢查以(By)下。

  每個(Indivual)網絡蜘蛛都有自己的(Of)名字,在(Exist)抓取網頁的(Of)時(Hour)候,都會向網站标明自己的(Of)身份。網絡蜘蛛在(Exist)抓取網頁的(Of)時(Hour)候會發送一(One)個(Indivual)請求,這(This)個(Indivual)請求中就有一(One)個(Indivual)字段爲(For)User-agent,用(Use)于(At)标識此網絡蜘蛛的(Of)身份。例如Google網絡蜘蛛的(Of)标識爲(For)GoogleBot,Baidu網絡蜘蛛的(Of)标識爲(For)BaiDuSpider,Yahoo網絡蜘蛛的(Of)标識爲(For)Inktomi Slurp。

  返回碼大(Big)全:

  2xx 成功

  200 正常;請求已完成。

  201 正常;緊接 POST 命令。

  202 正常;已接受用(Use)于(At)處理,但處理尚未完成。

  203 正常;部分信息 — 返回的(Of)信息隻是一(One)部分。

  204 正常;無響應 — 已接收請求,但不(No)存在(Exist)要(Want)回送的(Of)信息。

  3xx 重定向

  301 已移動 — 請求的(Of)數據具有新的(Of)位置且更改是永久的(Of)。

  302 已找到(Arrive) — 請求的(Of)數據臨時(Hour)具有不(No)同 URI。

  303 請參閱其它 — 可在(Exist)另一(One) URI 下找到(Arrive)對請求的(Of)響應,且應使用(Use) GET 方法檢索此響應。

  304 未修改 — 未按預期修改文檔。

  305 使用(Use)代理 — 必須通過位置字段中提供的(Of)代理來(Come)訪問請求的(Of)資源。

  306 未使用(Use) — 不(No)再使用(Use);保留此代碼以(By)便将來(Come)使用(Use)。

  4xx 客戶機中出(Out)現的(Of)錯誤

  400 錯誤請求 — 請求中有語法問題,或不(No)能滿足請求。

  401 未授權 — 未授權客戶機訪問數據。

  402 需要(Want)付款 — 表示計費系統已有效。

  403 禁止 — 即使有授權也不(No)需要(Want)訪問。

  404 找不(No)到(Arrive) — 服務器找不(No)到(Arrive)給定的(Of)資源;文檔不(No)存在(Exist)。

  407 代理認證請求 — 客戶機首先必須使用(Use)代理認證自身。

  415 介質類型不(No)受支持 — 服務器拒絕服務請求,因爲(For)不(No)支持請求實體的(Of)格式。

  5xx 服務器中出(Out)現的(Of)錯誤

  500 内部錯誤 — 因爲(For)意外情況,服務器不(No)能完成請求。

  501 未執行 — 服務器不(No)支持請求的(Of)工具。

  502 錯誤網關 — 服務器接收到(Arrive)來(Come)自上遊服務器的(Of)無效響應。

  503 無法獲得服務 — 由于(At)臨時(Hour)過載或維護,服務器無法處理請求。

  如果在(Exist)網站上有訪問日志記錄,網站管理員就能知道,哪些搜索引擎的(Of)網絡蜘蛛過來(Come)過,什麽時(Hour)候過來(Come)的(Of),以(By)及讀了多少數據等等。

  根據不(No)同的(Of)IP我(I)們可以(By)分析網站是個(Indivual)怎樣的(Of)狀态.下面就按照我(I)IIS日記上的(Of)百度蜘蛛IP爲(For)例:

  123.125.68.*這(This)個(Indivual)蜘蛛經常來(Come),别的(Of)來(Come)的(Of)少,表示網站可能要(Want)進入沙盒了,或被者降權。

  220.181.68.*每天這(This)個(Indivual)IP 段隻增不(No)減很有可能進沙盒或K站。

  220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準備抓取你東西。

  121.14.89.*這(This)個(Indivual)ip段作(Do)爲(For)度過新站考察期。

  203.208.60.*這(This)個(Indivual)ip段出(Out)現在(Exist)新站及站點有不(No)正常現象後。

  210.72.225.*這(This)個(Indivual)ip段不(No)間斷巡邏各站。

  125.90.88.* 廣東茂名市電信也屬于(At)百度蜘蛛IP 主要(Want)造成成分,是新上線站較多,還有使用(Use)過站長工具,或SEO綜合檢測造成的(Of)。

  220.181.108.95這(This)個(Indivual)是百度抓取首頁的(Of)專用(Use)IP,如是220.181.108段的(Of)話,基本來(Come)說你的(Of)網站會天天隔夜快照,絕對錯不(No)了的(Of),我(I)保證。

  220.181.108.92 同上98%抓取首頁,可能還會抓取其他(He) (不(No)是指内頁)220.181段屬于(At)權重IP段此段爬過的(Of)文章或首頁基本24小時(Hour)放出(Out)來(Come)。

  123.125.71.106 抓取内頁收錄的(Of),權重較低,爬過此段的(Of)内頁文章不(No)會很快放出(Out)來(Come),因不(No)是原創或采集文章。

  220.181.108.91屬于(At)綜合的(Of),主要(Want)抓取首頁和(And)内頁或其他(He),屬于(At)權重IP 段,爬過的(Of)文章或首頁基本24小時(Hour)放出(Out)來(Come)。

  220.181.108.75重點抓取更新文章的(Of)内頁達到(Arrive)90%,8%抓取首頁,2%其他(He)。權重IP 段,爬過的(Of)文章或首頁基本24小時(Hour)放出(Out)來(Come)。

  220.181.108.86專用(Use)抓取首頁IP 權重段,一(One)般返回代碼是304 0 0 代表未更新。

  123.125.71.95 抓取内頁收錄的(Of),權重較低,爬過此段的(Of)内頁文章不(No)會很快放出(Out)來(Come),因不(No)是原創或采集文章。

  123.125.71.97 抓取内頁收錄的(Of),權重較低,爬過此段的(Of)内頁文章不(No)會很快放出(Out)來(Come),因不(No)是原創或采集文章。

  220.181.108.89專用(Use)抓取首頁IP 權重段,一(One)般返回代碼是304 0 0 代表未更新。

  220.181.108.94專用(Use)抓取首頁IP 權重段,一(One)般返回代碼是304 0 0 代表未更新。

  220.181.108.97專用(Use)抓取首頁IP 權重段,一(One)般返回代碼是304 0 0 代表未更新。

  220.181.108.80專用(Use)抓取首頁IP 權重段,一(One)般返回代碼是304 0 0 代表未更新。

  220.181.108.77 專用(Use)抓首頁IP 權重段,一(One)般返回代碼是304 0 0 代表未更新。

  123.125.71.117 抓取内頁收錄的(Of),權重較低,爬過此段的(Of)内頁文章不(No)會很快放出(Out)來(Come),因不(No)是原創或采集文章。

  220.181.108.83專用(Use)抓取首頁IP 權重段,一(One)般返回代碼是304 0 0 代表未更新。

  注:以(By)上IP尾數還有很多,但段位一(One)樣的(Of)123.125.71.*段IP 代表抓取内頁收錄的(Of)權重比較低.可能由于(At)你采集文章或拼文章暫時(Hour)被收錄但不(No)

  放出(Out)來(Come).(意思也就是說待定)。

  220.181.108.*段IP主要(Want)是抓取首頁占80%,内頁占30%,這(This)此爬過的(Of)文章或首頁,絕對24小時(Hour)内放出(Out)來(Come)和(And)隔夜快照的(Of),這(This)點我(I)可以(By)保證!

  一(One)般成功抓取返回代碼都是 200 0 0返回304 0 0代表網站沒更新,蜘蛛來(Come)過,如果是 200 0 64别擔心這(This)不(No)是K站,可能是網站是動态的(Of),

  所以(By)返回就是這(This)個(Indivual)代碼。

Copyright 大(Big)連網龍科技 版權所有 京ICP證000000号  html - txt -

遼公網安備 21021702000140号

電話
客服