網(wǎng)站優(yōu)化需要知道搜索引擎蜘蛛是如何收集信息的

發(fā)布時間：2022-06-07 瀏覽量：次

網(wǎng)站優(yōu)化中信息收集模塊包括“蜘蛛控制”和“網(wǎng)絡(luò)蜘蛛”兩部分，“蜘蛛”這個稱呼形象的描述出了信息收集模塊在網(wǎng)絡(luò)數(shù)據(jù)形成的“Web”上進行信息獲取的功能。總體而言，網(wǎng)絡(luò)蜘蛛從種子網(wǎng)頁出發(fā)，通過反復(fù)下載網(wǎng)頁并從文檔中尋找未曾見過的URL，達到訪問其他網(wǎng)頁得以遍歷Web的目的。而其工作策略一般則可以分為累積式抓取和增量式抓取兩種。

一、累積式抓取

1、網(wǎng)站優(yōu)化中蜘蛛累積式抓取是指從某一個時間點開始，通過遍歷的方式抓取系統(tǒng)所能允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下，經(jīng)過足夠的運行時間，累積式抓取的策略可以保證抓取到相當(dāng)規(guī)模的網(wǎng)頁集合。

2、但在小編看來由于Web數(shù)據(jù)的動態(tài)特性，集合中網(wǎng)頁的被抓取時間點是不同的，頁面被更新的情況也不同，因此累積式抓取到的網(wǎng)頁集合事實上并無法與真實環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。

二、增量式抓取

1、網(wǎng)站優(yōu)化的蜘蛛增量式抓取與累積式抓取不同，增量式抓取是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁面集合的基礎(chǔ)上，采用更新數(shù)據(jù)的方式選取已有集合中的過時網(wǎng)頁進行抓取，以保證所抓取到的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。

2、進行增量式抓取的前提是，系統(tǒng)已經(jīng)抓取了足夠數(shù)量的網(wǎng)絡(luò)頁面，并具有這些頁面被抓取的時間信息。面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中，通常既包括累積式抓取，也包括增量式抓取的策略。

3、累積式抓取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段，而增量式抓取則主要針對數(shù)據(jù)集合的日常維護與即時更新。

4、在確定了抓取策略之后，如何從充分利用網(wǎng)絡(luò)帶寬，合理確定網(wǎng)頁數(shù)據(jù)更新的時間點就成了網(wǎng)絡(luò)蜘蛛運行策略中的核心問題。

總體而言，網(wǎng)站優(yōu)化在合理利用軟硬件資源進行針對網(wǎng)絡(luò)數(shù)據(jù)的即時抓取方面，已經(jīng)形成了相對比較成熟的技術(shù)和實用性解決方案，小編覺得在這方面目前所需解決的主要問題是如何更好的處理動態(tài)網(wǎng)絡(luò)數(shù)據(jù)問題，以及更好的根據(jù)網(wǎng)頁質(zhì)量修正抓取策略的問題。

此文關(guān)鍵字: 網(wǎng)站優(yōu)化

上一條：網(wǎng)站優(yōu)化前為什么要先分析關(guān)鍵詞？

下一條網(wǎng)站優(yōu)化想要改標題怎么才能降低風(fēng)險？

亚洲天堂中文字幕在线观看_成年人在线免费视频观看_久久久久久久久久久福利_九九热在线精品视频_欧美**免费观看_成人国产免费观看_8050国产精品久久久久久_粉嫩粉嫩芽的虎白女18在线视频_91在线视频免费观看

網(wǎng)站優(yōu)化需要知道搜索引擎蜘蛛是如何收集信息的

相關(guān)文章

最新文章

15930012679