讯美网络

什么是URL,网页是如何被搜索引擎抓取的

2018-11-07 02:02


url,即统一资源定位符,通过对url的分析,我们可以更好地理解页面抓取过程。今天,我们给大家讲述有关url的页面抓取过程。
 
一、url是什么意思?
 
URL,英文全称为“uniform resource locator”,中文译为“统一资源定位符”。
 
在网站优化中要求每一个页面有且仅有一个唯一的统一资源定位符(URL),但往往很多网站同一页面对应了很多个URL,如果都被搜索引擎收录且未做URL转向,就会产生权重不集中的情况,通常称为URL不规范。
 
二、url的组成
 
统一资源定位符(URL),由三部分组成:协议方案、主机名和资源名。
 
例如:
 
https:// www.***.com /sitemap.html
 
其中https为协议方案,www.***.com为主机名 ,sitemap.html为资源,当然还可以是.pdf、.php、.word等格式。
 
三、页面抓取过程简述
 
无论是我们平时用的互联网浏览器,还是网络爬虫,虽然是两种不同的客户端,但获取页面的方式却是相同的。页面抓取过程如下:
 
① 连接DNS域名系统服务器
 
客户端都会先连接到DNS域名服务器上,DNS服务器将主机名( www.***.com )转换为IP地址,并反馈给客户端。
 
PS:本来我们通过125.52.10.45 的地址来访问某网站,为了方便记忆和使用,才利用DNS域名系统转换为了 www.***.com 。这也就是DNS域名系统的作用。
 
② 连接IP地址服务器
 
该IP服务器下可能会有很多程序(网站),可以通过端口号来做区分,同时每个程序(网站)都会监听端口是否有新的连接请求,HTTP网站默认为80,HTTPS网站默认为443。
 
不过通常情况下,端口号80和443是默认不出现的。
 
举例来讲:
 
https://www.***.com:443/ = https://www.***.com/
 
http://www.***.com:80/ = http://www.***.com/
 
③ 建立连接并发送页面请求
 
客户端与服务器建立连接后,会发送页面请求,通常为get,也可以是post。
 
get sitemap.html HTTPS/1.0
 
获取HTTPS协议下的页面sitemap 返回给客户端。之后如需继续获取更多页面,则发送其他请求,否则将关闭该连接。
 
PS:通常情况下 ,/seo/sitemap.html 可能会更清晰。也就是发送 https://www.***.com/ 下的 seo文件夹下的 sitemap.html 的页面请求。

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!