网页要被搜索引擎抓取,首先要被搜索引擎收录,而搜索引擎收录网页参考的就是robots.txt文件,robots.txt文件对于网站非常重要,robots.txt文件用于指定spider在您网站上的抓取范围。

您可以在您的网站中创建一robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

Disallow – 不允许蜘蛛抓取某些文件或目录。下面的代码将阻止蜘蛛抓取网站所有的文件:User-agent: *Disallow: /Allow – 允许蜘蛛抓取某些文件。可以把Allow和Disallow配合使用,从而使蜘蛛在某个目录下只抓取一部分内容。下面代码将不允许蜘蛛抓取ab目录下的文件,而只抓取cd下的文件:User-agent: *Disallow: /ab/Allow: /ab/cd$通配符 – 匹配URL结尾的字符。下面的代码将允许蜘蛛访问以.htm为后缀的URL路径:User-agent: *Allow: .htm$*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:User-agent: *Disallow: /*.htmSitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:Sitemap: sitemap_location科技提供技术支持
Robots.txt文件标准写法?由向扬网络编辑https://www.hc228.com/nx/2842.html 如需转载请注明出处
深圳网站设计 深圳建网站 深圳响应式网站 深圳小程序制作 深圳网站优化 深圳网络推广
嘉兴网站建设 四会网站建设 延安网站建设 大连网站建设 常德网站建设 德州网站建设 九江网站建设 石家庄网站建设 汕头网站建设 合肥网站建设