网页要被搜索引擎抓取,首先要被搜索引擎收录,而搜索引擎收录网页参考的就是robots.txt文件,robots.txt文件对于网站非常重要,robots.txt文件用于指定spider在您网站上的抓取范围。

您可以在您的网站中创建一robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

Disallow – 不允许蜘蛛抓取某些文件或目录。下面的代码将阻止蜘蛛抓取网站所有的文件:User-agent: *Disallow: /Allow – 允许蜘蛛抓取某些文件。可以把Allow和Disallow配合使用,从而使蜘蛛在某个目录下只抓取一部分内容。下面代码将不允许蜘蛛抓取ab目录下的文件,而只抓取cd下的文件:User-agent: *Disallow: /ab/Allow: /ab/cd$通配符 – 匹配URL结尾的字符。下面的代码将允许蜘蛛访问以.htm为后缀的URL路径:User-agent: *Allow: .htm$*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:User-agent: *Disallow: /*.htmSitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:Sitemap: sitemap_location科技提供技术支持
Robots.txt文件标准写法?由向扬网络编辑https://www.hc228.com/nx/2842.html 如需转载请注明出处
深圳网页制作 深圳网站改版 深圳小程序开发 深圳响应式网站 深圳做网站公司 深圳做网站
龙华网站建设 常德网站建设 罗湖网站建设 兴宁网站建设 威海网站建设 银川网站建设 连云港网站建设 沈阳网站建设 徐州网站建设 雷州网站建设