131-1198-7613
NEWS
网站建设、网站制作、网站设计等相关资讯

Robots 完整使用指南-使用指南-学习网-完整-txt-Robots

首页 >> 新闻资讯 作者:磁力SEO 来源:磁力SEO - 搜索引擎优化技巧 日期:2025-02-18

Robots.txt是一个小文本文件,位于网站的根目次中。它告诉抓取工具是否要抓取网站的某些部门。该文件使用简陋的语法,以便爬虫可以放置到位。写得好,你将在索引天国。写得欠好,终极可能会从搜刮引擎中隐蔽整个网站,该文件没有官方尺度。但你可以使用robots.txt做更多的工作,而不是网站大纲,好比使用通配符,站点舆图链接,和“Allow”指令,全部首要搜刮引擎都支撑这些 扩展。在一个完善的世界里,没有人需要robots.txt。假如网站上的全部页面都是供公众使用的,那么自愿环境下,应该承诺搜刮引擎抓取全部页面。但我们并不是糊口在一个完善的世界里。很多站点都有蜘蛛陷阱,规范URL问题以及需要阔别搜刮引擎的非公共页面,而Robots.txt用于使您的网站更靠近完善。Robots.txt若何工作假如你已经认识了robots.txt的指令,但担忧你做错了,请跳到常见错误部门。假如你是新手,请继续阅读 。可以使用任何纯文本编辑器建造robots.txt文件,但它必需位于站点的根目次中,而且必需定名为“robots.txt”,您不能在子目次中使用该文件。假如域名是example.com,则robots.txt网址应为:http://example.com/robots.txtHTTP规范将“user-agent”界说为发送哀求的器材(与吸收哀求的“办事器”相对)。严酷来说,用户署理可所以哀求网页的任何内容,包括搜刮引擎抓取工具,Web欣赏器或昏黄的号令行 实用程序。用户署理指令在robots.txt文件中,user-agent指令用于指定哪个爬网程序应遵守给定的规则集。该指令可所以通配符,用于指定规则合用于全部爬网程序:User-agent: *或者它可所以特定爬虫的名称:User-agent:Googlebot避免指令您应该通过一个或多个disallow 指令来遵照用户署理行 :User-agent:*  Disallow:/ junk-page上面的示例将阻挠路径以“/ junk-page”开头的全部URL :http://example.com/junk-page  http://example.com/junk-page?usefulness=0  http://example.com/junk-page/whatever 它不会阻挠任何路径不以“/ junk-page”开头的URL 。以下网址不会被 阻挠:http://example.com/subdir/junk-page这里的要害是disallow是一个简陋的文本匹配。无论“Disallow:”之后出现什么都被视为一个简陋的字符串(除了*和$之外,我将在下面提到)。将此字符串与URL的路径部门的开头(从域之后的起首个斜杠到URL的末尾的全部内容)举行比力,该字符串也被视为简陋字符串。假如匹配,则会阻挠该URL。假如他们不如许做,那就 不是。承诺指令Allow指令不是原始尺度的一部门,但此刻全部首要搜刮引擎都支撑它。您可以使用此伪指令指定避免规则的破例,比方,假如您有一个要阻挠的子目次,但盼望抓取该子目次中的一个页面:User-agent:*  Allow:/ nothing-good-in-here / except-this-one-page  Disallow:/ nothing-good-in-here /此示例将阻挠以下 URL:http://example.com/nothing-good-in-here/  http://example.com/nothing-good-in-here/somepage  http://example.com/nothing-good-in-here/otherpage  http://example.com/nothing-good-in-here/?x=y但它不会阻挠以下任何一种环境:http://example.com/nothing-good-in-here/except-this-one-page  http://example.com/nothing-good-in-here/except-this-one-page-because-i -said-so  http://example.com/nothing-good-in-here/except-this-one-page/that-is-really-a-directory 同样,这是一个简陋的文本匹配。将“Allow:”之后的文本与URL的路径部门的开头举行比力。假如它们匹配,纵然在每每阻挠它的其他处所避免该页面,也将承诺该页面。通配符全部首要搜刮引擎也支撑通配符计较符。这承诺您在路径的一部门未知或可变时阻挠页面。对于 比方:Disallow:/ users / * / settings*(星号)表现“匹配任何文本。”上述指令将阻挠以下全部 URL:http://example.com/users/alice/settings  http://example.com/users/bob/settings  http://example.com/users/tinkerbell/settings 警惕!以上还将阻挠以下URL(可能不是您想要的):http://example.com/users/alice/extra/directory/levels/settings  http://example.com/users/alice/search?q=/settings 字符串竣事计较符另一个有效的扩展是字符串末端计较符:Disallow:/ useless-page $$表现URL必需在该点竣事,该指令将阻挠以下 URL:http://example.com/useless-page但它不会阻挠 以下任何一种环境:http://example.com/useless-pages-and-how-to-avoid-creating-them  http://example.com/useless-page/  http://example.com/useless-page?a=b阻挠统统您可能盼望使用robots.txt阻挠全部暂存站点(稍后会具体先容)或镜像站点。假如您有一个私家网站供少数知道若何找到它的人使用,那么您还盼望阻挠整个网站被抓取。要阻挠整个站点,请使用避免后跟斜杠:User-agent:*  Disallow:/承诺统统当您打算承诺 全部内容时,我可以想到您可能抉择创建robots.txt文件的两个缘故原由:作为占位符,要向在网站上工作的任何其他人明确表现您承诺统统都是有意的。防止对robots.txt的哀求失败,以显示在哀求日记中。要承诺整个站点,您可以使用空的禁令:User-agent:*  Disallow:或者,您可以将robots.txt文件留空,或者底子没有。爬行者会抓取全部内容,除非你告诉他们不要 。Sitemap 指令虽然它是可选的,但很多robots.txt文件都包罗一个sitemap 指令:网站舆图:http://example.com/sitemap.xml这指定了站点舆图文件的位置。站点舆图是一种出格花样的文件,列出了您要抓取的全部网址。假如您的站点具有XML网站舆图,则最好包罗此指令。使用 Robots.txt的常见错误我看到许多许多不正确的robots.txt用法。此中最严重的是实验使用该文件保密某些目次或实验使用它来阻挠恶意爬虫。滥用robots.txt的最严重后果是不测地将您的整个网站隐蔽在抓取工具中。亲近关注这些 事变。当你去建造时健忘隐蔽全部暂存站点(尚未隐蔽在暗码后面)都应该包罗robots.txt文件,由于它们不适合公众检察。可是当您的网站上线时,您会盼望每个人都能看到它。不要健忘删除或编辑此 文件。不然,整个及时网站将从搜刮成果中磨灭。User-agent:*  Disallow:/您可以在测试时查抄及时robots.txt文件,或举行配置,如许您就不必记住这一额外步骤。使用择要式身份验证等简陋协议将登台办事器置于暗码之后。然后,您可觉得登台办事器提供您计划在现实站点上布置的相同robots.txt文件。布置时,只需复制全部内容即可。试图阻挠敌对爬虫我见过robots.txt文件试图明确阻挠已知的恶意抓取程序,如下所示:User-agent:DataCha0s / 2.0  Disallow:/  User-agent:ExtractorPro  Disallow:/  User-agent:EmailSiphon  Disallow:/  User-agent:EmailWolf 1.00  Disallow:/这就像在汽车外表板上留下一张纸条说:“酷爱的小偷:请不要偷这辆车。 谢谢!”这毫无意义。这就像在汽车外表板上留下一张纸条说:“酷爱的小偷:请不要偷这辆车。 谢谢!”Robots.txt完满是志愿的,像搜刮引擎如许的规矩爬虫会遵守它。敌意爬行器,如电子邮件收割机,不会。爬虫没有义务遵守robots.txt中的指南,但首要的抉择是如许做的。假如您正在实验阻挠错误的抓取工具,请使用用户署理阻挠或IP阻挠 。试图维持目次的秘密假如您要保留对公众隐蔽的文件或目次,请不要将它们所有列在robots.txt中,如下所示:User-agent:*  Disallow:/ secret-stuff /  Disallow:/compromising-photo.jpg  Disallow:/big-list-of-plaintext-passwords.csv出于显而易见的缘故原由,这将弊大于利。它为敌对爬虫提供了一种快速,轻便的方法来查找您不盼望他们找到的文件 。这就像在你的车上留下一张纸条上写着:“酷爱的小偷:请不要看着隐蔽在这辆车的杂物箱中的标有’紧迫现金’的黄色信封。 谢谢!”维持目次隐蔽的唯一靠得住方法是将其置于暗码之后。假如你绝对不能把它放在暗码后面,这里有三个创可贴解决方案。1.基于目次名称的前几个字符举行阻挠。 假如目次是“/ xyz-secret-stuff /”,则将其壅闭如下:Disallow:/ xyz-2.阻挠呆板人元标志 将以下内容添加到HTML代码中:3.使用X-Robots-Tag标头阻挠。 将如许的内容添加到目次的.htaccess文件中:题目集X-Robots-Tag“noindex,nofollow”同样,这些是创可贴解决方案,这些都不是现实平安的替换品。假如确实需要保密,那么它确实需要在暗码后面。不测阻挠不相关的页面假设您需要阻挠该 页面:http://example.com/admin另有 目次中的全部内容:http://example.com/admin/显而易见的方法是如许做 :Disallow:/ admin这会阻挠你想要的器材,但此刻你也不警惕阻挠了关于宠物照顾护士的文章页面:http://example.com/administer-medication-to-your-cat-the-easy-way.html本文将与您现实实验 阻挠的页面一路从搜刮成果中磨灭。是的,这是一个人为的例子,但我已经看到这种事变发生在实际世界中。最糟糕的是,它每每会被忽视很长一段时间。阻挠/ admin和/ admin /而不壅闭任何其他内容的最平安方法是使用两个单独的行:Disallow:/ admin $  Disallow:/ admin /请记住,美元符号是一个字符串末端的计较符,表现“URL必需在此处竣事。”该指令将匹配/ admin但不匹配 /管理。试图将robots.txt放在子目次中假设您只能节制一个庞大网站的一个子目次。http://example.com/userpages/yourname/假如您需要阻挠某些页面,可能会实验添加robots.txt文件,如下所示:http://example.com/userpages/yourname/robots.txt这不起作用,该文件将被忽略。您可以放置​​robots.txt文件的唯一位置是站点根目次。假如您无权会见站点根目次,则无法使用robots.txt。一些替换选项是使用呆板人元标志来阻挠页面。或者,假如您可以节制.htaccess文件(或等效文件),则还可以使用X-Robots-Tag标头阻挠页面。实验定位特定的子域假设您有一个包罗很多差别子域的站点:http://example.com/  http://admin.example.com/  http://members.example.com/  http://blog.example.com/  http://store.example.com/您可能想要创建单个robots.txt文件,然后实验阻挠它的子域,如下所示:http://example.com/robots.txt   User-agent:*  Disallow:admin.example.com  Disallow:members.example.com这不起作用,无法在robots.txt文件中指定子域(或域)。给定的robots.txt文件仅合用于从中加载的子域 。那么有没有举措阻挠某些子域?是。要阻挠某些子域而不阻挠其他子域,您需要提供来自差别子域的差别robots.txt文件。这些robots.txt文件会阻挠全部内容:http://admin.example.com/robots.txt  http://members.example.com/robots.txt  User-agent:*  Disallow:/这些将承诺统统:http://example.com/  http://blog.example.com/  http://store.example.com/  User-agent:*  Disallow:使用不一致的类型环境路径区分巨细写。Disallow:/ acme /不会阻挠“/ Acme /”或 “/ ACME /”。假如你需要所有阻挠它们,你需要为每个禁用一行:Disallow:/ acme /  Disallow:/ Acme /  Disallow:/ ACME /健忘了用户署理线所述用户署理线是使用robots.txt要害的。在任何承诺或避免之前,文件必需具有效户署理行。假如整个文件看起来像如许:Disallow:/ this  Disallow:/ that  Disallow:/ what现实上什么都不会被阻挠,由于顶部没有效户署理行。该文件必需为:User-agent:*  Disallow:/ this  Disallow:/ that  Disallow:/ whatever其他用户署理陷阱使用不正确的用户署理还存在其他缺陷。假设您有三个目次需要为全部抓取工具阻挠,另有一个页面应该仅在Google上明确承诺。显而易见(但不正确)的方法可能是实验如许的事变 :User-agent:*  Disallow:/ admin /  Disallow:/ private /  Disallow:/ dontcrawl /  User-agent:Googlebot  Allow:/ dontcrawl / exception此文件现实上承诺Google抓取网站上的全部内容。Googlebot(以及大大都其他抓取工具)只会遵守更详细的用户署理行下的规则,并会忽略全部其他规则。在此示例中,它将遵守“User-agent:Googlebot”下的规则,并将忽略“User-agent: *” 下的规则。要实现此目的,您需要为每个用户署理块重复相同的避免规则,如下所示:User-agent:*  Disallow:/ admin /  Disallow:/ private /  Disallow:/ dontcrawl /  User-agent:Googlebot  Disallow:/ admin /  Disallow:/ private /  Disallow:/ dontcrawl /  Allow:/ dontcrawl / exception健忘路径中的首要斜线假设您要阻挠该 URL:http://example.com/badpage你有以下(不正确的)robots.txt 文件:User-agent:*  Disallow:错误页面这底子不会阻挠任何事变,路径必需以斜杠开头。假如没有,它永远不会匹配任何器材。阻挠URL的正确方法 是:User-agent:*  Disallow:/ badpage使用 Robots.txt的提醒既然您知道若何不将敌对抓取工具发送到您的秘密内容或从搜刮成果中磨灭您的网站,这里有一些提醒可以帮忙您改进robots.txt文件。做得好不会提高你的排名(这是战略搜刮引擎优化和内容的用途),但至少你会知道爬虫正在找到你想要他们找到的器材。竞争承诺和不承诺allow指令用于指定disallow规则的破例。disallow规则壅闭整个目次(比方),allow规则作废阻挠该目次中的某些URL。这提出了一个问题,假如给定的URL可以匹配两个规则中的任何一个,爬虫若何决定使用哪个?并非全部抓取工具都以完全相同的方式处置惩罚竞争承诺和避免,但Google优先思量路径较长的规则(就字符数而言)。假如两个路径长度相同,则allow优先于disallow。比方,假设robots.txt文件 是:User-agent:*  Allow:/ baddir / goodpage  Disallow:/ baddir /路径“/ baddir / goodpage”长度为16个字符,路径“/ baddir /”长度仅为8个字符。在这种环境下,承诺赛过 不承诺。将 承诺以下URL :http://example.com/baddir/goodpage  http://example.com/baddir/goodpagesarehardtofind  http://example.com/baddir/goodpage?x=y以下内容将被 阻挠:http://example.com/baddir/  http://example.com/baddir/otherpage此刻思量以下示例:User-agent:*  Aloow:/某些 Disallow:/ *页面这些指令会阻挠以下 URL吗?http://example.com/somepage是。路径“/ some”长度为5个字符,路径“/ * page”长度为6个字符,因此disallow得胜。承诺被忽略,URL将被阻挠。阻挠特定的查询参数假设您要阻挠包罗查询参数“id”的全部URL,比方 :http://example.com/somepage?id=123  http://example.com/somepage?a=b&id=123你可能想做如许的事变 :Disallow:/ * id =这将阻挠您想要的URL,但也会阻挠以 “id” 末端的任何其他查询参数:http://example.com/users?userid=a0f3e8201b  http://example.com/auction?num=9172&bid=1935.00那么若何在不阻挠“用户ID”或 “出价”的环境下阻挠“id ”?假如您知道“id”将始终是起首个参数,请使用问号,如下 所示:Disallow:/ *?id =该指令将阻挠:http://example.com/somepage?id=123但它不会阻挠:http://example.com/somepage?a=b&id=123假如您知道“id”永远不会是起首个参数,请使用&符号,如下 所示:Disallow:/ *&id =该指令将阻挠:http://example.com/somepage?a=b&id=123但它不会阻挠:http://example.com/somepage?id=123最平安的方法是 两者分身:Disallow:/ *?id =  Disallow:/ *&id =没有靠得住的方法来匹配两条线。阻挠包罗不平安字符的URL假设您需要阻挠包罗不平安URL的字符的URL,可能发生这种环境的一种常见环境是办事器端模板代码不测袒露给Web。对于 比方:http://example.com/search?q=<% var_name%>假如您实验像如许阻挠该URL,它将无法 工作:User-agent:*  Disallow:/ search?q = <%var_name%>假如您在Google的robots.txt测试工具(在Search Console中提供)中测试此指令,您会发现它不会阻挠该网址。为什么?由于该指令现实上是凭据 URL 查抄的:http://example.com/search?q=%3C%%20var_name%20%%3E全部Web 用户署理(包括抓取工具)城市主动对任何不合适URL平安的字符举行URL编码。这些字符包括:空格,小于或大于符号,单引号, 双引号和非ASCII 字符。阻挠包罗不平安字符的URL的正确方法是阻挠转义版本:User-agent:*  Disallow:/ search?q =%3C %% 20var_name%20 %% 3E获取URL的转义版本的最简陋方法是单击欣赏器中的链接,然后从地址 字段中复制并粘贴URL 。若何匹配美元符号假设您要阻挠包罗美元符号的全部网址,比方 :http://example.com/store?price=$10以下内容 不起作用:Disallow:/ * $该指令现实上会阻挠站点上的全部内容。当在指令末尾使用时,美元符号表现“URL在此处竣事。”因此,上面将阻挠路径以斜杠开头的每个URL,后跟零个或多个字符,后跟URL的末端。此规则合用于任何有用的URL。为相识决这个问题,诀窍是在美元符号后添加一个额外的星号,如下所示:Disallow:/ * $ *在这里,美元符号不再位于路径的止境,因此它失去了它的出格寄义。该指令将匹配包罗笔墨美元符号的任何URL。请注重,终极星号的唯一目标是防止美元符号成为末了一个 字符。增补有趣的事实:谷歌在举行语义搜刮的过程中,每每会正确地诠释拼写错误或花样错误的指令。比方,Google会在没有投诉的环境下接管以下任何内容:UserAgent:*  Disallow / this  Dissalow:/ that这并不料味着你应该忽略指令的花样和拼写,但假如你确实犯了错误,谷歌每每会让你逃走它。可是,其他爬虫可能 不会。人们常常在robots.txt文件中使用尾随通配符。这是无害的,但它也没用; 我认为这是糟糕的情势。对于比方:Disallow:/ somedir / *与以下内容完全相同 :Disallow:/ somedir /当我看到这个时,我想,“这个人不大白robots.txt是若何工作的。”我看到它许多。概要请记住,robots.txt必需位于根目次中,必需以用户署理行开头,不能阻挠恶意爬虫,也不该该用于保密目次。使用此文件的很多狐疑源于人们期望它比它更复杂的事实。相关文章推选百度蜘蛛优化教程  你知道全部关于搜刮引擎优化的方法,一个布局杰出的网站,相关的要害词,适当的标签,算法尺度和大量的内容,可是您可 […]...Google搜刮引擎优化方案  为了协助您与世界竞争,并打磨您的搜刮引擎优化技术,草根SEO带来了顶级的Google搜刮引擎优化方案。 阶段一 […]...新站百度seo优化方案  2018年对于SEO而言相对安静,可是不管此刻的SEO景物看起来何等宁静,这并不料味着你可以靠在椅子上松懈一下 […]...【苏州seo培训】若何提高页面的搜刮排名?  在最先页面搜刮引擎优化之前,您需要做起首个事变是找到符合的要害词,抉择利基然后举行挖掘以找到更多长尾要害词。 […]...有哪些SEO技能可以提高网站排名?  SEO技能是整个SEO过程中很是紧张的一步,假如您的搜刮引擎优化技能存在问题,那么很可能您的搜刮引擎优化工作不 […]...
Tags: 目次 指令 文件 爬虫 页面 路径 全部 如许 您的 站点 引擎 字符 网站 规则 所示

服务热线

131-1198-7613

功能和特性

价格和优惠

获取内部资料

微信服务号