诚信为本,市场在变,诚信永远不变...
消息,7 月 1 日,Google 在其博客上公布了一个最重要消息,它宣告,Google 开源了存储 robots.text 解析器的 C++ 库,以便推展 REP(Robots Exclusion Protocol,也称之为爬虫协议、机器人协议)沦为互联网标准。1994 年,荷兰软件工程师 Martijin Koster 明确提出了 REP 的概念,通过 robots.txt 文件来隐蔽一些信息不被搜索引擎捕捉,比如,只捕捉应当被捕捉的页面;屏蔽一些网站中较小的文件;屏蔽一些违宪链接;保密脆弱信息等。(公众号:)录:搜索引擎的爬取方式(图片来自百度百科)我们可以这么来解读,网站就只不过一个房间,robots.txt 文件就是主人在房门上挂的“请勿打扰”的提示牌,可以让人负于于一些存放在贵重物品的房间,但它注定不是守门人,无法挡住抱有蓄意的窃贼。
牵头多方力量上缴议案25 年过去了,业内对 REP 回应了充份的接纳,但现在它更加看起来一个道德规范,而不是非官方的互联网标准。不过,Google 于是以致力于转变这一现状。Google 在博客中说,我们期望协助网站所有者和开发者在互联网上建构令人惊叹的体验,而不是担忧如何掌控捕捉工具。
Google 和协议的发起人,以及其他网络管理员和搜索引擎联合草拟了一份关于如何在现代网络上限于 REP的议案,目前早已上转交了 IETF(按:Internet Engineering Task Force,非盈利互联网对外开放标准的组织,负责管理研发和推展强迫互联网标准)。Google 的议案体现了 20 多年来 Googlebot 和一些主要网络爬虫,以及约 5 亿倚赖 REP 的网站应用于 robots.txt 的实际经验,并且在现代网络层面做到了拓展,定义了 robots.txt 解析和给定的所有之前未定义场景:任何基于 URI 的传输协议都可以用于 robots.txt;它仍然局限于 HTTP,也可用作 FTP 或 CoAP。开发人员必需最少解析 robots.txt 的前 500 KB 内容。定义文件的最大值,以保证关上相连不必须花太长时间,从而减低服务器上不必要的压力。
新的最久内存时间为 24 小时或能用的内存指令值,彰显网站所有者灵活性随时改版 robots.txt,而爬虫程序会因此使网站短路。当前可以采访的 robots.txt 文件由于服务器故障而显得不能采访时,这些无法访问的页面将在很长一段时间内不被检索。开源 robots.txt 解析器除了牵头多方力量向 IETF 上缴议案,Google 还做出了其它希望,开源了自己 robots.txt 文件库目的创立标准化语法来创立和解析文件,避免所有误解。
Google 在博客中这样说:REP 是网络中最基本,最关键的组成部分之一,但它只是约定俗成的标准,这不免让人深感失望;这给网络管理员和爬虫工具开发者带上了后遗症......推展 REP 沦为行业标准这件事十分最重要,因为它合乎每个人的利益。不过,对于解析 robots.txt 文件的开发人员来说,这种标准化必须代价更大的希望,所以,我们开源了所含 robots.txt 解析器的 C++ 库。据信,这个 C++ 库早已不存在了 20 年之久,里面包括了自 90 年代起就撰写的代码片段。在这 20 年里,该库经历了大大的发展,也覆盖面积了许多在撰写 robots.txt 文件方面十分简单的案例,这对想建构自己的解析器的开发人员来说很有助益。
除此之外,Google 还在开源软件包中加到了一个测试工具,可以协助撰写人员测试 robots.txt 的效果。外界的态度在 Google 开源 robots.txt 后,这个话题引发了普遍的注目,甚至登顶 Hacker News。
Constellation 研究公司(按:专门从事数字化转型和颠覆性技术方面的技术研究与咨询)的分析师 Holger Mueller 告诉他 SiliconANGLE,标准化对于互联网长时间工作至关重要,很高兴看见 Google 在 REP 这样基本的东西上获得领先。Holger Mueller 还补足道,与任何开源倡议和标准化尝试一样,我们还必须静待,想到此举究竟不会会顺利,我们又能在此之中教给什么。这是一个有一点紧密注目的领域。
在国内,网友们也争相高喊“谷人希”(按:“谷歌,人类的期望”)来回应对该事件的赞许。原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:安博·体育-www.dadaogz.com