查找:                      转第 显示法宝之窗 隐藏相关资料 下载下载 收藏收藏 打印打印 转发转发 小字 小字 大字 大字
【期刊名称】 《法律适用》
论爬虫协议的法律性质
【作者】 杨华权曲三强【作者单位】 北京理工大学法学院北京理工大学法学院
【分类】 反不正当竞争与反垄断法【期刊年份】 2013年
【期号】 4【页码】 30
【全文】法宝引证码CLI.A.1242881    
一、问题的提出
  据报道,北京市第一中级人民法院于2013年2月8日正式受理了北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司(以下合称“百度公司”)诉北京奇虎科技有限公司(以下简称“奇虎公司”)基于爬虫协议(robots协议)的不正当竞争纠纷案,百度公司索赔金额高达1亿元。
  百度公司诉称,其依据国际互联网行业规则即robots协议设置robots.txt文件,但奇虎公司违反该规则,其所推出的搜索服务(http://so.360.cn及http://www.so.com、http://www.sou.com、http://www.360so.com, http://www.360sou.com等,以下简称“360搜索”)违规抓取百度公司经营的百度网站(http://www.baidu.com)及百度知道(http://zhidao.baidu.com)、百度百科(http://baike.baidu.com)、百度贴吧(http://tieba.baidu.com)等多个栏目的内容,生成“网页快照”复制件存储于其自身服务器中,当用户点击相应搜索结果的链接时,直接向网民提供该“网页快照”以替代百度公司向网民提供相应服务。
  奇虎公司则表示,robots.txt仅仅是指导和提示搜索引擎蜘蛛程序“善意的提示性TXT文件”,既不是法规或标准,也不是合约,因而不存在违反与不违反的问题。[1]
  本案诉争的“网页快照”行为与一般“网页快照”有所不同,具体是指360搜索没有遵守百度网站及其相关栏目的robots.txt中禁止其访问的规定,用户使用360搜索进行搜索并点击搜索结果中涉及到百度知道、百度百科、百度贴吧等栏目的链接时,其终端不是显示正常的页面,而是被强制跳转到360搜索提供的“网页快照”页面,也即是360搜索直接向网民提供其复制存储在其自身服务器上的网页快照。[2]百度公司认为这构成不正当竞争行为。
  根据我国《反不正当竞争法》第2条第2款,不正当竞争行为“是指经营者违反本法规定,损害其他经营者的合法权益,扰乱社会经济秩序的行为。”据此,不正当竞争行为应包括以下3个基本要素:该行为是市场竞争行为;违反了市场竞争原则;对市场竞争产生了损害。[3]鉴于篇幅所限,本文仅从“违反了市场竞争原则”进行论述。由于本案诉争的行为不属于《反不正当竞争法》明确规定的不正当竞争行为,因此只能适用《反不正当竞争法》第2条第1款规定:“经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。”本案的最大焦点在于判断奇虎公司违反百度网站及其相关栏目设置的robots.txt,强行抓取百度公司的网页内容并向网民提供强制快照的行为是否违背诚实信用原则以及公认的商业道德,从而构成不正当竞争行为。因此,要判定此类的行为是否构成不正当竞争,必须首先对纠纷所涉及的robots协议的内容进行解读,进而对其法律性质作出认定。
  二、爬虫协议的语法规则
  爬虫协议与robots.txt并非同一概念。爬虫协议(亦称机器人协议、拒绝蜘蛛协议)源于互联网从业人员的公开邮件组里的讨论。在1994年6月30日,出于“搜索技术应服务于人类,尊重信息提供者的意愿,并维护其隐私权”和“网站有义务保护其使用者的个人信息和隐私不被侵犯和网站安全和隐私考虑”的原则,[4]大多数搜索引擎人员和对搜索引擎感兴趣者共同制定并发布该协议,它确定了robots.txt文件的语法规则,而robots.txt的作用在于为搜索引擎蜘蛛程序爬行于本网站的路径提示,成为搜索引擎蜘蛛程序访问网站默认的第一个文件。如果网站不希望被搜索引擎收录相关内容,最好设置robots.txt以指示搜索引擎的访问路径。
  依据robots协议,robots.txt被放置在网站或者次级域名的根目录中,[5]例如:http://www.google.com/robots.txt, http://www.so.com/robots.txt, http://zhidao.baidu.com/robots.txt,不同网站设置的robots.txt内容也相应不同。 robots.txt目的是告诉搜索引擎蜘蛛程序允许和禁止访问网站内容的范围。如果存在这个文件,蜘蛛程序就会根据这个文件的内容,来确定它访问权限的范围;如果网站不存在该文件或者robots.txt为空的话,那么网站内容对所有搜索引擎蜘蛛程序开放,搜索引擎就可沿着网站链接抓取。如果要设置robots.txt,每个网站或每个域名(包括子域名)只能有一个该文件。
  下面以百度公司为例分析一下相关的robots.txt。此人家庭地位极低
  (一)百度网站[6]
  允许访问的搜索引擎蜘蛛程序有Baiduspider(百度搜索)、Googlebot (谷歌搜索)、MSNBot(MSN)、Baiduspider- image(百度图片)、YoudaoBot(有道搜索)、Sogou web spi- der、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider(搜狗搜索系列)、JikeSpi- der(即刻搜索)、Sosospider(搜搜搜索)、PangusoSpider(盘古搜索)。禁止百度搜索引擎(Baiduspider)抓取网页地址以“www.baidu.com/baidu”和“www.baidu.com/s?”开头的所有网页的内容;对于其他搜索引擎,还要禁止访问“www.baidu.com/shifen”、“www.baidu.com/homepage”目录及其中的所有内容,以及网页地址以“www.baidu.com/cpro”为开头的所有网页。除上述所列以外,禁止所有其他搜索引擎蜘蛛程序访问“www.baidu.com”的所有内容。
  (二)百度知道[7]
  允许抓取的搜索引擎在百度网站允许范围基础上增加了Googlebot-Mobile。除了百度搜索(Baiduspider)引擎不得抓取网页地址以“zhidao.baidu.com/w?”开头的所有网页内容外,允许前述所列其他搜索引擎抓取百度知道栏目的所有内容。除上述所列以外,禁止所有其他搜索引擎抓取百度知道栏目的任何内容。
  (三)百度百科[8]
  允许抓取的内容与百度网站的一致,但对这些蜘蛛程序允许抓取的范围有所不同:对Baiduspider(百度搜索)和Baiduspider-image (百度图片),禁止抓取以“baike.baidu.com/w?”开头的所有网页内容;对Googlebot(谷歌)、 Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider和Sogou Orion spider(搜狗搜索系列),禁止抓取以“baike.baidu.com/update”、“baike.baidu.com/history”、“baike.baidu.com/usercard”和“baike.baidu.com/usercenter”开头的所有网页内容。而对于MSNBot(MSN搜索)、YoudaoBot (有道搜索)、JikeSpider (即刻搜索)、Sosospider(搜搜搜索)和PangusoSpider(盘古搜索),则允许抓取所有内容。除上述所列以外,禁止所有其他搜索引擎抓取百度百科栏目的任何内容。
  (四)百度贴吧[9]
  允许抓取的搜索引擎在百度网站允许范围基础上增加了Baiduspider-video(百度视频)和Baiduspider-news(百度新闻),但它们禁止抓取的范围完全相同,即禁止“tieba.baidu.com/club”、“tieba.baidu.com/f/shipin”和“tieba.baidu.com/f/search”里的所有内容。除上述所列以外,禁止所有其他搜索引擎抓取百度贴吧的任何内容。
  在前述robots.txt中,360搜索的蜘蛛程序(360Spider)均被禁止访问百度网站、百度知道、百度百科和百度贴吧的任何内容。360搜索直接向用户提供网页快照代替正常页面的访问,表明其蜘蛛程序绕过相应的robots.txt而访问了百度网站及其相关栏目禁止访问的内容。百度公司诉奇虎公司一案再次将robots协议的法律性质问题凸显在公众视野之中。
  三、国外司法实践对robots.txt法律性质的认定
  迄今为止,国内、外涉及robots.txt的案件并不多,但发生在美国的eBay v. Bidder's Edge案、比利时的Copiepresse SCRL v. Google案具有重要影响。
  (一)eBay v. Bidder's Edge
  eBay是著名的网上物品拍卖及交易网站,它遵循robots协议并使用robots.txt, [10]并通过IP地址跟踪技术来监测搜索引擎蜘蛛程序是否遵守该协议。对于违反者,eBay将进行屏蔽。
  Bidder's Edge(以下简称BE)成立于1997年,是一家专门提供拍卖信息的聚合网站,向在线拍买者提供包括eBay在内的电子交易网站的大量在线拍卖信息,从而使其用户免于在不同电子交易网站进行单独搜索,但其本身并不提供拍卖服务。
  1999年4月24日,eBay口头同意BE在90天内可以使用蜘蛛程序搜集其网页信息,但双方在此期间未能达成正式的许可协议。1999年8月底9月初,eBay电话要求BE停止在其网站上提供eBay的拍卖信息,BE同意该要求。但在1999年10月,BE发现其他从事相同业务的网站仍然可以提供eBay的拍卖信息,因此BE在1999年11月2日召开新闻发布会,声明其恢复提供eBay的拍卖信息。 BE数据库中大约69%的拍卖信息来源于eBay。如果停止抓取eBay的信息,BE估计它将损失1/3的用户。
  就BE的行为,eBay发函给BE,主张BE的行为是非授权的,应停止抓取eBay网站的信息。由于双方无法就许可协议达成一致,eBay阻止来自于BE的IP地址的访问。 BE则采用代理服务器的方法来规避eBay的IP地址封锁。
  1999年12月10日,eBay将BE诉诸于美国加利福尼亚北区地方法院(The United States District Court for the North- ern District of California),指控其未经许可复制了eBay网站的内容,进行不正当竞争等,要求BE停止违规抓取行为。
  审理此案的怀特(Ronald M. Whyte)法官指出,eBay的服务器是私有财产,eBay授予公众可以有条件的访问,并禁止包括BE在内所采取的自动化式的访问。怀特法官认为,超出同意的范围,就构成对他人财产的侵犯;而BE的行为明显超越了eBay允许的使用范围,构成非授权的使用,是对eBay财产的侵犯。在怀特法官看来,网站通过robots.txt对其内容的访问进行限制是正当的,违反robots.txt的未经授权的访问是一种恶意行为。据此,怀特做出裁定,认定BE侵权成立,禁止BE在未经eBay书面授权的情况下,为了复制eBay拍卖数据库的任何内容而通过任何自动查询程序、网络蜘蛛或类似装置访问eBay计算机系统或者网络。[11]
  在此案中,法院认为eBay利用robots.txt来告诉蜘蛛程序可以查看并回应的一组信息,明确禁止非授权的自动访问,遵守robots.txt的蜘蛛程序需要查看和遵循网站的robots.txt设置的控制指令。从此案来看,法院认可robots.txt既是权利人保护私有财产的一种正当技术手段,也是蜘蛛程序设计者在网络条件下为保护服务器免受蜘蛛程序骚扰性访问采取的通行做法。
  (二)Copiepresse SCRL v. Google[12]
  原告Copiepresse SCCRL(以下简称“Copiepresse”)是比利时一家法语与德语日报的著作权集体管理组织,同时根据授权管理新闻记者作品的著作权。在2006年,Copiepresse针对Google在布鲁塞尔初审法院提起诉讼,指控Google提供的“网页快照”、“Google新闻”服务侵犯了其成员享有的复制权和向公众传播权等。[13]另外,Copiepresse还认为“Google新闻”服务并不是一个纯粹的搜索引擎,而是一个新闻门户网站(“A Portal to the Writ- ten Press”),Google在未获得版权人许可的前提下复制并向公众提供其版权作品,损害了其成员的著作权和广告收入、网站流量,并要求巨额赔偿。
  在原告提起诉讼

  ······

法宝用户,请登录后查看全部内容。
还不是用户?点击单篇购买;单位用户可在线填写“申请试用表”申请试用或直接致电400-810-8266成为法宝付费用户。
【注释】                                                                                                     
©北大法宝:(www.pkulaw.cn)专业提供法律信息、法学知识和法律软件领域各类解决方案。北大法宝为您提供丰富的参考资料,正式引用法规条文时请与标准文本核对
欢迎查看所有产品和服务。法宝快讯:如何快速找到您需要的检索结果?    法宝V5有何新特色?
扫码阅读
本篇【法宝引证码CLI.A.1242881      关注法宝动态: