查找:                      转第 显示法宝之窗 隐藏相关资料 下载下载 收藏收藏 打印打印 转发转发 小字 小字 大字 大字
网络数据爬取行为的法律风险与合规建议
【作者】 李洪江;胡杨【合作机构】 北京市观韬中茂律师事务所
【中文关键词】 网络数据爬取行为;法律风险;合规建议【主题分类】 互联网法律
【发布时间】 2020.08.12
【全文】法宝引证码CLI.A.238509    
  

  网络数据爬取技术作为技术自动化运行的基础,需要及时厘清行为法律边界以规避法律风险。本文将从网络数据爬取行为的辨析、数据爬取相关规范及其适用,结合典型司法案例分析网络数据爬取行为带来的法律风险,探讨数据爬取技术在我国法律实践中的适用方式。

  一、网络数据爬取技术行为规范

  互联网技术的发展,为信息沟通、数据交换提供了一个宽广的平台。伴随着网络数据访问量的快速增长,网络数据的获取和筛选已远非人力所能及,因此网络数据自动化爬取技术成为互联网信息交流中不可或缺的一环。网络爬取技术伴随着互联网搜索技术而生,是现代互联网数据信息交换的基础技术之一。网络爬虫是一个自动下载网页的程序,它根据既定的抓取目标,获取所需要的信息。爬虫按照一定的规则,自动地抓取万维网信息的程序或者脚本。其目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。技术的进步允许爬虫以更快的速度,更高的准确率为用户实时提供所需的数据。智能搜索、智能语音合成等技术便是数据爬取技术在信息服务领域应用的典型范例。

  作为一种数据获取工具,网络爬虫的使用可以提升使用者的数据收集效率。但是技术的无限制使用必然带来混乱和网络秩序的崩溃,因此需要通过技术规范和法律规范的双重约束,进一步规制爬虫技术的使用范围和法律边界,防止爬虫技术被滥用侵害网络信息权利人的合法利益。

  1.网络数据爬取相关的技术规范

  在技术规范方面,当前的网络爬取技术主要遵循“robots协议”, “robots协议”又称作robots.txt文件,是一个存放于网站根目录下的ASCII编码的文本文件。该文件中存储有网络爬虫可以爬取的限定范围。在网络爬虫爬取网页数据前,会首先浏览robots文件,确定能够爬取的数据范围,在网页提供者允许的范围内进行数据爬取。

  “robots协议”并非某一公司或组织制定的,而是源起于20世纪90年代互联网从业人员的公开邮件自由讨论并产生的。1994年6月30日,经过搜索引擎研究人员和被爬墙网站站长的协商,共同起草了第一份“robots协议”。自此之后,“robots协议”成为头部搜索技术企业共同遵守的规范,如Google、Bing等跨国企业,百度、搜狗等国内公司相继采用该规范并严格遵守。“robots协议”成为规范网络空间、构建健康网络生态的基石。

  但“robots协议”并非面向所有网络信息数据参与者的强制规范,而是以“君子协定”的形式规制网络数据采集者的行为。“robots协议”本身不能阻挡未经许可的爬取行为,也不会对数据进行实质性保护,数据提供方能否受到保护,完全取决于数据爬取方是否愿意遵守技术规范。面对浩如烟海的互联网,必然会有部分参与者试图通过爬取数据攫取不法利益。对于网络爬虫的使用方,可以选择绕过“robots协议”的验证,直接获得相关数据。因此面对非善意的爬取行为,数据提供方会使用反爬虫措施对数据进行保护。如果数据爬取方以超越提供方许可范围的形式进行操作,将会使数据提供方的利益不能得到保护,因此需要法律规范进一步规制网络参与者的行为。

  2.网络数据爬取相关的法律规范

  相对于技术规范,法律规范的设立不可避免地存在滞后性。数据爬取技术是一个复杂的综合体,其中不仅涉及数据来源合法性、著作权权属等实体问题,也包括爬取行为、爬取对象、应用范围等过程问题。本文主要针对数据爬取过程中的法律规范、立法本源以及保护范围进行探讨。

  (1)  数据爬取行为导致的民事侵权问题:数据爬取行为中涉及的民事权益至少包括个人权益的个人信息权、财产权、知识产权,竞争法权益中的经营者利益、竞争秩序等,因此需要综合民法典侵权责任编、著作权法、反不正当竞争法等法律法规对行为进行综合规制。

  例如《民法典》人格权编第1038条对自然人的个人信息保护做出如下规定:“信息处理者不得泄露或者篡改其收集、存储的个人信息;未经自然人同意,不得向他人非法提供其个人信息,······信息处理者应当采取技术措施和其他必要措施,确保其收集、存储的个人信息安全,防止信息泄露、篡改、丢失”,对个人信息保护进行规制。三年不开张,开张吃三年

  在商业领域主要通过反不正当竞争法进行规范,例如《反不正当竞争法》新增加互联网专条,针对企业通过互联网从事生产经营进行专门的规制:“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:······”互联网专条进一步细化了互联网经营者的责任,在一定程度上代替第条成为规制互联网不正当竞争行为的专属条款。究其本源,是进一步规范互联网参与者责任,防范滥用网络爬虫技术对个人和互联网经营者权益的损害。

  对于爬虫技术,其主要的使用者是拥有大规模网络资源的互联网经营者,通过海量的爬虫获取相关网页信息进行导引或存储,进一步提升本经营者对于互联网用户的吸引力。由于互联网数据的特殊性,难以通过开发成本、获取利润等财务数据对其价值进行量化。因此在界定保护范围时不宜以狭义的财产价值评估互联网数据的保护价值,而应当综合评判互联网数据的流量、关注度、社会价


  ······

法宝用户,请登录后查看全部内容。
还不是用户?点击单篇购买;单位用户可在线填写“申请试用表”申请试用或直接致电400-810-8266成为法宝付费用户。
©北大法宝:(www.pkulaw.cn)专业提供法律信息、法学知识和法律软件领域各类解决方案。北大法宝为您提供丰富的参考资料,正式引用法规条文时请与标准文本核对会让它误以为那是爱情
欢迎查看所有产品和服务。法宝快讯:如何快速找到您需要的检索结果?    法宝V5有何新特色?
扫码阅读
本篇【法宝引证码CLI.A.238509      关注法宝动态:  

法宝联想
【该律所其他文章】
【主题分类其他文章】

热门视频更多