爬虫是违法的么

2024-04-27

1. 爬虫是违法的么

一、爬虫是违法的么1、爬虫是否违法需要根据以下情况判断:(1)爬虫本身不违法;(2)如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。2、法律依据:《中华人民共和国民法典》第一千零三十二条自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。第一千零三十三条除法律另有规定或者权利人明确同意外,任何组织或者个人不得实施下列行为:(一)以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁;(二)进入、拍摄、窥视他人的住宅、宾馆房间等私密空间;(三)拍摄、窥视、窃听、公开他人的私密活动;(四)拍摄、窥视他人身体的私密部位;(五)处理他人的私密信息;(六)以其他方式侵害他人的隐私权。二、非法获取公民个人信息要怎么处罚非法获取公民个人信息的处罚措施如下:1、向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金。情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。2、将在履行职责或者提供服务过程中获得的公民个人信息,出售或者提供给他人的,依照前款的规定从重处罚。3、窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。

爬虫是违法的么

2. 爬虫是违法的么

爬虫本身不是违法,但如爬虫程序采集到涉及个人隐私会构成违法。如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。自助行为,是指合法权益受到侵害,情况紧迫且不能及时获得国家机关保护,不立即采取措施将使其合法权益受到难以弥补的损害的,受害人可以在保护自己合法权益的必要范围内采取扣留侵权人的财物等合理措施;但是,应当立即请求有关国家机关处理。受害人采取的措施不当造成他人损害的,应当承担侵权责任。《中华人民共和国民法典》第一千零三十二条  自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。第一千零三十三条  除法律另有规定或者权利人明确同意外,任何组织或者个人不得实施下列行为:(一)以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁;(二)进入、拍摄、窥视他人的住宅、宾馆房间等私密空间;(三)拍摄、窥视、窃听、公开他人的私密活动;(四)拍摄、窥视他人身体的私密部位;(五)处理他人的私密信息;(六)以其他方式侵害他人的隐私权。第一千零三十四条  自然人的个人信息受法律保护。个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。个人信息中的私密信息,适用有关隐私权的规定;没有规定的,适用有关个人信息保护的规定。

3. 爬虫是违法的么

法律分析:爬虫不能涉及个人隐私。如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
法律依据:《中华人民共和国民法典》
第一千零三十二条 自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。
隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。
第一千零三十三条 除法律另有规定或者权利人明确同意外,任何组织或者个人不得实施下列行为:
(一)以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁;
(二)进入、拍摄、窥视他人的住宅、宾馆房间等私密空间;
(三)拍摄、窥视、窃听、公开他人的私密活动;
(四)拍摄、窥视他人身体的私密部位;
(五)处理他人的私密信息;
(六)以其他方式侵害他人的隐私权。
第一千零三十四条 自然人的个人信息受法律保护。
个人信息是以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人的各种信息,包括自然人的姓名、出生日期、身份证件号码、生物识别信息、住址、电话号码、电子邮箱、健康信息、行踪信息等。
个人信息中的私密信息,适用有关隐私权的规定;没有规定的,适用有关个人信息保护的规定。

爬虫是违法的么

4. 爬虫究竟是合法还是违法的?

 
   据说互联网上 50%以上的流量都是爬虫创造的,也许你看到很多热门数据都是爬虫所创造的,所以可以说无爬虫就无互联网的繁荣。
   前天写了一篇文章《 只因写了一段爬虫,公司200多人被抓!》,讲述程序员因写爬虫而被刑侦的事件。文章传播很广,评论中讨论最热是: 爬虫究竟是合法还是违法的? 
    这个话题涉及到我们很多程序员的日常工作,所以有必要和大家细聊一下。 
   01.技术无罪?
     在今年国家颁布 《中华人民共和国网络安全法》 之后,很多以前处于灰色地带的业务都不能做了。
   君不见之前曾经非常火的各种社工库网站,现在绝大部分都已经消失匿迹了吗?因为最新的安全法强调: 贩卖个人信息超过50条属于“情节严重”,需要追求其法律责任。 
   很多草根站长都纷纷主动关闭了网站;还有很多涉及版权信息的网站,比如书籍、影视剧、课程等后期也会面临越来越严格的审查,这就是目前大的形势。
   2014年12月20日,人人影视字幕站发布微博称,人人影视正式关闭,并表示或将继续为正版商提供翻译服务,也可能转变为讨论社区的形式。
   2019年6月,吾爱破解因版权问题关站整改...
   .....
   随着中国经济的不断往前走,知识产权问题会越来越重视,非法爬虫是现在一个重要的打击部分,
   如果有程序员走在灰色的边缘尽早收手,不要因为一点小的收益导致触犯法律,从而得不偿失。
    技术是无罪的,但是用到了错的地方代价也是非常巨大的。 
   02.爬虫岗位人人自危
   我在拉钩上搜索: 爬虫工程师,显示有 217 条相关招聘信息,薪资从10-60k 都有,说明市场上对爬虫的需求是很大的。
   
     简单回答一下这些问题:
   还有朋友认为这事责任在企业不在程序员,日常工作中项目初期设计和最后上线需要通过公司的法务批准,所有代码必须有其他程序员同事评审通过才能提交。
   这位朋友说的挺对的,按道理每个公司都应该有法务和风控在前面,后面才是产品设计和程序员开发的事情,但如果一家公司为了利益,老板可以直接让这两个部门闭嘴,后面程序员可以不干吗?
   更甚至很多公司其实就没有这两个部门或者说形同虚设。那么做为程序员自己也需要操一份心,凡是涉及到入侵类的程序都不能干,因为有一个东西叫做: 单位犯罪 。
    单位犯罪 ,是指公司、企业、事业单位、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当负刑事责任的危害 社会 的行为。
   我国刑法对单位犯罪原则上采取 双罚制度 ,即单位犯罪的,对单位判处罚金,并 对其直接负责的主管人员和其他直接责任人员判处刑罚。 
   03.什么样的爬虫是非法的?
    爬虫不能涉及个人隐私! 
   如果爬虫程序采集到 公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息 ,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
   也就是说你爬虫爬取信息没有问题,但不能涉及到个人的隐私问题,如果涉及了并且通过非法途径收益了,那肯定是违法行为。
   另外,还有下列 三种情况 ,爬虫有可能违法,严重的甚至构成犯罪:
   现在网上有很多付费的课程,比如极客时间、Gitchat、慕课网、知识星球等等,这些付费内部信息如果被非法爬取手法出售获利,一种违法行为。
   之前我就遇到一个网友,把各个知识星球的内容都抓下来,合到一起自己去卖,自作聪明觉得发现了一个大的商机,其实自己不知道这个行为其实很危险,风险和收益明显不对等。
   我这两天看的时候,他的一个公众号都被封了,后来又转移了一个小号继续搞,迟早又是被封的命运,真的很不值当。最可怜是那些买他服务的用户,因为他宣传时承诺永久,肯定永久不了。
   04.什么样的爬虫是合法的?
    1、 遵守 Robots 协议 
   Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
   Robots 协议就是告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
    2、不能造成对方服务器瘫痪 
   但不是说只要遵守 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫导致对方服务器瘫痪,这等于网络攻击。
   2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟通过行政法规的形式,对爬虫的使用进行限制:
   网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
    3、不能非法获利 
   恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。
   举个例子,如果你把大众点评上的所有公开信息都抓取了下来,自己复制了一个一模一样的网站,并且还通过这个网站获取了大量的利润,这样也是有问题的。
   一般情况下,爬虫都是为了企业获利的,因此需要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。
   05.最后
     有风险的行业谨慎进入,比如现金贷、不合规的P2P、赌博类 游戏 、黑五类产品的行业。如果公司安排入侵某个网站数据,或者有同事/朋友邀请泄露公司信息的都需要保持警惕,有时候一个很小的动作都有可能导致出问题。
    我们绝大多数公司和个人使用的爬虫都是没有问题的,不必人人自危,只要把握住不要爬取个人信息,不要利用爬虫非法获利,不要爬取网站的付费内容,基本上不会有问题。 
   程序员是世界上最单纯的一批人,也是一批高智商低情商的人,工作是工作但也需要适当保持谨慎,对于一些游走在法律边缘的事情请保持距离。
    敬畏法律,遵纪守法,从我做起。 
    参考:https://www.zhihu.com/question/291554395 
   作者: 纯洁的微笑  .出处:www.ityouknow.com 
   

5. 爬虫技术是什么

爬虫技术即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。通俗的讲,也就是通过源码解析来获得想要的内容。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

爬虫技术是什么

6. 爬虫技术是什么

爬虫技术是一种自动化程序。
爬虫就是一种可以从网页上抓取数据信息并保存的自动化程序,它的原理就是模拟浏览器发送网络请求,接受请求响应,然后按照一定的规则自动抓取互联网数据。

搜索引擎通过这些爬虫从一个网站爬到另一个网站,跟踪网页中的链接,访问更多的网页,这个过程称为爬行,这些新的网址会被存入数据库等待搜索。简而言之,爬虫就是通过不间断地访问互联网,然后从中获取你指定的信息并返回给你。而我们的互联网上,随时都有无数的爬虫在爬取数据,并返回给使用者。
爬虫技术的功能
1、获取网页
获取网页可以简单理解为向网页的服务器发送网络请求,然后服务器返回给我们网页的源代码,其中通信的底层原理较为复杂,而Python给我们封装好了urllib库和requests库等,这些库可以让我们非常简单的发送各种形式的请求。
2、提取信息
获取到的网页源码内包含了很多信息,想要进提取到我们需要的信息,则需要对源码还要做进一步筛选。可以选用python中的re库即通过正则匹配的形式去提取信息,也可以采用BeautifulSoup库(bs4)等解析源代码,除了有自动编码的优势之外,bs4库还可以结构化输出源代码信息,更易于理解与使用。
3、保存数据
提取到我们需要的有用信息后,需要在Python中把它们保存下来。可以使用通过内置函数open保存为文本数据,也可以用第三方库保存为其它形式的数据,例如可以通过pandas库保存为常见的xlsx数据,如果有图片等非结构化数据还可以通过pymongo库保存至非结构化数据库中。

7. 什么是爬虫技术是什么

通俗来讲,爬虫就是利用代码编写的程序或脚本,帮助你对互联网海量信息进行过滤、筛选,批量自动抓取网站中你想获取的信息,并对其进行整理排序。网络爬虫又被成为网络蜘蛛,如果将互联网比喻成一个蜘蛛网,那么这个程序或脚本,就是在网上爬来爬去的蜘蛛。归结为一句话就是进行互联网信息的自动化检索,其实就是获取数据的一种手段。目前常见的搜索引擎都离不开爬虫,举个例子,百度搜索引擎的爬虫叫做百度蜘蛛,百度蜘蛛每天会自动在海量的互联网信息中进行爬取,筛选出较为优质的信息进行收录,当你检索相关关键词时,会立刻将对应的信息按照一定的排序规则呈现在你的眼前。

什么是爬虫技术是什么

8. 爬虫公开数据是否违法

法律分析:获取已经公开的信息一般不违法,但该行为有涉嫌非法入侵计算机信息系统的可能
法律依据:《中华人民共和国民法典》 第一百一十条 自然人享有生命权、身体权、健康权、姓名权、肖像权、名誉权、荣誉权、隐私权、婚姻自主权等权利。法人、非法人组织享有名称权、名誉权和荣誉权。