【K哥爬虫普法】高德地图:你好,爬虫费交一下!

爬虫十年功,被捕一分钟。

求财不守法,到头一场空。


案情回顾

被告:温某某,男,1986年6月18日出生,汉族,大学文化,户籍所在地湖北省武汉市武昌区。
被告:贾某某,男,1985年10月23日生,汉族,大学文化,户籍所在地山东省菏泽市鄄城县。

X公司的主营业务是为房产中介人员提供有偿信息咨询服务,公司高层主要就是温某某和贾某某俩人。
温某某的技术水平比较高,独自开发了“每天找房”软件,主要负责公司的产品研发和技术维护。
贾某某负责公司的运维管理(公司的账目管理、服务器的维护)及部分技术支持。


iHOS
iHOS是一个网站,主要有读取发布房源信息和楼盘情报两个功能。iHOS会利用爬虫技术自动爬取贝壳找房、链家、安居客、58同城等二手房交易网站上的房源公开信息,包括房源的图片、视频、面积、小区、户型等信息。当然了,爬这些网站的数据并没有经过对方的授权和同意。
可以看到,楼盘情报功能和读取发布资源的这个功能都是通过爬虫技术来实现的。该爬虫程序是温某某亲自编写的,采用动态代理IP的方式来规避网站对于IP访问频率的限制,从而爬取相关网站的房源数据,iHos所爬取的这些房源的照片、文字、VR影像,以及房源的户型、面积、售价等信息都是“贝壳找房”网站的线下经纪人联系业主去拍摄和收集的。

每天找房
“每天找房”是一个微信公众号,主要功能是查询房源的具体门牌号。使用者在“每天找房”上注册后输入小区名称、户型、面积、朝向等信息,点击搜索,就会反馈一批符合条件的房源,再点击其中的一个房源的查看结果,就会语音播报该房源的具体地址,包括楼栋号、单元号、门牌号,客户只要自行记录具体地址就行了。
实现这个功能,第一步需要通过“贝壳找房”的租房端口,在“我要出租房屋”的页面上利用爬虫程序不断地提交不同的房屋详细地址,提交上去之后,服务器就会返回一个数据包,数据包里面就包含了这个详细地址对应的house id,house id本身在前端是不展示的,但是通过fiddler工具查看数据包就能看到house id,之后把这些house id和详细地址的对应关系记录下来,形成了全量house id的字典。
第二步是通过“贝壳找房”的微信小程序端口,利用爬虫程序爬取需要查询的房源号对应的房源详情数据,这个数据包里面就包含了这个房源号对应的house id。当然这个house id同样在前端是不作展示的,也是用fiddler去看house id,之后用这个house id在字典中进行查询,就能够查询到这个房源的详细地址。
“贝壳找房”小程序端口有反爬虫策略,端口有签名算法,用来校验前端请求的合法性,如果不破解这个签名算法,爬虫就没有办法爬取到数据。
温某某破解贝壳小程序端口的校验算法是用网上一款叫做“小程序源代码查看器”的小工具,再结合了fiddler抓包工具抓取的数据,通过分析该数据包,在数据包中的一个js文档查看到了这个签名算法的逻辑,从而破解了这个签名算法。
他获取APPSECRET和校验算法之后,就把获取的APPSECRET和校验算法同样应用到了其“每天找房”服务器上面去了,这样“每天找房”的服务器就能够自动的去访问“贝壳找房”微信小程序端口,从而获取最终需要的数据。

通过这两个产品,X公司的业务做的风生水起,在全国各地都铺开了销售网络。
X公司服务的客户主要是房产中介,X的销售会找到房产中介,并通过线下交易的形式,面对面收款,然后协助对方开通产品会员。
一些小的房产中介公司通过这种方式来获取房源信息,能极大的减少公司运营成本。
不过温某某和贾某某曾专门和手下的销售人员千叮呤万嘱咐过,不允许把软件卖给贝壳的员工,包括链家系。

iHOS分为钻石版和精英版,大概的价格是钻石版240元/季度,400元/半年,精英版270元/季度,450元/半年。
温某某早些年在武汉新洲区××小区买了一套房子,花了52万元。后来估计挣得多了,2019年左右又在武汉洪山区买了一套房,花了160多万元,紧接着2020年7月份,在洪山区又买了一套112平方的写字楼,这些房产都是用iHOS的收入买的。(从武汉远城区换到主城区,日子确实越过越好了,如果没被抓,估计要搬到汉口二七滨江去)
而“每天找房”公众号带来的非法获利,据统计,至2021年9月案发时共计有2935254元。

判决情况

但世上哪有不透风的墙呢?
2020年8月,贝壳公司发现有人使用爬虫技术爬取“贝壳找房”网站上面的信息,11月份通过技术部门调查发现是x公司在爬取。
2021年3月又发现同样是X公司推出另外一款“每天找房”的微信公众号,这个公众号则是能够提供贝壳的上架房源的具体地址信息。
这下贝壳坐不住了,遂于2021年5月底报案,称x公司采用爬虫技术,通过破解UA认证、IP访问频率限制、验签算法的方式突破反爬措施,非法获取贝壳找房网站、微信公众号(服务器位于常州)上的房源信息、房屋详细地址信息,并将获取的数据出售获利。
接到报警后,常州市公安局武进分局新城派出所民警会同网安部门开展先期工作,并于同年8月3日对x公司进行立案侦查,同年9月24日,在该公司内将涉嫌犯非法获取计算机信息系统数据罪的温某某、贾某某等人抓获归案。
2023年7月7日经常州市公安局指定,该案由常州市公安局武进分局管辖,同年8月5日武进区人民法院按照刑事第一审程序对该案进行审判。



贝壳公司证词:
(1) X公司上架的房源信息以及所有的视频、照片等资源都是贝壳公司线下业务端的经纪人、工作人员自己去房子里面拍照、录像、收集的,这些信息都是公司付出劳动采集而来的,是属于公司所有的商业数据。房源详细地址更是公司的核心保密数据,公司内部都没有向员工开放全量的房源详细地址查询权限。
(2) 普通用户通过客户端来正常查看房源是看不到house id的,但使用抓包等手段来绕过客户端来获取数据本身就是非法的黑客行为,使用爬虫技术批量获取并形成字典对贝壳公司的数据安全产生了危害。
(3) 房源数据泄露直接威胁到了公司的核心业务,会很容易被其他中介将房屋交易抢走,另一方面这也是对客户信息的泄露,直接影响了公司在客户当中的声誉,很多客户认为是其公司将房屋具体地址泄露出去的,造成了潜在的客户流失;
(4) 网站被爬取数据造成了流量费用、服务器负载等损失,公司服务器带宽都是和腾讯云合作的,费用按照流量来计费,一直是64元/G,总共给公司造成的流量损失为16000多元。
(5) “贝壳找房”网站有反爬虫措施:
1.IP高频限制,60秒内访问频率超过120次,就会判定这个IP访问异常,就不允许这个IP继续访问了。
2.异常UA限制,若用户的UA中包含spider、python、urllib、colly这些字段的,就会直接判定成是异常UA。
3.异常UUID限制,同一个UUID访问频率超过100次/分钟就会判定是异常访问,就不允许这个UUID继续访问了。
而突破反爬措施来获取数据的行为是非法的。
(6) 贝壳公司的网站布署了robots协议,同时其公司在《贝壳用户服务协议》里也有禁止使用爬虫技术爬取公司数据进行商业活动的相关条款。
(7) 因为iHOS和“每天找房”这两个软件导致了贝壳公司房源流失,无法获取中介费用,这个损失保守估计在5个亿左右。

经过审查,原审人民法院认为,被告人温某某、贾某某违反国家规定,侵入计算机信息系统、采用其他技术手段获取计算机信息系统中存储的数据,其行为均已构成非法获取计算机信息系统数据罪,情节特别严重。
被告人贾某某在审理过程中能自愿认罪认罚,依法可以从宽处理;积极退赃并取得被害单位谅解,可酌情从轻处罚。遂依法以犯非法获取计算机信息系统数据罪,分别判处:
• 被告人温某某有期徒刑三年六个月,并处罚金人民币二十万元;
• 被告人贾某某有期徒刑三年,缓刑四年,并处罚金人民币二十万元;
被告人贾某某已退违法所得予以没收,上缴国库;
被告人温某某、贾某某尚未退出的违法所得人民币2085254元予以继续追缴。


一审判决出来后,温某某和贾某某不服,提起上诉。
温某某上诉认为原审判决事实认定错误:
(1)将不显示单元门牌号混淆为保护信息;
(2)将房屋源代码不直观显示具体位置,混淆为houseID数据不公开;
(3)将验签算法、代理IP、设置UA等方式错误认定为突破贝壳公司的反爬取策略,并将上诉人通过爬虫程序获取的贝壳公司源代码数据,错误认定为侵入计算机系统获取数据的行为。
因此温某某希望能改判自己无罪或发回重审。
而贾某某对原审判决认定的事实和证据均无异议,但认为判罚数额过高,希望二审法院能够重判。(在一审审理期间,贾某某自愿认罪认罚,已退出违法所得人民币85万元,且已赔偿贝壳北京公司人民币15万元,并取得了谅解。)
法院认为,原审被告所爬取的数据虽为贝壳公司网站上的公开数据,但这些房源数据贝壳公司仅向符合条件的正常用户反馈,而上诉人及原审被告人采用代理IP、设置UA及破解验签算法的方式,突破贝壳公司的反爬措施,使该公司后台误以为是正常用户而批量反馈相关房源数据,上诉人及原审被告人在利用爬虫技术爬取贝壳公司服务器中存储的海量房源数据后,再与已建立的楼盘字典进行比对,解析出房源数据对应的具体房号,向非贝壳、链家公司旗下的中介从业人员提供信息,从中获取利益。此行为已构成非法获取计算机信息系统数据罪。
因此上诉所提不构成犯罪的上诉理由和辩解意见不能成立,法院不予采纳。
原审判决认定的事实清楚,证据确实、充分,适用法律准确,量刑适当,审判程序合法。据此,依照《中华人民共和国刑事诉讼法》第二百三十六条第一款第(一)项之规定,裁定如下:
驳回上诉,维持原判。(本裁定为终审裁定)

相关法条

第二百八十五条 非法获取计算机信息系统数据罪
非法获取计算机信息系统数据罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。
情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

K言K语

本案裁定书:(2023)苏04刑终240号
原文书近4万字,里边比较详细的介绍了被告如何爬取贝壳平台数据的过程以及相应的技术手段,感兴趣的兄弟可以去裁判文书网自行查阅。
从业十余年最终还是吃了牢饭,不知道是幸运还是可惜。技术好经验多有啥用呢,不遵纪守法,把自己的利益建立在损害它人利益之上,出事只是迟早得问题。
所以大家平时在干活之前,先想一想,自己的行为会不会对爬取对象造成不良影响,影响大不大,对方找自己容不容易,凡事多想一步,总是不会错的。
以案为鉴,望诸君共勉之。
你可能喜欢
01-17
2023年01月17日18时 国内最新http/https免费代理IP
2023-01-17
10-20
2021年10月20日18时 国内最新http/https免费代理IP
2021-10-20
金秋·IP嘉年华 免费试用
联系我们 联系我们
快代理小程序

快代理小程序

在线咨询 客服热线