电话

020-88888888

爬虫最爱扒的50家网站:一份赤裸裸的《中国焦虑图鉴

2024-11-13 免费查案例的网站

  你可以简单地想象:每个爬虫都是你的★■■“分身★◆■”◆■。就像孙悟空拔了一撮汗毛■◆★,吹出一堆猴子一样。

  这就是爬虫的功劳。它们去淘宝上★■◆■★★,把胖次袜子杜蕾斯的图片和价格统统扒下来,然后在自己这里展示。

  爬虫是趋利的,它们永远会向有利益的地方爬行。而爬虫觉得有利益的地方◆★★■★◆,往往是我们不忍提及的隐痛★◆◆■。

  这里的代码其实指向了微博的一个接口■◆◆■■■。它可以用来获取某个人的微博列表、微博的状态、索引等等等等。

  2、你以为你在百度上搜索到的信息,真的是百度想让你看到的吗?(注意体会这句话的意思,不是日常黑百度)

  比如,谁被告过★◆★,哪家公司曾经被行政处罚■◆◆★,哪个人曾经进入了失信名单。这些信息综合起来★◆★◆■,可以用来做一个公司或者个人的信誉记录◆★■◆。

  当然,电商对抗爬虫有另外的方法■★■★,那就是“web 应用防火墙◆★”,简称 WAF。这个我们后面再单独说。

  正好在上周末,一位黑客盆友御风神秘兮兮地给我发来一份《中国爬虫图鉴》,这哥们在腾讯云鼎实验室主要负责加班,顺便和同事们开发了很多黑科技★■★。比如他们搞了一个威胁情报系统,号称能探测到全世界的★■◆■◆“爬虫”都在做什么。

  醒醒啊同学,雷锋叔叔已经走了很多年了。我随便给你说一下这种聚合电商平台的盈利模式★★■★:

  打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情★★,专门帮人识别验证码。那边抢票软件遇到了验证码★■◆■★★,系统就会自动把这些验证码传到叔叔阿姨面前■★◆■★,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去■◆■◆★。总共的过程用不了几秒时间◆◆■。

  但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得撸几万次。铁总并不觉得很开心■◆。这种就被定义为★◆★◆◆★“恶意爬虫”。(注意,抢票的你觉得开心没用,被扫描的网站觉得不开心,它就是恶意的◆■。)

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点★■★,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

  很多人可能都没坐过亚洲航空。这是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的旅游胜地,飞机上连矿泉水都得自费买,是丝穷X度假之首选。

  我打开中国网安第一《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。

  像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心■■◆■◆◆。这种就被定义为“善意爬虫★◆★■■■”★■◆◆。

  你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东,还有唯品会苏宁易购■■■◆★。

  再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以关注微博:@史中方枪枪,或者搜索微信◆■◆:shizhongst。

  我觉得◆★★,对这种战争一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别◆★■■,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。

  抱怨不会让这个世界变得更好■★■■■,你想生活在一个怎样的世界,就要用自己的双手去创造它。

  既然这样,那么我就派出爬虫,搜索某个特定的★★“关键词”,然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。这个过程就叫做 SEO(搜索引擎优化)。

  爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据★◆★◆■,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去■■。

  但是仔细看看,如果我只是用机器代替了人的手点击鼠标敲击键盘,接触的都是公开信息◆◆,并不触犯这些司法解释。(这只是我简单查询后的结果,不代表任何官方意见)

  就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫■★◆◆■。

  每年总有那么几天,幺哥会心情焦虑◆◆■,坐立不安,腰膝乏力◆■■■,湿身盗汗。那是因为◆★■◆■,他又要准备抢回家的火车票了★◆★■★◆。

  所以◆★■■★,理论上讲一旦大众点评对这些爬虫对抗出现松懈,就会有一些不三不四的店铺被“刷”到顶部。

  但是,对企业来说■◆■,爬虫却着实伤害了自己。有句话说:◆■■★■“主救自救者。★★”他们得组织“民兵■■■◆★★”自己保卫自己★■★◆。

  另外云鼎实验室的技术可以探测到全网的恶意威胁,还是挺酷的。他们还有其他的报告放出~

  我不知道技术是否有罪,我只知道,这些盘踞在我们广袤版图上数以十亿计的爬虫,无时无刻不在提醒着我们:

  亚航有规定,你拍下来半小时(具体时间记不清了)不付款票就自动回到票池,继续卖★◆■★。但是黄牛党们在爬虫脚本里写好了精确的时间,到了半小时,一毫秒都不多,他又把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用程序◆★,在亚航系统里放弃这张票■★★◆■◆,然后0.00001秒之后,就帮你用你的名字预定了这张票。

  为什么爬虫这么青睐亚航呢?因为它便宜。确切地说,因为它经常放出便宜的票★◆◆。

  2◆■★◆◆、我去找一个游戏厂商,跟他说:你看我有这么多粉丝◆◆,你在我这投广告吧。我帮你发一条游戏的注册链接,每有一个人通过我的链接注册了游戏■◆,你就给我一毛钱。广告主说★■■★■,不错,就这么办。

  况且这里还没有讨论◆◆■■,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?

  4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。

  未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条★◆★◆;未经授权读取用户运营商网站通线条;未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。

  在我看来,这场对抗爬虫的常规战眼看就要升级为◆★“智能战■★★★■”,而且战线会向云端转移■★。

  无数像幺哥一样的游子,他们奋斗在一个远离家乡的城市,为了让家人有更幸福的生活★★★■。正是他们难以买到过年回家车票的事实◆■■,才把 12306 推上了爬虫榜的第一名。

  1.大众点评毕竟是最好的点评网站。很多网站都会爬取大众点评的数据,用来丰富自己的信息★■★。

  看到最后■◆,我发现这哪里是《中国爬虫图鉴》,这分明是一份《中国焦虑图鉴》◆■★■。

  在中国★★■◆■◆,我们的信用体系还很不完善,骗子和老赖还可以继续蒙骗新人■◆■。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。

  你回忆一下,有几种东西叫做“比价平台”“聚合电商”和“返利平台”◆★。他们大体都是一个原理:

  1◆★■■■■.假设几家店铺都卖杜蕾斯,但是用户在我这里搜索“杜蕾斯★■◆★◆”的时候,我是有权利决定谁的店铺在前面谁在后面的啊。谁给的钱多,我就让谁在搜索的前面呗。@百度君,你说说是不是这个道理?(注意,每个店铺和淘宝平台可不是一致行动人。淘宝平台不希望自己的内容被聚合平台抓取■★,但每个店铺可是很乐意多一个渠道帮他们卖货的。)

  你可能了解,搜索引擎决定哪个网页排名靠前,(除了广告以外)主要一个指标就是看哪个搜索结果被人点击的次数更多★◆◆■■。

  这也就解释了为什么有时我们★◆“众里寻他千百度■★◆◆★”◆★◆,蓦然回首,却看到“有人正在脱裤裤■★◆”了。

  除了刚才这些小模块,企业还可以通过 WAF(Web 应用防火墙)来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求★◆★。

  抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票★◆◆■◆。一旦发现有票,就马上拍下来,然后对你喊:土豪块来付款。

  幺哥家在湖南,离北京上千公里。他是家里的独子,每年买到火车票准时出现在家门口是他的“义务”。

  这两年,他的救命稻草是一个叫做◆■■■“智行火车票”的抢票软件。他在打折的时候买了会员。据说会员是有特权的:哪怕只抢到一张票,都会优先给他◆■■。(起码幺哥是这样安慰自己的。)

  出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89◆◆■.02%的流量都是冲着 12306 去的★★◆■■◆。这不意外★■,全中国卖火车票的独此一家别无分号。

  1、你以为你在大众点评上找到的馆子,真的是几百个人给了好评,然后才出现在你的推荐里的吗?

  当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是◆◆“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长★■◆,12306 系统里的图片就被标记完了★◆◆★★,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。

  尤其是很多赌博、黄色网站,搜索引擎如果敢收广告费让他们排到前面,那就离倒闭不远了。所以黄赌毒网站只能利用黑色 SEO◆★■◆,强行把自己刷到前面■★■■。直到被搜索引擎发现,赶紧对它们“降权”处理。不过御风算了算,这些黄色网站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。

  我们的医疗改革在进行,但像你我一样的普通人仍然看病难,看病贵。又便宜又好的医疗资源需要争夺★◆◆■,这才有了“一号难求”的现实,才有了黄牛用爬虫拼命抢号的现象。

  他们把四川省各个地区的招标情况汇总起来,然后实时提醒那些房地产公司:别睡了,起来投标了■◆★★★。

  你知道每年过年之前◆■◆,12306 被点成什么样了吗?公开数据是这么说的:★★“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次◆★★■★。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。

  本来,亚航的初衷只是随机放出一些便宜的票来吸引游客■■◆★★,但这里面黄牛党是有利可图的。

  1■★★■、我是一个路人甲,我的微博没人关注,我用大量的爬虫■■◆■★◆,给自己做了十万人的僵尸粉★★,一群僵尸在我的微博下面点赞评论,不亦乐乎。

  然鹅■◆■★■◆,由于机器爬虫模拟的是人的点击,电商很难阻止这类事情发生■★★■。他们甚至都不能向12306学习。你想想看,如果你每点开一个商品详情,淘宝都让你先分辨一次白百何和王珞丹,你肯定没心情剁手,没准还要提刀去剁马云呢。。。

  技术宅黄牛党们利用爬虫,不断刷新亚航的票务接口■◆■◆,一旦出现便宜的票,不管三七二十一先拍下来再说。

  2.如果你觉得搞竞价排名良心会痛,也可以用更简单的方式——在网页上展示独立的广告。访问你网站的用户,看到页面上的广告★◆★,也有可能会点击。每点击一次,你就赚一次钱。

  3◆■◆■■.你还可以作为中间商★◆★◆■■,收点中介费。我帮你店家卖货了,你是不是要给我意思意思。除了给我意思意思■◆◆★■★,你还得给来买东西的用户意思意思◆★■■■。这种套路◆★■,就是◆◆■★★“返利网”这类平台的玩法。

  你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条◆★◆■,然后疯狂关注、点赞或者留言◆◆★★◆,这不就是标准的僵尸粉上班儿的流程么。。■★◆。

  从技术上说,幺哥的救命稻草不是抢票软件,而是抢票软件背后,无数个叫做“爬虫■◆★”的东西★■■。

  不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫★★★◆。但是我相信,在对抗中这条战线会达到一个精妙的平衡。这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。

  比如腾讯云的 WAF,听说最近就要通过人工智能的方法来识别爬虫。这里就不帮他们打广告了◆◆■★■★。还有很多其他的云安全厂商,也开始主推反爬虫的技术◆★■◆◆。

  你每天使用的百度★◆★■◆★,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。

  企业经典的对抗方式■★★,大概有几种★★★:图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等。★■★。■★◆■。

  2.很多刚上点评的商户,信誉值不高,可以用爬虫来模拟留言、点赞,刷高自己的信誉值。