专栏丨当代“爬虫”现状( 二 )


12306验证码(图片来自网络)
2、水军势力——社交软件“爬虫”
小白:社交软件也有什么可“爬”的么?
大东:你想 , 如果我能随心所欲地指挥一帮机器人 , 打开某人的微博 , 然后刷到某一条 , 然后疯狂关注、点赞或者留言……
小白:噢!僵尸粉!
大东:你想这个场景:一个路人甲的微博没人关注 , 于是用大量的“爬虫”给自己做了十万人的僵尸粉 , 一群僵尸在我的微博下面点赞评论 , 不亦乐乎 。
小白:这有啥好乐的?
大东:接着 , 路人甲找到一个游戏厂商 , 跟他说:你看我有这么多粉丝 , 你在我这投广告吧 。 我帮你发一条游戏的注册链接 , 每有一个人通过我的链接注册了游戏 , 你就给我一毛钱 。 广告主说 , 不错 , 就这么办 。
小白:那他发的注册链接 , 也没人点啊 。
大东:路人甲不慌 , 又让十万“爬虫”继续前赴后继地点击注册链接 , 然后自动去完成注册动作 。
小白:哇 , 这不是骗钱呢嘛!
大东:我只是举了个例子 , 数据不一定和现实吻合 , 具体操作也会更复杂 。
小白:这种赚钱方式 , 太过分了!
大东:你再想象下这个场景:微博上经常有明星给粉丝发红包么 , 于是有人率十万僵尸粉去抢……
小白:难怪我每次打开都是“已抢完”啊!这些“爬虫”太过分啦!
3、购物“助手”——电商软件“爬虫”
大东:小白 , 你在网上购物是怎么挑选商品的呢?
小白:我就是在每个软件上搜索我要买的东西 , 然后一家一家对比 。
大东:作为老网购人了 , 你竟然不知道有种东西叫做“比价网站” 。
小白:还有这东西?
大东:在比价网站上 , 你搜索一样商品 , 这类聚合平台就会自动把各个电商的商品都放在你面前供你选择 , 基本各大购物网站都能囊括在内 。
小白:好东西呀 , 回头我试试!
大东:这就是“爬虫”的功劳 。 它们去各家电商软件上 , 把商品的图片和价格统统扒下来 , 然后在自己这里展示 。
小白:电商网站知道自己被“爬”了吗?
大东:当然知道 。 然而电商网站是拒绝的 , 但是很难阻止这类事情发生 。 由于“爬虫”是模拟普通用户的点击行为 , 电商网站通常难以辨别机器行为 , 甚至都不能使用复杂验证码 。
小白:是啊 , 如果每点开一个商品详情 , 就要做一次验证 , 还剁手呢 , 我都想剁了手机!不过为啥电商软件不喜欢被“爬”呢?
大东:对同一商品在单个电商软件内 , 它能决定哪个搜索结果排在前面 , 哪个在后面 。 但是如果用户一旦使用了比价平台 , 这个排名就失去了意义 , 电商软件就丧失了控制权 。
小白:也是 , 断人财路 , 难怪不受欢迎 。
三、“爬虫”合法吗?
小白:大东东你说了这么多 , 我有些疑惑了 , 难道爬虫一种违法行为么?
大东:这个问题还真的不简单 , 《网络安全法》里没有对“爬取网络公开信息被认定为违法”的条款 , 但是有条司法解释值得注意:“未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的 。 ”以上这些情况可以入刑 。
小白:这个我可得注意注意 , 别一不小心违法乱纪啦 。
大东:与被“爬”企业势不两立的爬虫 , 说白了 , 就是阻挡了对方的财路 。 企业也不会善罢甘休 , 经典的对抗方式 , 除了刚才说的验证码外 , 还有滑块验证、封禁 IP、给访问者增加一些加解密运算 , 耗费“爬虫”的程序资源等等 。
小白:各显神通的对抗啊 。
专栏丨当代“爬虫”现状文章插图
滑块验证(图片来自网络)