全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

IP归属甄别会员请立即修改密码
查看: 633|回复: 7
打印 上一主题 下一主题

有没有爬虫大佬讲讲现在的pixiv怎么爬?

[复制链接]
跳转到指定楼层
1#
发表于 2021-12-21 22:19:32 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 mikasa 于 2021-12-21 22:21 编辑

reqeusts第一次获取到的只有页面的页首,就像下图这样。body部分好像是由某段js再加载的,我不太懂这个,有大佬能解答一下怎么爬吗?
推荐
发表于 2021-12-21 22:36:22 | 只看该作者
mikasa 发表于 2021-12-21 22:28
感谢,我试试。另外抓接口是什么意思啊,能举例说明一下吗

JS 动态加载网页的基本原理就是:
先渲染基本网页框架,
然后通过接口获取主体内容数据(一般是数组或 JSON),
根据获取的数据动态生成相应的元素并插入到网页中。

你 F12 键,选择 Network,然后按 F5 键刷新,把所有链接数据都看一遍,找到那个获取主体内容数据的链接,分析链接组成(GET/POST)以及数据内容。
2#
发表于 2021-12-21 22:20:53 | 只看该作者
那当然是模拟加载出来后再爬啦,这个比较简单,要么就是 F12 抓接口~
3#
发表于 2021-12-21 22:25:28 | 只看该作者
模拟浏览器加载
4#
 楼主| 发表于 2021-12-21 22:28:00 | 只看该作者
本帖最后由 mikasa 于 2021-12-21 22:29 编辑
G.K.D 发表于 2021-12-21 22:20
那当然是模拟加载出来后再爬啦,这个比较简单,要么就是 F12 抓接口~


感谢,我试试。另外抓接口是什么意思啊,能举例说明一下吗
5#
发表于 2021-12-21 22:32:07 来自手机 | 只看该作者
本帖最后由 Sooele 于 2021-12-21 22:35 编辑

网页内容如果是js动态加载,只能抓js接口,抓页面没用。
7#
 楼主| 发表于 2021-12-21 22:46:52 | 只看该作者
G.K.D 发表于 2021-12-21 22:36
JS 动态加载网页的基本原理就是:
先渲染基本网页框架,
然后通过接口获取主体内容数据(一般是数组或 JS ...

十分感谢大佬的耐心解答
8#
发表于 2021-12-21 22:54:10 | 只看该作者
用 selenium
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-14 09:26 , Processed in 0.060870 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表