全球主机交流论坛

标题: 有没有爬虫大佬讲讲现在的pixiv怎么爬? [打印本页]

作者: mikasa    时间: 2021-12-21 22:19
标题: 有没有爬虫大佬讲讲现在的pixiv怎么爬?
本帖最后由 mikasa 于 2021-12-21 22:21 编辑

reqeusts第一次获取到的只有页面的页首,就像下图这样。body部分好像是由某段js再加载的,我不太懂这个,有大佬能解答一下怎么爬吗?

作者: G.K.D    时间: 2021-12-21 22:20
那当然是模拟加载出来后再爬啦,这个比较简单,要么就是 F12 抓接口~
作者: 喵酱暗恋我    时间: 2021-12-21 22:25
模拟浏览器加载
作者: mikasa    时间: 2021-12-21 22:28
本帖最后由 mikasa 于 2021-12-21 22:29 编辑
喵酱暗恋我 发表于 2021-12-21 22:20
模拟浏览器加载
G.K.D 发表于 2021-12-21 22:20
那当然是模拟加载出来后再爬啦,这个比较简单,要么就是 F12 抓接口~


感谢,我试试。另外抓接口是什么意思啊,能举例说明一下吗
作者: Sooele    时间: 2021-12-21 22:32
本帖最后由 Sooele 于 2021-12-21 22:35 编辑

网页内容如果是js动态加载,只能抓js接口,抓页面没用。
作者: G.K.D    时间: 2021-12-21 22:36
mikasa 发表于 2021-12-21 22:28
感谢,我试试。另外抓接口是什么意思啊,能举例说明一下吗

JS 动态加载网页的基本原理就是:
先渲染基本网页框架,
然后通过接口获取主体内容数据(一般是数组或 JSON),
根据获取的数据动态生成相应的元素并插入到网页中。

你 F12 键,选择 Network,然后按 F5 键刷新,把所有链接数据都看一遍,找到那个获取主体内容数据的链接,分析链接组成(GET/POST)以及数据内容。
作者: mikasa    时间: 2021-12-21 22:46
G.K.D 发表于 2021-12-21 22:36
JS 动态加载网页的基本原理就是:
先渲染基本网页框架,
然后通过接口获取主体内容数据(一般是数组或 JS ...

十分感谢大佬的耐心解答
作者: byg    时间: 2021-12-21 22:54
用 selenium




欢迎光临 全球主机交流论坛 (https://mjj.022333.xyz/) Powered by Discuz! X3.4