Python异步加载怎么爬取图片

这篇文章主要讲解了“Python异步加载怎么爬取图片”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python异步加载怎么爬取图片”吧！

创新互联建站秉承专业、诚信、服务、进取的价值观，坚持以客户为中心、客户至上的服务理念，以“关注企业需求，实现企业价值”为导向，努力为企业提供全面优质的互联网应用服务。服务包括空间域名、雅安服务器托管、企业邮箱、网站建设、网站优化、网络营销解决方案和咨询服务，以帮助企业客户应用互联网。

何为异步加载？

想理解异步加载技术，先要知道传统的网页是如何加载的，首先，传统的网页更新内容需要对整个页面进行刷新更新，资源浪费较大，但是现在常用的异步加载技术（AJAX：JavaScript和XML）指的就是一种交互式网页应用技术，如没有翻页，一致下滑可以不断更新网页部分数据信息，同时当前网页基础框架和网址等信息都不变指的就是异步加载技术，大大的节约了网络资源。

还有一种判断是否使用了异步加载的方法，就是通过查看数据是否在网页源代码中。

使用了异步加载的网页后，网页中的内容在HTML中是找不到文本信息的，这时候通过常规三大爬取库是抓不到信息的，因此需要逆向去寻找推导出来网页是如何加载数据的过程，这个过程就叫做逆向工程。

如何实现逆向工程？

Python异步加载怎么爬取图片

以Pexels网站为例，我们来看一下如何实现逆向工程：

打卡Chrome浏览器对应Pexels网站，右键检查，打开网页源代码，选择Network选项卡。
继续手动下滑网页，会发现XHR文件在不断加载更新，通过上图红框可以发现在固定变化的URL

https://www.pexels.com/search/book/?format=js&seed=&page=2&type=

https://www.pexels.com/search/book/?format=js&seed=&page=3&type=

https://www.pexels.com/search/book/?format=js&seed=&page=4&type=

尝试删除上述URL中的部分，得到

https://www.pexels.com/search/book/? page=2发现也可以返回正常的网页

Python异步加载怎么爬取图片

这样就逆向推导出来了真实的网页URL，也知道了网页的变化规律，可以开始进行数据爬取了。

由于Pexels图片网站设置了比较严格的反扒机制，后续我们来讲如何破解，我们用hippopx图片网站来进行实践练习，此网站也有大量精美免费无版权图片，大家可尝试看看。

详细代码如下：

import requestsfrom lxml import etreeimport osheaders={"accept": "xxxx","cookie": "xxxx","User-Agent": "xxxx","referer": "xxxx"}list=[]file='存储路径'url='https://www.hippopx.com/'html=requests.get(url,headers=headers)selector=etree.HTML(html.text)imgs=selector.xpath('//*[@id="flow"]/li/figure/a/img')for img in imgs:   photo=img.get('src')   list.append(photo)for item in list:   print(item)   data=requests.get(item,headers=headers)   fp= open(file+'/'+item.split('/')[-1],'wb')   fp.write(data.content)   fp.close()

运行结果如下：

Python异步加载怎么爬取图片

存储图片如下：

Python异步加载怎么爬取图片

感谢各位的阅读，以上就是“Python异步加载怎么爬取图片”的内容了，经过本文的学习后，相信大家对Python异步加载怎么爬取图片这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是创新互联，小编将为大家推送更多相关知识点的文章，欢迎关注！

本文题目：Python异步加载怎么爬取图片
标题来源：http://hbruida.cn/article/jocegc.html

Python异步加载怎么爬取图片

其他资讯