Python爬虫运用正则表达式的方法和优缺点-创新互联
前言
成都创新互联是一家专注于网站制作、网站建设与策划设计,公安网站建设哪家好?成都创新互联做网站,专注于网站建设十多年,网设计领域的专业建站公司;建站业务涵盖:公安等地区。公安做网站价格咨询:13518219792我看到最近几部电影很火,查了一下猫眼电影上的数据,发现还有个榜单,里面有各种经典和热映电影的排行榜,然后我觉得电影封面图还挺好看的,想着一张一张下载真是费时费力,于是突发奇想,好像可以用一下最近学的东西实现我的需求,学习了正则表达式之后,想着要感受一下它在爬虫里面的效果和优缺点。
目标:爬取Top100榜单上电影的封面图
Top100榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼电影库”。
下面是我做的步骤:
(1)查看页面元素,找到包含图片的路径的代码段落
(2)分析图片在web上面的唯一属性,便于之后获取正确图片位置信息
(3)因为需要翻页,观察多个页面的URL变化
(4)综合以上几个点,编写合适的正则表达式
1、python 标准库中re模块提供了正则表达式的全部功能,直接引入;requests模块是http库,爬虫常用库,而urllib.requests 则是最后用到写入文件的函数
import re import requests import urllib.request
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
本文题目:Python爬虫运用正则表达式的方法和优缺点-创新互联
URL分享:http://hbruida.cn/article/dhjdio.html