Pythonscrapy增量爬取实例及实现过程解析-创新互联
这篇文章主要介绍了Python scrapy增量爬取实例及实现过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
成都创新互联公司凭借专业的设计团队扎实的技术支持、优质高效的服务意识和丰厚的资源优势,提供专业的网站策划、成都网站制作、成都做网站、外贸营销网站建设、网站优化、软件开发、网站改版等服务,在成都10余年的网站建设设计经验,为成都上1000+中小型企业策划设计了网站。开始接触爬虫的时候还是初学Python的那会,用的还是request、bs4、pandas,再后面接触scrapy做个一两个爬虫,觉得还是框架好,可惜都没有记录都忘记了,现在做推荐系统需要爬取一定的文章,所以又把scrapy捡起来。趁着这次机会做一个记录。
目录如下:
- 环境
- 本地窗口调试命令
- 工程目录
- xpath选择器
- 一个简单的增量爬虫示例
- 配置介绍
环境
自己的环境下安装scrapy肯定用anaconda(再次强调anaconda的优越性
本地窗口调试与运行
开发的时候可以利用scrapy自带的调试功能进行模拟请求,这样request、response都会与后面代码保持一样。
# 测试请求某网站 scrapy shell URL # 设置请求头 scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0" URL # 指定爬虫内容输出文件格式(json、csv等 scrapy crawl SPIDER_NAME -o FILE_NAME.csv # 创建爬虫工程 scrapy startproject articles # 在当前目录创建一个scrapy工程
另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站名称:Pythonscrapy增量爬取实例及实现过程解析-创新互联
网页地址:http://hbruida.cn/article/gcipo.html