用Nodejs做一个简单的小爬虫-创新互联

Nodejs将JavaScript语言带到了服务器端，作为js主力用户的前端们，因此获得了服务器端的开发能力，但除了用express搭建一个博客外，还有什么好玩的项目可以做呢？不如就做一个网络爬虫吧。据说互联网上的流量90%以上都是爬虫贡献的，不知道真假，但起码证明了，爬虫是一种用途广泛的东西，尤其在电商比价领域，整个就是爬虫的技术较量，当然我要做的是爬虫中的弱鸡，只实现基本功能，先上源码。

清河门网站制作公司哪家好，找创新互联建站！从网页设计、网站建设、微信开发、APP开发、自适应网站建设等网站项目制作，到程序开发，运营维护。创新互联建站从2013年成立到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选创新互联建站。

下面简述一下实现过程。首先挑选爬取对象，这里选择的也是门槛比较低的新闻站cnBeta.com，因为每天上午都要去逛一逛，比较熟悉，为什么说新闻站比较简单呢，因为通常这类网站不要求用户登录，所有爬虫的请求很容易伪造。

爬虫的基本思路是，获取页面->构造信息选择器->分析页面链接->获取相邻页面->循环第一步，对于新闻站来说，我们要获取的就是新闻内容啦，请求到页面html代码后，只要从页面中找到内容容器元素就很容易获取到新闻内容，下一步是获取相邻页面的地址，cnBeta新闻是有上一页下一页链接的，但仔细观察会发现其实使用js动态生成的，这里需要找出js是如何获取到链接的，拿到链接我们就继续获取下一篇新闻的html代码，周而复始。

期间肯定不会一帆风顺，比如就遇到了301跳转，好在从请求头中很容易找到了跳转目标，发现301跳转后立即放弃请求重新请求跳转地址就好了。

另外，爬虫不能无限制的爬取，否则很容易被封IP，需要设置一个爬取条数的限制。最好再做一个爬取间隔的设置，但这里只用作学习Nodejs，不会大量的爬取，因此也就没必要做爬取间隔了。

详细的分析过程见另一篇文章：http://refined-x.com/2017/06/09/Nodejs%E7%88%AC%E8%99%AB%E5%AE%9E%E8%B7%B5%E5%B0%8F%E8%AE%B0/。

另外有需要云服务器可以了解下创新互联scvps.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

本文名称：用Nodejs做一个简单的小爬虫-创新互联
浏览路径：http://hbruida.cn/article/deeogo.html

用Nodejs做一个简单的小爬虫-创新互联

其他资讯