All About Programming: Nodejs，不一样的爬虫实践--花满楼

Nodejs，不一样的爬虫实践--花满楼

做前端以来，对我成长帮助最大的恐怕也就是各位大侠们的博客了，，慢慢的也在我心里种下了颗种子：我也要写博客！哪怕我文笔差，技术菜，难以望其项背，我也要追随大神们的脚步，写写博客，处处留香。摸爬滚打，终是成长；学习分享，与君共勉！小前端初学Nodejs，搭了个简单的博客，捉襟见肘，望大侠路过指导！好了，此处有广告之嫌，进入正题。

关于Nodejs的爬虫程序，百度一大把，是的，我也是百度到的，然后到github上看了看cheerio模块；乍一看，这不就是Jquery嘛，没想到Jquery都能牛到后端操作DOM了啊，恩。。。可以先这么认为和理解吧，因为cheerio确实可以像jquery操作DOM一样操作从远程爬取过来的页面；顿时邪念四起：我要把我喜欢的博客全抓到我的博客站点上去、我要不翻墙而是把谷歌抓过来访问。。。然后就有了我博客上的"爬呀爬"版块，都是爬取的国内顶尖的前端团队呕心沥血写的博客，，保留了作者信息和版权，当然，如果他们看到了，骂我一顿，叫我删掉，我肯定会屁颠屁颠删掉的；

还有就是怎么通过我的站点访问谷歌了，比如：http://www.famanoder.com?url=http://google.com的请求，我res.send(googleBody);恩，这样是可以的，可是问题在于：相对路径的资源返回404了，因为相对路径域名取的是我的站点，而我的站点没有对应的目录和资源，自然404了；这时cheerio可就很有用了，在res.send之前可以对body进行些DOM操作啊，貌似有点复杂啊，我正则还不行。。。为了让爬取过来的谷歌可以点击，链接没有404，还需要做一步，就是通过cheerio将所有相对路径补上http://www.famanoder.com?url=http://google.com，绝对路径补上http://www.famanoder.com?url=来将爬取的目标站点所有资源都通过我的博客站点请求；

Read full article from Nodejs，不一样的爬虫实践--花满楼

Nodejs，不一样的爬虫实践--花满楼

No comments:

Post a Comment

Labels

Popular Posts