主机论坛_虚拟主机_美国主机_美国虚拟主机_云主机技术_全球主机交流聚集地—Web Hosting Talk 中文站

找回密码
立即注册
发新帖

0

收听

3

听众

8

主题
发表于 2015-10-16 09:34:16 | 查看: 1004| 回复: 5

求推荐抓取整个网站的神器软件或是提供这种服务的公司?

我的网站网页大概有3000多页,我们想部署一个新的缓存系统。

为了把所有网页都缓存起来,每个网页都得要激活,所以要是有那种模仿浏览器进行抓取的服务就好了。

我知道SEOMoz有,不过他们家的报价太贵了,而且还有限制。

求推荐啊。

收藏回复 显示全部楼层 道具 举报

发表于 2015-10-16 09:35:35
递归模式下,wget就能实现整个网站的抓取啊。不过得小心设置,保证你抓取的是你自己的网站。

从主页开始抓取,然后再把各个子网页抓取起来。

如果你真的想弄点花样什么的,那就在服务器上抓取,然后设定成只显示结果的那种就好了。

回复 显示全部楼层 道具 举报

发表于 2015-10-16 09:36:50
要是你能自己编程的话,那你可以做一个perl程序,然后用 LWP::UserAgent对你网站上所有的链接进行追踪,从主页开始。而且这个编程要编辑的句法应该50句还不到。
我以前就是用的这个方法,用了好多次了。只要你你的网站不需要跟javascript进行交互才能用这个网站,那这个方法就是非常灵活滴。

回复 显示全部楼层 道具 举报

发表于 2015-10-16 09:39:29
我又回来了,因为又要抓取我的网站了。上次我就是用的googlemap抓取软件,结果用了一段时间就没戏了。

楼上各位给的方案我不知道做不做得来。如有其它建议,或是有谁能给我解释一下二楼说的wget方法具体怎么弄的话,不胜感激。

回复 显示全部楼层 道具 举报

发表于 2015-10-16 09:41:19
我用的是linklicious的抓取服务,来抓取和索引我的网页。而且我还用他们的服务来索引我网站的外链呢。

回复 显示全部楼层 道具 举报

发表于 2015-10-16 09:42:16
可以试试Sphider,这是一个搜索引擎脚本,用这个脚本程序搜一下你的网站就好啦。

回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|WebHostingTalk中文站

GMT+8, 2024-5-4 19:57 , Processed in 0.067682 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2024, Tencent Cloud.

快速回复 返回顶部 返回列表