0532-88983785 0532-68613670
青岛网站建设|青岛网站优化|青岛微信开发|青岛网站制作

青岛网站优化之利用爬虫技术检测网页

时间:2016-07-07 13:01 来源:http://www.seo1158.com 作者:admin 点击:3542次

在SEO工作过程中,由于项目过多,难免会有些遗漏或错误,可能这个页面忘了填写标题,那个页面没设置关键字或描述。但是逐个翻看每个页面来检查费工又费时,有什么办法能够提高效率和正确率呢?

像爱站、站长工具等都只能针对单个页面来提取网页的信息,不能整站进行抓取验证。

其实我们可以使用非常成熟的爬虫技术来辅助我们的工作。

下面介绍一款叫做神箭手的网络爬虫工具,只需要编写简单的脚本就能抓取所需要监控的信息。所使用到的脚本如下所示:

var configs = {

    domains: ["www.abc.com"],

    scanUrls: ["http://www.abc.com/index.html"],

    contentUrlRegexes: [],

    helperUrlRegexes: [], //可留空

    enableProxy: true,

    interval: 1000,

    fields: [

        {

            // 其他抽取项

            name: "title",

            selector: "//head/title/text()"

        },{

            // 其他抽取项

            name: "keywords",

            selector: "//head/meta[contains(@name,'keywords')]/@content"

        },{

            // 其他抽取项

            name: "description",

            selector: "//head/meta[contains(@name,'description')]/@content"

        }

    ]

};

var crawler = new Crawler(configs);

crawler.start();

上述脚本能抓取从"http://www.abc.com/index.html"页面作为入口能扫描到的所有链接页面的标题、关键字和描述信息。

除此之外,您还可以增加更多自动化的检测。因为神箭手网络爬虫支持网页信息抓取之后的回调处理,所以可以增加数据处理的函数,针对抓取回来的数据做进一步的处理。



  迅优网络是一家专注于网站优化网站建设网站设计网站制作微信开发的互联网科技公司。我们的SEO和SEM工程师针对客户的网站及行业现状等进行深度分析,帮助很多客户提升了网站排名并完成了互联网全平台的推广,为客户节省了大笔费用,同时提升了品牌形象、提高了转化率。
(责任编辑:admin)
网站优化SEO

0532-88983785 / 0532-68613670

我要优化网站