提供Discuz ,ECShop ,PHPCMS ,帝国CMS ,CSS教程 ,PHP教程 ,DedeCMS ,WordPress ,HTML教程等cms问题查询.
当前位置: PHP问题 > php能做爬虫吗【php问题】,php

phpspider一款优异的PHP开辟蜘蛛爬虫

编写PHP收集爬虫,须要具有以下妙技:

爬虫采纳PHP编写(引荐进修:PHP视频教程)

从网页中抽取数据须要用XPath ( XPath选择器教程 )

固然我们还可以运用CSS选择器 ( CSS选择器教程 )

许多情况下都邑用到正则表达式 ( 正则表达式教程 )

Chrome的开辟者东西是神器, 许多AJAX要求须要用它来剖析

注重:本框架只能在命令行下运转,命令行、命令行、命令行,主要的事变说三遍 ^_^

本篇写的demo是爬取军事教诲网站

<?php
require_once __DIR__ . '/../autoloader.php';
use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段解释 */

$configs = array(
    'name' => '军事', // 给你的爬虫起一个名字
    'log_show' => false, // 是不是显现日记
    'tasknum' => 1, // 开启多少个历程爬取
    // 数据库设置
    'db_config' => array(
        'host'  => '127.0.0.1',
        'port'  => 3306,
        'user'  => 'root',
        'pass'  => 'root',
        'name'  => 'collection',
    ),
    // 数据库表,表须要已存在,collection库,test表
    'export' => array(
        'type' => 'db',
        'table' => 'test',
    ),
    // 爬取的域名列表
    'domains' => array(
        'war.163.com'
    ),
    // 抓取的出发点
    'scan_urls' => array(
        'http://war.163.com'
    ),
    // 列表页实例,你要爬取的列表,也就是分页
    'list_url_regexes' => array(
        "http://war.163.com"
    ),
    // 内容页实例,文章的内容页
    // \d+ 指的是变量,就是可变的参数
    'content_url_regexes' => array(
        "http://war.163.com/photoview/4T8E0001/\d+",
    ),
    // 失利从新爬取次数
    'max_try' => 5,
    // 爬取划定规矩设置
    'fields' => array(
        array(
            'name' => "title", // 数据库字段名
            'selector' => "//div[@class='headline']/h1", // 划定规矩,示意:headline类里的h1标签
            'required' => true, // 假如为空,整条数据抛弃
        ),
        array(
            'name' => "content",
            'selector' => "//div[@class='overview']/p",
            'required' => true,
        ),
        array(
            'name' => "img",
            'selector' => "//img[@class='firstPreload']",
            'required' => true,
        ),
    ),
);

$spider = new phpspider($configs);
$spider->start();

以上就是php能做爬虫吗的细致内容,更多请关注ki4网别的相干文章!

「梦想一旦被付诸行动,就会变得神圣,如果觉得我的文章对您有用,请帮助本站成长」

分享到:
赞(0) 打赏

支付宝扫一扫打赏

微信扫一扫打赏

标签:

上一篇:

下一篇:

相关推荐

0 条评论关于"php能做爬虫吗【php问题】,php"

最新评论

    暂无留言哦~~

博客简介

看古风美女插画Cos小姐姐,素材合集图集打包下载:炫龙网,好看二次元插画应有尽有,唯美小姐姐等你来。

友情链接

他们同样是一群网虫,却不是每天泡在网上游走在淘宝和网游之间、刷着本来就快要透支的信用卡。他们或许没有踏出国门一步,但同学却不局限在一国一校,而是遍及全球!申请交换友链

服务热线:
 

 QQ在线交流

 旺旺在线