winspider的使用(3)

  • 订阅爬虫

    打开https://www.winspider.cn/spider/amz_reviews_us ,订阅该爬虫,写入pyspider后,更改爬虫的状态,然后点击Run

    winspider的使用(3) - 图1

  • 配置采集文件

    和上个教程一样,打开爬虫的配置文件夹,然后新建配置文件。

    winspider的使用(3) - 图2

  • 运行爬虫

    同样点击Run运行爬虫。
    在爬虫的配置文件夹里,我们发现刚才新建的配置采集文件没有被删除。在操作帮助里,可以看到“程序解析完该txt文件后,不会删除文件,而会重复采集您配置的文件”。

  • 解读爬虫的说明文档

    在我们使用一个爬虫前,需要仔细阅读爬虫的说明文档,看看这个爬虫是否大致满足自己的要求。下面向大家解释一下各名词的含义。

    • 采集字段

      说明了爬虫采集了哪些信息。

    • 触发频率

      表示了爬虫的触发频率。例如,您添加了一个配置文件,那么爬虫会在这个触发时间段里自动运行您的配置文件,而不需要您点击Run。这在本教程的爬虫事例里显得尤为重要,因为当你添加了配置文件后,您不需要每隔一段时间就点击Run,程序会帮您自动运行。

    • 任务(采集结果)有效期

      准确的来说是采集任务的有效期,说成采集结果可能更容易理解,您一定要理解这个名词的含义,否则您在使用过程中会产生各种疑虑。pyspider给出的解释如下图。

      winspider的使用(3) - 图3

      通俗来讲,您在早上8点产生了一个采集任务,系统成功的帮您采集了任务,采集任务的有效期为1小时,那么在8点至9点的时间段里,您如果有了相同的采集任务,系统都会自动放弃这个任务,以防止您在这个时间段里重复频繁的采集相同的网页。通常来说,一个采集任务对应一个采集结果(也不一定,但可以简单地这么理解),如果采集任务被放弃,那么它对应的采集结果也不会更新,因此采集结果的有效期也为1小时。

    • 操作帮助

      每个爬虫的操作可能不一样,主要体现在配置文件这一块,因此在你使用前一定要仔细的阅读操作帮助。