winspider的使用(3)
订阅爬虫
打开https://www.winspider.cn/spider/amz_reviews_us ,订阅该爬虫,
写入pyspider后,更改爬虫的状态,然后点击Run。
配置采集文件
和上个教程一样,打开爬虫的配置文件夹,然后新建配置文件。

运行爬虫
同样点击
Run运行爬虫。
在爬虫的配置文件夹里,我们发现刚才新建的配置采集文件没有被删除。在操作帮助里,可以看到“程序解析完该txt文件后,不会删除文件,而会重复采集您配置的文件”。解读爬虫的说明文档
在我们使用一个爬虫前,需要仔细阅读爬虫的说明文档,看看这个爬虫是否大致满足自己的要求。下面向大家解释一下各名词的含义。
采集字段
说明了爬虫采集了哪些信息。
触发频率
表示了爬虫的触发频率。例如,您添加了一个配置文件,那么爬虫会在这个触发时间段里自动运行您的配置文件,而不需要您点击
Run。这在本教程的爬虫事例里显得尤为重要,因为当你添加了配置文件后,您不需要每隔一段时间就点击Run,程序会帮您自动运行。任务(采集结果)有效期
准确的来说是采集任务的有效期,说成采集结果可能更容易理解,您一定要理解这个名词的含义,否则您在使用过程中会产生各种疑虑。pyspider给出的解释如下图。

通俗来讲,您在早上8点产生了一个采集任务,系统成功的帮您采集了任务,采集任务的有效期为1小时,那么在8点至9点的时间段里,您如果有了相同的采集任务,系统都会自动放弃这个任务,以防止您在这个时间段里重复频繁的采集相同的网页。通常来说,一个采集任务对应一个采集结果(也不一定,但可以简单地这么理解),如果采集任务被放弃,那么它对应的采集结果也不会更新,因此采集结果的有效期也为1小时。
操作帮助
每个爬虫的操作可能不一样,主要体现在配置文件这一块,因此在你使用前一定要仔细的阅读操作帮助。
