scrapy/tests/spiders.py

"""
Some spiders used for testing and benchmarking
"""

import time
from six.moves.urllib.parse import urlencode

from scrapy.spider import Spider
from scrapy.http import Request
from scrapy.item import Item
from scrapy.linkextractors import LinkExtractor


class MetaSpider(Spider):

    name = 'meta'

    def __init__(self, *args, **kwargs):
        super(MetaSpider, self).__init__(*args, **kwargs)
        self.meta = {}

    def closed(self, reason):
        self.meta['close_reason'] = reason


class FollowAllSpider(MetaSpider):

    name = 'follow'
    link_extractor = LinkExtractor()

    def __init__(self, total=10, show=20, order="rand", maxlatency=0.0, *args, **kwargs):
        super(FollowAllSpider, self).__init__(*args, **kwargs)
        self.urls_visited = []
        self.times = []
        qargs = {'total': total, 'show': show, 'order': order, 'maxlatency': maxlatency}
        url = "http://localhost:8998/follow?%s" % urlencode(qargs, doseq=1)
        self.start_urls = [url]

    def parse(self, response):
        self.urls_visited.append(response.url)
        self.times.append(time.time())
        for link in self.link_extractor.extract_links(response):
            yield Request(link.url, callback=self.parse)


class DelaySpider(MetaSpider):

    name = 'delay'

    def __init__(self, n=1, b=0, *args, **kwargs):
        super(DelaySpider, self).__init__(*args, **kwargs)
        self.n = n
        self.b = b
        self.t1 = self.t2 = self.t2_err = 0

    def start_requests(self):
        self.t1 = time.time()
        url = "http://localhost:8998/delay?n=%s&b=%s" % (self.n, self.b)
        yield Request(url, callback=self.parse, errback=self.errback)

    def parse(self, response):
        self.t2 = time.time()

    def errback(self, failure):
        self.t2_err = time.time()


class SimpleSpider(MetaSpider):

    name = 'simple'

    def __init__(self, url="http://localhost:8998", *args, **kwargs):
        super(SimpleSpider, self).__init__(*args, **kwargs)
        self.start_urls = [url]

    def parse(self, response):
        self.logger.info("Got response %d" % response.status)


class ItemSpider(FollowAllSpider):

    name = 'item'

    def parse(self, response):
        for request in super(ItemSpider, self).parse(response):
            yield request
            yield Item()
            yield {}


class DefaultError(Exception):
    pass


class ErrorSpider(FollowAllSpider):

    name = 'error'
    exception_cls = DefaultError

    def raise_exception(self):
        raise self.exception_cls('Expected exception')

    def parse(self, response):
        for request in super(ErrorSpider, self).parse(response):
            yield request
            self.raise_exception()


class BrokenStartRequestsSpider(FollowAllSpider):

    fail_before_yield = False
    fail_yielding = False

    def __init__(self, *a, **kw):
        super(BrokenStartRequestsSpider, self).__init__(*a, **kw)
        self.seedsseen = []

    def start_requests(self):
        if self.fail_before_yield:
            1 / 0

        for s in xrange(100):
            qargs = {'total': 10, 'seed': s}
            url = "http://localhost:8998/follow?%s" % urlencode(qargs, doseq=1)
            yield Request(url, meta={'seed': s})
            if self.fail_yielding:
                2 / 0

        assert self.seedsseen, \
                'All start requests consumed before any download happened'

    def parse(self, response):
        self.seedsseen.append(response.meta.get('seed'))
        for req in super(BrokenStartRequestsSpider, self).parse(response):
            yield req


class SingleRequestSpider(MetaSpider):

    seed = None
    callback_func = None
    errback_func = None

    def start_requests(self):
        if isinstance(self.seed, Request):
            yield self.seed.replace(callback=self.parse, errback=self.on_error)
        else:
            yield Request(self.seed, callback=self.parse, errback=self.on_error)

    def parse(self, response):
        self.meta.setdefault('responses', []).append(response)
        if callable(self.callback_func):
            return self.callback_func(response)
        if 'next' in response.meta:
            return response.meta['next']

    def on_error(self, failure):
        self.meta['failure'] = failure
        if callable(self.errback_func):
            return self.errback_func(failure)


class DuplicateStartRequestsSpider(Spider):
    dont_filter = True
    name = 'duplicatestartrequests'
    distinct_urls = 2
    dupe_factor = 3

    def start_requests(self):
        for i in range(0, self.distinct_urls):
            for j in range(0, self.dupe_factor):
                url = "http://localhost:8998/echo?headers=1&body=test%d" % i
                yield self.make_requests_from_url(url)

    def make_requests_from_url(self, url):
        return Request(url, dont_filter=self.dont_filter)

    def __init__(self, url="http://localhost:8998", *args, **kwargs):
        super(DuplicateStartRequestsSpider, self).__init__(*args, **kwargs)
        self.visited = 0

    def parse(self, response):
        self.visited += 1
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00			`"""`
			`Some spiders used for testing and benchmarking`
			`"""`

			`import time`
Collect the list of packages not working on python3 2014-07-30 19:41:12 -03:00			`from six.moves.urllib.parse import urlencode`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00
Rename BaseSpider to Spider. See GH-495. 2013-12-28 00:47:32 +06:00			`from scrapy.spider import Spider`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00			`from scrapy.http import Request`
removed multispider support, test added 2013-05-28 14:05:56 -03:00			`from scrapy.item import Item`
Move scrapy/contrib/linkextractors to scrapy/linkextractors 2015-04-20 22:55:33 -03:00			`from scrapy.linkextractors import LinkExtractor`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00
removed multispider support, test added 2013-05-28 14:05:56 -03:00
Rename BaseSpider to Spider. See GH-495. 2013-12-28 00:47:32 +06:00			`class MetaSpider(Spider):`
removed multispider support, test added 2013-05-28 14:05:56 -03:00
			`name = 'meta'`

			`def __init__(self, args, *kwargs):`
			`super(MetaSpider, self).__init__(args, *kwargs)`
			`self.meta = {}`

			`def closed(self, reason):`
			`self.meta['close_reason'] = reason`


			`class FollowAllSpider(MetaSpider):`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00
			`name = 'follow'`
promote LxmlLinkExtractor as default in docs 2014-06-25 14:34:30 -03:00			`link_extractor = LinkExtractor()`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00
take in count response latencies when testing download delays 2013-07-16 16:22:03 -03:00			`def __init__(self, total=10, show=20, order="rand", maxlatency=0.0, args, *kwargs):`
removed multispider support, test added 2013-05-28 14:05:56 -03:00			`super(FollowAllSpider, self).__init__(args, *kwargs)`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00			`self.urls_visited = []`
			`self.times = []`
take in count response latencies when testing download delays 2013-07-16 16:22:03 -03:00			`qargs = {'total': total, 'show': show, 'order': order, 'maxlatency': maxlatency}`
			`url = "http://localhost:8998/follow?%s" % urlencode(qargs, doseq=1)`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00			`self.start_urls = [url]`

			`def parse(self, response):`
			`self.urls_visited.append(response.url)`
			`self.times.append(time.time())`
			`for link in self.link_extractor.extract_links(response):`
			`yield Request(link.url, callback=self.parse)`

removed multispider support, test added 2013-05-28 14:05:56 -03:00
			`class DelaySpider(MetaSpider):`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00
			`name = 'delay'`

fix download_timeout for servers that returns response headers but hangs sending its body 2013-06-20 10:15:23 -03:00			`def __init__(self, n=1, b=0, args, *kwargs):`
removed multispider support, test added 2013-05-28 14:05:56 -03:00			`super(DelaySpider, self).__init__(args, *kwargs)`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00			`self.n = n`
fix download_timeout for servers that returns response headers but hangs sending its body 2013-06-20 10:15:23 -03:00			`self.b = b`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00			`self.t1 = self.t2 = self.t2_err = 0`

			`def start_requests(self):`
			`self.t1 = time.time()`
fix download_timeout for servers that returns response headers but hangs sending its body 2013-06-20 10:15:23 -03:00			`url = "http://localhost:8998/delay?n=%s&b=%s" % (self.n, self.b)`
			`yield Request(url, callback=self.parse, errback=self.errback)`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00
			`def parse(self, response):`
			`self.t2 = time.time()`

			`def errback(self, failure):`
			`self.t2_err = time.time()`

removed multispider support, test added 2013-05-28 14:05:56 -03:00
			`class SimpleSpider(MetaSpider):`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00
			`name = 'simple'`

removed multispider support, test added 2013-05-28 14:05:56 -03:00			`def __init__(self, url="http://localhost:8998", args, *kwargs):`
			`super(SimpleSpider, self).__init__(args, *kwargs)`
added context manager for mock server, moved test spiders into a separate module (scrapy.tests.spiders) 2013-05-16 13:01:02 -03:00			`self.start_urls = [url]`

			`def parse(self, response):`
Create a logger for every Spider and adapt Spider.log to log through it 2015-02-28 06:56:53 -03:00			`self.logger.info("Got response %d" % response.status)`
removed multispider support, test added 2013-05-28 14:05:56 -03:00

			`class ItemSpider(FollowAllSpider):`

			`name = 'item'`

			`def parse(self, response):`
			`for request in super(ItemSpider, self).parse(response):`
			`yield request`
			`yield Item()`
Allow spiders to return dicts. See GH-1064. 2015-03-18 07:26:56 +05:00			`yield {}`
removed multispider support, test added 2013-05-28 14:05:56 -03:00

			`class DefaultError(Exception):`
			`pass`


			`class ErrorSpider(FollowAllSpider):`

			`name = 'error'`
			`exception_cls = DefaultError`

			`def raise_exception(self):`
			`raise self.exception_cls('Expected exception')`

			`def parse(self, response):`
			`for request in super(ErrorSpider, self).parse(response):`
			`yield request`
			`self.raise_exception()`
Fix start_requests lazyness and early hangs - Removes new public methods added by #330 to Crawler and CrawlerProcess - Add test for start_requests lazy evaluation - Fix and test hangs when start_requests erroed before returning the generator - Add test when start_requests fails while generating requests - Simplify Crawler and CrawlerProcess implementation taking in count that only one spider can be attached per Crawler. As required by SEP-019 - "scrapy settings" command do not require starting a Crawler anymore 2013-10-03 12:48:56 -03:00

			`class BrokenStartRequestsSpider(FollowAllSpider):`

			`fail_before_yield = False`
			`fail_yielding = False`

			`def __init__(self, a, *kw):`
			`super(BrokenStartRequestsSpider, self).__init__(a, *kw)`
			`self.seedsseen = []`

			`def start_requests(self):`
			`if self.fail_before_yield:`
			`1 / 0`

			`for s in xrange(100):`
			`qargs = {'total': 10, 'seed': s}`
			`url = "http://localhost:8998/follow?%s" % urlencode(qargs, doseq=1)`
			`yield Request(url, meta={'seed': s})`
			`if self.fail_yielding:`
			`2 / 0`

			`assert self.seedsseen, \`
			`'All start requests consumed before any download happened'`

			`def parse(self, response):`
			`self.seedsseen.append(response.meta.get('seed'))`
			`for req in super(BrokenStartRequestsSpider, self).parse(response):`
			`yield req`
Do not set Referer by default when its value is None closes #473 2013-11-25 15:34:13 -02:00

			`class SingleRequestSpider(MetaSpider):`

			`seed = None`
fix a reference to unexistent engine.slots. closes #593 2014-02-14 15:16:36 -02:00			`callback_func = None`
			`errback_func = None`
Do not set Referer by default when its value is None closes #473 2013-11-25 15:34:13 -02:00
			`def start_requests(self):`
			`if isinstance(self.seed, Request):`
			`yield self.seed.replace(callback=self.parse, errback=self.on_error)`
			`else:`
			`yield Request(self.seed, callback=self.parse, errback=self.on_error)`

			`def parse(self, response):`
			`self.meta.setdefault('responses', []).append(response)`
fix a reference to unexistent engine.slots. closes #593 2014-02-14 15:16:36 -02:00			`if callable(self.callback_func):`
			`return self.callback_func(response)`
Do not set Referer by default when its value is None closes #473 2013-11-25 15:34:13 -02:00			`if 'next' in response.meta:`
			`return response.meta['next']`

			`def on_error(self, failure):`
			`self.meta['failure'] = failure`
fix a reference to unexistent engine.slots. closes #593 2014-02-14 15:16:36 -02:00			`if callable(self.errback_func):`
			`return self.errback_func(failure)`
Add tests for start requests, filtered and non-filtered 2014-04-26 13:47:42 +02:00

			`class DuplicateStartRequestsSpider(Spider):`
			`dont_filter = True`
			`name = 'duplicatestartrequests'`
			`distinct_urls = 2`
			`dupe_factor = 3`

			`def start_requests(self):`
			`for i in range(0, self.distinct_urls):`
			`for j in range(0, self.dupe_factor):`
			`url = "http://localhost:8998/echo?headers=1&body=test%d" % i`
			`yield self.make_requests_from_url(url)`

			`def make_requests_from_url(self, url):`
			`return Request(url, dont_filter=self.dont_filter)`

			`def __init__(self, url="http://localhost:8998", args, *kwargs):`
			`super(DuplicateStartRequestsSpider, self).__init__(args, *kwargs)`
			`self.visited = 0`

			`def parse(self, response):`
			`self.visited += 1`