scrapy/tests/test_spidermiddleware_urllength.py

from unittest import TestCase

from testfixtures import LogCapture

from scrapy.http import Request, Response
from scrapy.settings import Settings
from scrapy.spidermiddlewares.urllength import UrlLengthMiddleware
from scrapy.spiders import Spider
from scrapy.utils.test import get_crawler


class TestUrlLengthMiddleware(TestCase):
    def setUp(self):
        self.maxlength = 25
        settings = Settings({"URLLENGTH_LIMIT": self.maxlength})

        crawler = get_crawler(Spider)
        self.spider = crawler._create_spider("foo")
        self.stats = crawler.stats
        self.mw = UrlLengthMiddleware.from_settings(settings)

        self.response = Response("http://scrapytest.org")
        self.short_url_req = Request("http://scrapytest.org/")
        self.long_url_req = Request("http://scrapytest.org/this_is_a_long_url")
        self.reqs = [self.short_url_req, self.long_url_req]

    def process_spider_output(self):
        return list(
            self.mw.process_spider_output(self.response, self.reqs, self.spider)
        )

    def test_middleware_works(self):
        self.assertEqual(self.process_spider_output(), [self.short_url_req])

    def test_logging(self):
        with LogCapture() as log:
            self.process_spider_output()

        ric = self.stats.get_value(
            "urllength/request_ignored_count", spider=self.spider
        )
        self.assertEqual(ric, 1)

        self.assertIn(f"Ignoring link (url length > {self.maxlength})", str(log))
added urllength spider middleware test 2009-09-07 11:14:47 -03:00			`from unittest import TestCase`

Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00			`from testfixtures import LogCapture`

sort imports with isort 2023-01-25 14:25:15 -06:00			`from scrapy.http import Request, Response`
			`from scrapy.settings import Settings`
Move scrapy/contrib/spidermiddleware to scrapy/spidermiddlewares 2015-04-21 13:07:24 -03:00			`from scrapy.spidermiddlewares.urllength import UrlLengthMiddleware`
Move scrapy/spider.py to scrapy/spiders/__init__.py 2015-05-09 04:20:09 -03:00			`from scrapy.spiders import Spider`
Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00			`from scrapy.utils.test import get_crawler`
added urllength spider middleware test 2009-09-07 11:14:47 -03:00

			`class TestUrlLengthMiddleware(TestCase):`
Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00			`def setUp(self):`
Test from_settings 2021-03-12 17:11:50 +06:00			`self.maxlength = 25`
adding black formatter to all the code 2022-11-29 11:30:46 -03:00			`settings = Settings({"URLLENGTH_LIMIT": self.maxlength})`
Test from_settings 2021-03-12 17:11:50 +06:00
Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00			`crawler = get_crawler(Spider)`
adding black formatter to all the code 2022-11-29 11:30:46 -03:00			`self.spider = crawler._create_spider("foo")`
simpler stats access 2021-03-15 21:38:03 +06:00			`self.stats = crawler.stats`
Test from_settings 2021-03-12 17:11:50 +06:00			`self.mw = UrlLengthMiddleware.from_settings(settings)`
Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00
adding black formatter to all the code 2022-11-29 11:30:46 -03:00			`self.response = Response("http://scrapytest.org")`
			`self.short_url_req = Request("http://scrapytest.org/")`
			`self.long_url_req = Request("http://scrapytest.org/this_is_a_long_url")`
Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00			`self.reqs = [self.short_url_req, self.long_url_req]`

			`def process_spider_output(self):`
adding black formatter to all the code 2022-11-29 11:30:46 -03:00			`return list(`
			`self.mw.process_spider_output(self.response, self.reqs, self.spider)`
			`)`
Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00
			`def test_middleware_works(self):`
			`self.assertEqual(self.process_spider_output(), [self.short_url_req])`

			`def test_logging(self):`
			`with LogCapture() as log:`
			`self.process_spider_output()`
added urllength spider middleware test 2009-09-07 11:14:47 -03:00
adding black formatter to all the code 2022-11-29 11:30:46 -03:00			`ric = self.stats.get_value(`
			`"urllength/request_ignored_count", spider=self.spider`
			`)`
Log skipped urls by length to INFO, add skipped stats 2021-03-12 11:08:41 +06:00			`self.assertEqual(ric, 1)`
added urllength spider middleware test 2009-09-07 11:14:47 -03:00
adding black formatter to all the code 2022-11-29 11:30:46 -03:00			`self.assertIn(f"Ignoring link (url length > {self.maxlength})", str(log))`