scrapy/profiling/priorityqueue/run.py

from __future__ import with_statement
import os
import timeit
import random
from optparse import OptionParser
from tempfile import mktemp
from pq_classes import *

TESTID = os.getpid()

TESTCASES = (
       ("heapq", PriorityQueue1),
       #("heapq+int", PriorityQueue1b),
       ("dict+deque", PriorityQueue2),
       ("deque+heapq", PriorityQueue3),
       #("deque+heapq+int", PriorityQueue3b),
       ("deque+defaultdict+deque", PriorityQueue4),
       ("deque+defaultdict+deque+cache", PriorityQueue4b),
       #('list+deque', PriorityQueue5),
       ('list+deque+cache', PriorityQueue5b),
       #('list+deque+cache+islice', PriorityQueue5c),
       )


stmt_fmt = """
for n, prio in enumerate(randomprio):
    q.push(n, prio)

try:
    while True:
        q.pop()
except IndexError:
    pass
"""

setup_fmt = """
from collections import deque
from __main__ import %(PriorityClass)s as PriorityQueue
q = PriorityQueue(%(priorities)i)

randomprio = deque()
for line in open('%(samplefile)s'):
    prio = int(line.strip())
    randomprio.append(prio)
"""


def _distribution(priorities, distribution):
    half = priorities // 2
    prio = -priorities
    while not (-half <= prio <= half):
        prio = round(distribution())
    return min(max(prio, -half), half)

def normal_priority(priorities):
    sigma = priorities / 4.0
    dist = lambda: random.normalvariate(mu=0, sigma=sigma)
    return _distribution(priorities, dist)

def gauss_priority(priorities):
    sigma = priorities / 4.0
    dist = lambda: random.gauss(mu=0, sigma=sigma)
    return _distribution(priorities, dist)

def triangular_priority(priorities):
    half = priorities // 2
    return random.triangular(-half-1, half+1, 0)

def uniform_priority(priorities):
    return int(random.random() * priorities) - (priorities / 2)


PRIORITY_DISTRIBUTIONS = {
        'uniform': uniform_priority,
        'normal': normal_priority,
        'gauss': gauss_priority,
        'triangular': triangular_priority,
        }


def gen_samples(count, priorities, priority_distribution=uniform_priority):
    fn = '/tmp/pq-%i-%i-%i' % (TESTID, priorities, count)

    with open(fn, 'w') as samplefile:
        for n in xrange(count):
            prio = priority_distribution(priorities)
            samplefile.write('%i\n' % prio)
    return fn

def runtests(pushpops=50*1000, times=30, priorities=1, samplefile=None, priority_distribution=uniform_priority):
    samplefile = samplefile or gen_samples(pushpops, priorities, priority_distribution)

    print "\n== With %s priorities (%s) ==\n" % (priorities, samplefile)
    print "pushpops = %s, times = %s" % (pushpops, times)


    stmt = stmt_fmt
    for name, cls in TESTCASES:
        setup = setup_fmt % {
                'PriorityClass': cls.__name__,
                'priorities': priorities,
                'samplefile': samplefile,
                }
        t = timeit.Timer(stmt, setup)
        print "%s implementation: %s" % (name, t.timeit(number=times))


if __name__ == '__main__':
    o = OptionParser()
    o.add_option('-n', '--samples-count', type='int', default=50000, metavar='NUMBER',
            help='The max number or samples to generate')
    o.add_option('-r', '--retry-times', type='int', default=30, metavar='NUMBER',
            help='the times to retry each test')
    o.add_option('-s', '--samplefile', default=None, metavar='FILENAME',
            help='load samples from file, default: use sample generator')
    o.add_option('-p', '--priorities', default='1,3,5,10,100', metavar='CSV_PRIOLIST',
            help='a comma separated list of priorities to test')
    o.add_option('-d', '--priority-distribution', default='uniform', metavar='DISTRIBUTION',
            help='distribution used for random priority generator, default: uniform. possibles: %s' \
                    % ','.join(PRIORITY_DISTRIBUTIONS.keys()))

    opt, args = o.parse_args()

    priolist = map(int, opt.priorities.split(','))
    distribution = PRIORITY_DISTRIBUTIONS[opt.priority_distribution]
    for prio in priolist:
        runtests(pushpops=opt.samples_count, priorities=prio, times=opt.retry_times,
                samplefile=opt.samplefile, priority_distribution=distribution)

# Results (in seconds, on an intel core2 2.16ghz):
# == Without priorities ==

# pushpops = 50000, times = 30
# heapq implementation: 7.7959010601
# dict+deque implementation: 5.6420109272
# deque+heapq implementation: 3.57563900948

# == With 5 priorities ==

# pushpops = 50000, times = 30
# heapq implementation: 9.83902192116
# dict+deque implementation: 9.21094298363
# deque+heapq implementation: 9.05321097374

# == With 10 priorities ==

# pushpops = 50000, times = 30
# heapq implementation: 9.97831392288
# dict+deque implementation: 11.9721341133
# deque+heapq implementation: 9.79048800468

# == With 100 priorities ==

# pushpops = 50000, times = 30
# heapq implementation: 10.4782910347
# dict+deque implementation: 64.6989660263
# deque+heapq implementation: 10.858932972
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`from __future__ import with_statement`
			`import os`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`import timeit`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`import random`
			`from optparse import OptionParser`
			`from tempfile import mktemp`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`from pq_classes import *`

profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`TESTID = os.getpid()`

profiling: fix priority distribution and add new ones --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401001 2009-03-19 12:04:19 +00:00			`TESTCASES = (`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`("heapq", PriorityQueue1),`
profiling: add alternative priorityqueue implementations and disable not useful ones from default runs --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40998 2009-03-19 04:09:24 +00:00			`#("heapq+int", PriorityQueue1b),`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`("dict+deque", PriorityQueue2),`
			`("deque+heapq", PriorityQueue3),`
profiling: add alternative priorityqueue implementations and disable not useful ones from default runs --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40998 2009-03-19 04:09:24 +00:00			`#("deque+heapq+int", PriorityQueue3b),`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`("deque+defaultdict+deque", PriorityQueue4),`
profiling: add new priorityqueue implementation (PQ5c) with cache support. fixed bug in run.py with the use of the with statement. --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401002 2009-03-19 13:11:27 +00:00			`("deque+defaultdict+deque+cache", PriorityQueue4b),`
profiling: add alternative priorityqueue implementations and disable not useful ones from default runs --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40998 2009-03-19 04:09:24 +00:00			`#('list+deque', PriorityQueue5),`
			`('list+deque+cache', PriorityQueue5b),`
			`#('list+deque+cache+islice', PriorityQueue5c),`
profiling: fix priority distribution and add new ones --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401001 2009-03-19 12:04:19 +00:00			`)`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00

profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`stmt_fmt = """`
			`for n, prio in enumerate(randomprio):`
			`q.push(n, prio)`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`try:`
			`while True:`
			`q.pop()`
			`except IndexError:`
			`pass`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`"""`

			`setup_fmt = """`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`from collections import deque`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`from __main__ import %(PriorityClass)s as PriorityQueue`
			`q = PriorityQueue(%(priorities)i)`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00
			`randomprio = deque()`
profiling: add new priorityqueue implementation (PQ5c) with cache support. fixed bug in run.py with the use of the with statement. --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401002 2009-03-19 13:11:27 +00:00			`for line in open('%(samplefile)s'):`
			`prio = int(line.strip())`
			`randomprio.append(prio)`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`"""`

profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00
profiling: fix priority distribution and add new ones --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401001 2009-03-19 12:04:19 +00:00			`def _distribution(priorities, distribution):`
			`half = priorities // 2`
			`prio = -priorities`
			`while not (-half <= prio <= half):`
			`prio = round(distribution())`
			`return min(max(prio, -half), half)`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`def normal_priority(priorities):`
profiling: fix priority distribution and add new ones --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401001 2009-03-19 12:04:19 +00:00			`sigma = priorities / 4.0`
			`dist = lambda: random.normalvariate(mu=0, sigma=sigma)`
			`return _distribution(priorities, dist)`

			`def gauss_priority(priorities):`
			`sigma = priorities / 4.0`
			`dist = lambda: random.gauss(mu=0, sigma=sigma)`
			`return _distribution(priorities, dist)`

			`def triangular_priority(priorities):`
			`half = priorities // 2`
			`return random.triangular(-half-1, half+1, 0)`

			`def uniform_priority(priorities):`
			`return int(random.random() * priorities) - (priorities / 2)`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00

			`PRIORITY_DISTRIBUTIONS = {`
			`'uniform': uniform_priority,`
			`'normal': normal_priority,`
profiling: fix priority distribution and add new ones --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401001 2009-03-19 12:04:19 +00:00			`'gauss': gauss_priority,`
			`'triangular': triangular_priority,`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`}`


			`def gen_samples(count, priorities, priority_distribution=uniform_priority):`
			`fn = '/tmp/pq-%i-%i-%i' % (TESTID, priorities, count)`

			`with open(fn, 'w') as samplefile:`
			`for n in xrange(count):`
			`prio = priority_distribution(priorities)`
			`samplefile.write('%i\n' % prio)`
			`return fn`

			`def runtests(pushpops=50*1000, times=30, priorities=1, samplefile=None, priority_distribution=uniform_priority):`
profiling: fix priority distribution and add new ones --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%401001 2009-03-19 12:04:19 +00:00			`samplefile = samplefile or gen_samples(pushpops, priorities, priority_distribution)`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00
			`print "\n== With %s priorities (%s) ==\n" % (priorities, samplefile)`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`print "pushpops = %s, times = %s" % (pushpops, times)`


profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`stmt = stmt_fmt`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`for name, cls in TESTCASES:`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`setup = setup_fmt % {`
			`'PriorityClass': cls.__name__,`
			`'priorities': priorities,`
			`'samplefile': samplefile,`
			`}`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`t = timeit.Timer(stmt, setup)`
			`print "%s implementation: %s" % (name, t.timeit(number=times))`

profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00			`if __name__ == '__main__':`
profiling: add options to priority queue profiler --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40994 2009-03-19 02:25:20 +00:00			`o = OptionParser()`
			`o.add_option('-n', '--samples-count', type='int', default=50000, metavar='NUMBER',`
			`help='The max number or samples to generate')`
			`o.add_option('-r', '--retry-times', type='int', default=30, metavar='NUMBER',`
			`help='the times to retry each test')`
			`o.add_option('-s', '--samplefile', default=None, metavar='FILENAME',`
			`help='load samples from file, default: use sample generator')`
			`o.add_option('-p', '--priorities', default='1,3,5,10,100', metavar='CSV_PRIOLIST',`
			`help='a comma separated list of priorities to test')`
			`o.add_option('-d', '--priority-distribution', default='uniform', metavar='DISTRIBUTION',`
			`help='distribution used for random priority generator, default: uniform. possibles: %s' \`
			`% ','.join(PRIORITY_DISTRIBUTIONS.keys()))`

			`opt, args = o.parse_args()`

			`priolist = map(int, opt.priorities.split(','))`
			`distribution = PRIORITY_DISTRIBUTIONS[opt.priority_distribution]`
			`for prio in priolist:`
			`runtests(pushpops=opt.samples_count, priorities=prio, times=opt.retry_times,`
			`samplefile=opt.samplefile, priority_distribution=distribution)`
profiling: add priorityqueue alternatives and profiling / test cases --HG-- extra : convert_revision : svn%3Ab85faa78-f9eb-468e-a121-7cced6da292c%40993 2009-03-18 19:44:36 +00:00
			`# Results (in seconds, on an intel core2 2.16ghz):`
			`# == Without priorities ==`

			`# pushpops = 50000, times = 30`
			`# heapq implementation: 7.7959010601`
			`# dict+deque implementation: 5.6420109272`
			`# deque+heapq implementation: 3.57563900948`

			`# == With 5 priorities ==`

			`# pushpops = 50000, times = 30`
			`# heapq implementation: 9.83902192116`
			`# dict+deque implementation: 9.21094298363`
			`# deque+heapq implementation: 9.05321097374`

			`# == With 10 priorities ==`

			`# pushpops = 50000, times = 30`
			`# heapq implementation: 9.97831392288`
			`# dict+deque implementation: 11.9721341133`
			`# deque+heapq implementation: 9.79048800468`

			`# == With 100 priorities ==`

			`# pushpops = 50000, times = 30`
			`# heapq implementation: 10.4782910347`
			`# dict+deque implementation: 64.6989660263`
			`# deque+heapq implementation: 10.858932972`