<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Sep 28, 2014 at 2:13 PM, Adam Retter <span dir="ltr"><<a href="mailto:adam.retter@googlemail.com" target="_blank">adam.retter@googlemail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">So after a bit more coffee and a bit of research it seems to me that<br>
the only way you are going to get this to be fast would be if you used<br>
a hash based looked for one of your sequences. Something like a<br>
HashMap or BloomFilter would do the job, see:<br>
<a href="http://stackoverflow.com/questions/4261619/fastest-set-operations-in-the-west" target="_blank">http://stackoverflow.com/questions/4261619/fastest-set-operations-in-the-west</a><br>
<br></blockquote><div><br></div><div>Hmmmmm well I have already committed myself before your retraction and the thing is running now so am just going to leave it. </div><div><br></div><div>This is only the tip of the problem because each integer that survives selection generates an HTTP request that either returns a 404 or leads to an HTTP Put into eXist. So if I was really in a hurry I'd have to start looking at mapReducing the keys. I'm not even sure that is the answer as  all the mapreduce jobs would be pounding the same server (mind you the site may load balance to mitigate that).</div><div><br></div><div>Another alternative solution is to just export sequence B into SQLite, index both sequences (now they are tables)  and do it in SQL.</div><div><br></div><div><br></div><div> </div></div></div></div>