<html><head><style type="text/css"><!-- DIV {margin:0px} --></style></head><body><div style="font-family:times new roman, new york, times, serif;font-size:12pt"><div style="font-family: times new roman,new york,times,serif; font-size: 12pt;"><div>It seems much of this could be addressed by a svn repository. I know I'd sure appreciate typing 'svn update nt'. What was in your prototype?<br><br>----- Original Message ----<br>From: Joe Landman &lt;landman@scalableinformatics.com&gt;<br>To: "Clustering,  compute farming &amp; distributed computing in life science informatics" &lt;bioclusters@bioinformatics.org&gt;<br>Sent: Sunday, June 4, 2006 10:33:40 PM<br>Subject: Re: [Bioclusters] Versioning databases<br><br><div>Sounds nice.&nbsp;&nbsp;I had thought of also (somehow) saving diffs in a db so <br>you could generate the test db you used previously.&nbsp;&nbsp;Don't know if there <br>is interest in this, but we had a prototype of this a few years ago.<br><br>Joe<br><br>Michael
 James wrote:<br>&gt; Some biological databases actually come in versions,<br>&gt;&nbsp;&nbsp;for example;&nbsp;&nbsp;we are up to the TIGR4 rice genome and<br>&gt;&nbsp;&nbsp;swisprot UniProtKB/Swiss-Prot Release 50.0 of 30-May-2006<br>&gt; <br>&gt; Others just change daily, NCBI:nr&nbsp;&nbsp;NCBI:nt&nbsp;&nbsp;etc.<br>&gt; <br>&gt; All this effort creates a problem for repeatability,<br>&gt;&nbsp;&nbsp;the blast results you get next week<br>&gt;&nbsp;&nbsp;won't quite be the ones you got today.<br>&gt; <br>&gt; It seems to me that the situation would be improved<br>&gt;&nbsp;&nbsp;by tagging results "BLAST against ncbi.nih.gov nr 2006-06-05 000"<br>&gt; <br>&gt; This means we need to come up with a versioning scheme<br>&gt;&nbsp;&nbsp;and for anything without, I'd suggest something as simple as<br>&gt;&nbsp;&nbsp;&nbsp;&nbsp;issuing_authority&nbsp;&nbsp;database&nbsp;&nbsp;date&nbsp;&nbsp;&nbsp;&nbsp;3_digit_release_number<br>&gt;
 eg&nbsp;&nbsp;ncbi.nih.gov&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; nr&nbsp;&nbsp;2006-06-05&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;000<br>&gt; <br>&gt; For uniqueness, use the internet name for issuing_authority.<br>&gt; <br>&gt; The database is the filename stripped of all qualifiers<br>&gt; Remove things like&nbsp;&nbsp;.gz&nbsp;&nbsp;.00.tar.gz&nbsp;&nbsp;<br>&gt; <br>&gt; The date in ISO format!<br>&gt; <br>&gt; 3 more digits to ensure uniqueness.<br>&gt; <br>&gt; <br>&gt; Such a scheme would also be<br>&gt;&nbsp;&nbsp;a big win for us database administrators.<br>&gt; We could start to weave it through the tangled web<br>&gt;&nbsp;&nbsp;of different providers and formats<br>&gt;&nbsp;&nbsp;so we actually know the original issuing authority<br>&gt;&nbsp;&nbsp;for the file we are downloading.<br>&gt; <br>&gt; What do you think?<br>&gt; michaelj<br>&gt; <br>&gt; <br><br>-- <br>Joseph Landman, Ph.D<br>Founder and CEO<br>Scalable
 Informatics LLC,<br>email: landman@scalableinformatics.com<br>web&nbsp;&nbsp;: <a target="_blank" href="http://www.scalableinformatics.com">http://www.scalableinformatics.com</a><br>phone: +1 734 786 8423<br>fax&nbsp;&nbsp;: +1 734 786 8452<br>cell : +1 734 612 4615<br>_______________________________________________<br>Bioclusters maillist&nbsp;&nbsp;-&nbsp;&nbsp;Bioclusters@bioinformatics.org<br><a target="_blank" href="https://bioinformatics.org/mailman/listinfo/bioclusters">https://bioinformatics.org/mailman/listinfo/bioclusters</a><br></div></div></div></div></body></html>