<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2653.12">
<TITLE>Clustering EST sequences</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2 FACE="News Gothic">Dear All,</FONT>
</P>

<P><FONT SIZE=2 FACE="News Gothic">I have a very basic problem of which I wonder how others have solved this.</FONT>
</P>

<P><FONT SIZE=2 FACE="News Gothic">I want to make a unigene collection of a large EST database. We have chromat files in ABI format and I use Linux on the intel platform.</FONT></P>

<P><FONT SIZE=2 FACE="News Gothic">I have phred and phrap running but since phrap was originally designed for genomic sequences we get lots of misaasemblies on poly-A or poly-T stretches.</FONT></P>

<P><FONT SIZE=2 FACE="News Gothic">Therefore I installed the TIGR tigcl package which is designed for EST databases and also runs very well on multi node machines.</FONT></P>

<P><FONT SIZE=2 FACE="News Gothic">However, it uses multi fasta files (and corresponding (optional) quality files) as input.</FONT>
<BR><FONT SIZE=2 FACE="News Gothic">I wanted to use the phred package to generate the required fasta and qual files. This runs fine but the fasta file has in the &gt;name line additional info separated with spaces. These files are not accepted by TGICL.</FONT></P>

<P><FONT SIZE=2 FACE="News Gothic">Is there an easy unix (linux) utility to convert these multi fasta files and quality fasta files in simpel &gt;name {CRT} seq files so they kan be used as input for tgicl? Or is a conversion utility available to convert/extract phreds phd files into fasta-seq and fasta-qual?</FONT></P>

<P><FONT SIZE=2 FACE="News Gothic">Any help would be appreciated,</FONT>
</P>

<P>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; <FONT SIZE=2 FACE="News Gothic">Alex</FONT>
</P>
<BR>

</BODY>
</HTML>