Re: élimination du retour chariot dans un fichier texte

(Imed Chihi) عماد الشيحي imed.chihi at gmail.com
Mar 30 Sep 11:01:22 BST 2008


Salam,

2008/9/29 kmezhoud <kmezhoud at mnhn.fr>
> J'ai téléchargé le protéome d'une bactérie (c'est l'ensemble de
> protéines synthétisées par une bactérie) qui ce présente sous cette forme:
>
> >référence de la protéines avec son nom (retour à la ligne)
> BFKKSDLJSNBKFSKNFKSLKJSLFSLKJGLG (retour à la ligne)
> JHBSJBSQLKJBNSQNBGLKJSGKJNSDJKNGSDKJNGSDKNG: séquence de protéine
>
.............................................................................
> (retour à la ligne)
> > référfence de la deuxième protéine (RETOUR À LA LIGNE)
> NLKJELCJH,JTG,ZIJCIORJGZCP,OCJ,ZOJRTZOBINUYNCHZVOH(retour à la ligne)
>
> .
> .
> .
>
>
> Je voudrais bien enlevé le retour à la ligne qui intérompe les séquences
> de protéine mais je voudrais bien garder celui des ligne commençant par
> > et celui qui finit la séquence càd avant le >.
>
> de tel sorte que j'aurai:
>
> >référence (retour à la ligne)
> séquence de caractères
> >références 2 ème protéine
> séquence de caractères
> >.......

J'ai utilise un script awk qui semble donner le resultat desire. Le script
en question est:

$ cat fp.awk
BEGIN {}

/^[^>]/ {
  IN_SEQ=1;
  SEQ=$0;
  while (IN_SEQ==1) {
    if (getline)
      if (index($0, ">")) {
        IN_SEQ=0}
      else {
        SEQ = SEQ "," $0
      }
    else
      IN_SEQ=0
  }
  print SEQ
}

/^>/ {print $0}

END {}

Tu auras a lancer ce script avec:

$ awk -f fp.awk prot.txt

Ou prot.txt est le fichier contenant la description des proteines. Ainsi, un
fichier de donnees intial commme:

$ cat prot.txt
> PORT1
WAHID
ITHNANE
THALATHA

> PROT2
ARBAAA
KHAMSA
SITTA

> PROT3
SABAA
THAMANYA
TISAA

Sera converti en:

$ awk -f fp.awk prot.txt
> PORT1
WAHID,ITHNANE,THALATHA,
> PROT2
ARBAAA,KHAMSA,SITTA,
> PROT3
SABAA,THAMANYA,TISAA,

J'espere que ca te sera utile. Je trouve que le script est un peu trop
complique pour une tache, d'apparence, simple.

Bon travail et Eid mubarak,

 -Imed

--
Imed Chihi - عماد الشيحي
http://perso.hexabyte.tn/ichihi/
-------------- next part --------------
An HTML attachment was scrubbed...
URL: https://lists.ubuntu.com/archives/ubuntu-tn/attachments/20080930/27cc3d68/attachment.htm 


Plus d'informations sur la liste de diffusion Ubuntu-tn