Re: élimination du retour chariot dans un fichier texte

Baroudi Malek baroudi.malek at gmail.com
Mar 30 Sep 11:23:25 BST 2008


Bonjour,
Bon juste je voulais te conseiller d'aller tester Talend Open Studio :
http://www.talend.com/index.php
Il traite pas mal de format de fichier Biologiques (ARFF,CSV,text,delemited
text format,...)c'est un ETL spécialisé dans ces types de traitements de
fichier complexes.
Tu peux extraire tes données,les transformes et les charges de nouveaux dans
d'autres fichiers ou base de données,....etc
bah après tu peux exporter ça en shell script ou en java (jar ou war) et tu
peut le tourner sur n'importe qu'elle platformes grâce a java.
Ne casse pas la tête avec les scripts shell,ça c'est le domaine
d'intégration de données et c'est très simple de faire ça sur un ETL.
n'hésite pas a poser les questions si t'a des soucis.

A plus

Le 30 septembre 2008 12:01, (Imed Chihi) عماد الشيحي
<imed.chihi at gmail.com>a écrit :

> Salam,
>
> 2008/9/29 kmezhoud <kmezhoud at mnhn.fr>
> > J'ai téléchargé le protéome d'une bactérie (c'est l'ensemble de
> > protéines synthétisées par une bactérie) qui ce présente sous cette
> forme:
> >
> > >référence de la protéines avec son nom (retour à la ligne)
> > BFKKSDLJSNBKFSKNFKSLKJSLFSLKJGLG (retour à la ligne)
> > JHBSJBSQLKJBNSQNBGLKJSGKJNSDJKNGSDKJNGSDKNG: séquence de protéine
> >
> .............................................................................
> > (retour à la ligne)
> > > référfence de la deuxième protéine (RETOUR À LA LIGNE)
> > NLKJELCJH,JTG,ZIJCIORJGZCP,OCJ,ZOJRTZOBINUYNCHZVOH(retour à la ligne)
> >
> > .
> > .
> > .
> >
> >
> > Je voudrais bien enlevé le retour à la ligne qui intérompe les séquences
> > de protéine mais je voudrais bien garder celui des ligne commençant par
> > > et celui qui finit la séquence càd avant le >.
> >
> > de tel sorte que j'aurai:
> >
> > >référence (retour à la ligne)
> > séquence de caractères
> > >références 2 ème protéine
> > séquence de caractères
> > >.......
>
> J'ai utilise un script awk qui semble donner le resultat desire. Le script
> en question est:
>
> $ cat fp.awk
> BEGIN {}
>
> /^[^>]/ {
>   IN_SEQ=1;
>   SEQ=$0;
>   while (IN_SEQ==1) {
>     if (getline)
>       if (index($0, ">")) {
>         IN_SEQ=0}
>       else {
>         SEQ = SEQ "," $0
>       }
>     else
>       IN_SEQ=0
>   }
>   print SEQ
> }
>
> /^>/ {print $0}
>
> END {}
>
> Tu auras a lancer ce script avec:
>
> $ awk -f fp.awk prot.txt
>
> Ou prot.txt est le fichier contenant la description des proteines. Ainsi,
> un fichier de donnees intial commme:
>
> $ cat prot.txt
> > PORT1
> WAHID
> ITHNANE
> THALATHA
>
> > PROT2
> ARBAAA
> KHAMSA
> SITTA
>
> > PROT3
> SABAA
> THAMANYA
> TISAA
>
> Sera converti en:
>
> $ awk -f fp.awk prot.txt
> > PORT1
> WAHID,ITHNANE,THALATHA,
> > PROT2
> ARBAAA,KHAMSA,SITTA,
> > PROT3
> SABAA,THAMANYA,TISAA,
>
> J'espere que ca te sera utile. Je trouve que le script est un peu trop
> complique pour une tache, d'apparence, simple.
>
> Bon travail et Eid mubarak,
>
>  -Imed
>
> --
> Imed Chihi - عماد الشيحي
> http://perso.hexabyte.tn/ichihi/
>
> --
> Ubuntu-tn mailing list
> Ubuntu-tn at lists.ubuntu.com
> Modify settings or unsubscribe at:
> https://lists.ubuntu.com/mailman/listinfo/ubuntu-tn
>
>


-- 
"Qui allume sa bougie à la mienne reçoit de la lumière sans me plonger dans
l'obscurité…"
                                                ' Thomas Jefferson'
-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: https://lists.ubuntu.com/archives/ubuntu-tn/attachments/20080930/39a60064/attachment-0001.htm 


Plus d'informations sur la liste de diffusion Ubuntu-tn