[Ubuntu-BR] [OT] - Conversão de arquivos HTML para TXT
Paulo Fernandes
pferna53 em gmail.com
Quarta Novembro 15 04:50:59 UTC 2017
Prezados resistentes leitores da Lista, especialmente Marcos Alano,
voltei a encarar o problema de Conversão de arquivos .HTML em .TXT, por
pura necessidade.
Com o FOR do Alano eu não consegui fazer a conversão de um grupo de htmls
de determinada pasta. Então saí a procurar vídeos de Bash no YouTube. E
encontrei um muitíssimo bom da Bóson Treinamentos. Procurem por: Shell
Scripting - Introdução e Conceitos Básicos - 01 - Linux. São vários
arquivos de mais ou menos 10 minutos cada. Confiram!
Mas, depois de uns 7 vídeos, comecei a me sentir frustrado pois não chegava
nunca o comando FOR que eu necessitava. Procurando mais um pouco, cheguei
ao vídeo 15 Bash For Loop Examples for Linux / Unix / OS X Shell
Scripting. Específico sobre o comando FOR. Tão bom o vídeo, que alguém
postou o seguinte comentário:
"We wish you a merry bashing
We wish you a merry bashing
We wish you a merry bashing
And a Happy For Loop"
Com o exemplo do vídeo na marca de 06:40, eu adaptei à minha necessidade e
cheguei ao seguinte comando matador:
*for i in *.html; do lynx -dump -nolist "$i" > "${i%.html}.txt"; done*
Inicialmente não funcionou, pois o comando exemplo que foi utilizado no
vídeo (ffmpeg) faz a conversão de arquivos de áudio, criando o segundo
arquivo, mas o lynx necessita de redirecionamento (>) pois, descobri, ele
não é propriamente um conversor de formato de arquivos, mas sim um
navegador em texto. Pode? Olhem como ficou a listagem da pasta:
/home/paulof/Testes/raceday em dia=2017-01-01.html
/home/paulof/Testes/raceday em dia=2017-01-01.txt
/home/paulof/Testes/raceday em dia=2017-01-02.html
/home/paulof/Testes/raceday em dia=2017-01-02.txt
/home/paulof/Testes/raceday em dia=2017-01-03.html
/home/paulof/Testes/raceday em dia=2017-01-03.txt
/home/paulof/Testes/raceday em dia=2017-01-04.html
/home/paulof/Testes/raceday em dia=2017-01-04.txt
/home/paulof/Testes/raceday em dia=2017-01-05.html
/home/paulof/Testes/raceday em dia=2017-01-05.txt
/home/paulof/Testes/raceday em dia=2017-01-06.html
/home/paulof/Testes/raceday em dia=2017-01-06.txt
/home/paulof/Testes/raceday em dia=2017-01-07.html
/home/paulof/Testes/raceday em dia=2017-01-07.txt
Abrindo os arquivos .TXT, está tudo lá em PLAIN TEXT FORMAT, do jeito que
eu necessito!
Então esse problema está *RESOLVIDO*, apesar de eu continuar frustrado pois
foi muito esforço pra achar a solução. De uma próxima vez, talvez eu abra
uma garrafa de vinho Cabernet chileno, um pouco gelado, coloque músicas de
Tom & Elis, Genesis, Sivuca e Vivaldi e digite os 730 comandos *lynx*, um
para cada arquivo html e, voilà, terei os 730 arquivos .TXT, sem
frustração, somente alegria!
Grato ao Marcos Alano por tentar me ajudar.
Abraço a todos *And a Happy For Loop!*
Paulo Fernandes
Mais detalhes sobre a lista de discussão ubuntu-br