<div class="gmail_quote">On Sat, Nov 6, 2010 at 10:44 AM, Aart Koelewijn <span dir="ltr"><<a href="mailto:aart@mtack.xs4all.nl">aart@mtack.xs4all.nl</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="im">> � &quot;  ’<br>
<br>
</div>It looks like you have a problem with character encoding. These can<br>
usually be tackeld with the program "recode". The &quot gives the<br>
impression there is stil some html character encoding in place. To change<br>
this to UTF-8 you could use "recode HTML..UTF-8 file". You can do much<br>
more with recode, "man recode" for all possibilities.<br>
<br></blockquote><div><br></div><div>Another tool for this is 'iconv'. In any case, there certainly looks like a character encoding issue, which should be dealt with before any other text processing. One issue at least with iconv (I have not tried recode), you pretty much have to know the encoding of the input file. A proper HTML file should have the encoding in the HEAD. If coming from a windows system, the best bet (in my experience) is a windows-1252 encoding (in case you have to start guessing). Output should be UTF8.</div>
</div><br>-- <br>Hal<br>