encoding αχταρμάς

Giorgos D. Pallas gpall at ccf.auth.gr
Fri Jun 15 16:46:18 EEST 2007


Φίλοι μου, θα φάω το καπέλο μου. Αυτό που σας επισυνάπτω είναι το πράγμα
που παίρνω από το εξής:
mysqldump  -uadmin -pΧΧΧ --add-drop-table -c --create-options
--quote-names  mechengine events | iconv -f utf8 -t iso-8859-1 > test

και το οποίο με cat test σε τερματικό iso-8859-7 το βλέπω κανονικά με τα
ελληνικά του. Γιατί στο όνομα των χίλιων encodings θεωρεί πως είναι
8859-1; Ομοίως με το recode, όταν στο iconv πω -t utf8 -t iso-8859-7 μου
λεει για error in input sequence, untranslatable ετσέτερα, ετσέτερα...

Να και ένα snippet από ένα μέρος όπου έχει ελληνικά: όλες οι τελίτσες
έπρεπε να είναι ελληνικά...

00007080  20 61 6e 64 20 70 6f 77  65 72 20 6f 66 20 31 31  | and power
of 11|
00007090  37 30 20 48 50 20 74 6f  20 70 72 6f 64 75 63 74  |70 HP to
product|
000070a0  20 63 61 74 74 6c 65 20  66 65 65 64 2e 27 2c 39  | cattle
feed.',9|
000070b0  2c 4e 55 4c 4c 2c 4e 55  4c 4c 2c 31 2c 30 29 2c 
|,NULL,NULL,1,0),|
000070c0  28 35 34 2c 27 53 45 44  49 41 20 41 42 45 45 27  |(54,'SEDIA
ABEE'|
000070d0  2c 27 53 45 44 49 41 20  73 2e 61 2e 27 2c 27 32  |,'SEDIA
s.a.','2|
000070e0  30 30 36 2d 31 30 2d 32  39 27 2c 27 c1 e4 e5 e9 
|006-10-29','....|
000070f0  ef e4 fc f4 e7 f3 e7 20  f4 f9 ed 20 e5 e3 ea e1  |....... ...
....|
00007100  f4 e1 f3 f4 dc f3 e5 f9  ed 20 f4 e7 f2 20 e2 e9  |.........
... ..|
00007110  ef ec e7 f7 e1 ed df e1  f2 20 53 45 44 49 41 20  |.........
SEDIA |
00007120  c1 c5 c2 c5 20 f3 f4 e7  20 c2 c9 2e d0 c5 2e 20  |.... ...
...... |
00007130  d3 df ed e4 ef f5 20 c8  e5 f3 f3 e1 eb ef ed df  |......
.........|
00007140  ea e7 f2 2e 20 c7 20 e5  f4 e1 e9 f1 e5 df e1 20  |.... .
........ |
00007150  ea e1 f4 e1 f3 ea e5 f5  dc e6 e5 e9 20 ea e1 e8 
|............ ...|
00007160  df f3 ec e1 f4 e1 20 ea  e1 e9 20 dd f0 e9 f0 eb  |...... ...
.....|
00007170  e1 20 e3 f1 e1 f6 e5 df  ef f5 20 f3 e5 20 f7 fe  |. ........
.. ..|
00007180  f1 ef 20 f3 f5 ed ef eb  e9 ea de f2 20 dd ea f4  |..
......... ...|
00007190  e1 f3 e7 f2 20 33 2c 30  30 20 f4 2e ec 2e 20 27  |.... 3,00
.... '|
000071a0  2c 27 53 74 75 64 69 65  73 20 66 6f 72 20 63 6c  |,'Studies
for cl|
000071b0  65 61 72 61 6e 63 65 20  6f 66 20 53 45 44 49 41  |earance of
SEDIA|
000071c0  20 73 2e 61 2e 20 61 74  20 69 6e 64 75 73 74 72  | s.a. at
industr|
000071d0  69 61 6c 20 7a 6f 6e 65  20 6f 66 20 54 68 65 73  |ial zone of
Thes|
000071e0  73 61 6c 6f 6e 69 6b 69  2e 20 49 6e 64 75 73 74  |saloniki.
Indust|
000071f0  72 79 20 70 72 6f 64 75  63 74 73 20 63 68 61 69  |ry products
chai|

ndemou at gmail.com wrote:
> On 6/13/07, Giorgos D. Pallas <gpall at ccf.auth.gr> wrote:
>> Έχω ένα αρχειάκι το οποίο όταν το κάνω cat σε UTF-8 encoding τερματικού
>> μου δείχνει εκείνα τα aeoaeoao με τα accents που συνήθως βλέπουμε σε web
>> pages που έχουν ελληνικά αλλά encoding iso8859-1.
>
> εγώ βασίζομαι στο utrac[2] & iconv[1] και δεν είχα ποτέ πρόβλημα
>
> αν δεν τα καταφέρεις με αυτά δώσε ένα
>     hexdump -C file | head
> και στείλε μας το output
>
> ____________________
> [1]
> http://www.gnu.org/software/libiconv/documentation/libiconv/iconv.1.html
>     The iconv program converts text from one encoding to another
> encoding. More precisely, it converts from the encoding given for the
> -f option to the encoding given for the -t option.
>
> [2] http://utrac.sourceforge.net/Examples.html
> UTRAC stands for Universal Text Recognizer and Converter.  It is a
> command line tool and a library that recognize the encoding of an
> input file (ex: UTF-8, ISO-8859-1, CP437...) and its end-of-line type
> (CR, LF, CRLF).

-------------- next part --------------
A non-text attachment was scrubbed...
Name: test.bz2
Type: application/octet-stream
Size: 9594 bytes
Desc: not available
URL: <http://lists.hellug.gr/pipermail/linux-greek-users/attachments/20070615/ca9753eb/attachment.obj>


More information about the Linux-greek-users mailing list