|
Тема |
Re: Unicode [re: drone] |
|
Автор |
ess (...и бира чадо!) |
|
Публикувано | 18.08.03 14:04 |
|
|
Грубо казано Unicode е стандарт за описване на символи - в смисъл на даден символ от някой език (жив или мъртъв) е присвоено число.
А UTF8, UTF16, UTF32, Win1251 за начини за кодиране на това съответствие в съответният брой байтове за символ. В общия случай UTF16 съответства 1:1 с Unicode, но вече има и UTF32 (т.е. символа е кодиран с 4 байта), защото Unicode отдавна мина границата от 2 байтовия range.
Така, че UTF8 си е кодиране. И не виждам защо човек трябва да се тормози с парсване, като всяка среда (Windows, Linux пр.) си има съответните системни функции.
Вярно е, че за да разпознаеш дали даден текст е UTF8 или UTF16 напр., е нужна доста евристика (ако сигнатурата липсва или не и вярваш)....
---
Не е важно да си добър, важното е да си ман-и-як!
|
| |
|
|
|