Zababov: Unicode, unicode, proč tě programátoři nechtějí?

neděle, ledna 27, 2008

Unicode, unicode, proč tě programátoři nechtějí?

Dlouho, dlouho už hledám textový editor, který by podporoval Unicode. Mám teď na mysli editory neformátovaného textu, prostě něco jako Poznámkový blok ve Windows XP. Jen použitelnější. Vývojově nejdále jsou na tom editory, které používají programátoři. Textových editorů jsem zkoušel hodně. Nejblíže mým požadavkům je Emeditor a UltraEdit 32, který ale zase neumí moc s Unicodem. Chtěl bych takovou kombinaci toho nejlepšího z TextWrangleru a UltraEditu.

Editor, který potřebuju, musí umět:

Regular expressions

Zobrazovat texty volitelným (tedy i nepropocionálním) unicodovým písmem

Skriptování, např. v JavaScriptu

Regular expressions a skriptování jsou naprostou nutností. Kupříkladu včera jsem se začal učit JavaScript a patlal se se sriptíkem, kterej by mi v otevřeným dokumentu vyhledal desetinná čísla, která znamenala sekundy a přepočítal a přepsal mi je to tvaru hh:mm:ss:cs (hodiny:minuty:sekundy:centisekundy). Podporu skriptování má pokud vím jen UltraEdit 32, ale v něm mi skript fungoval jen pokud byl dokument v ASCII. Jakmile jsem otevřel něco v UTF-8, nebyl schopný z něj vyčíst desetinné číslo a uložit ho do proměnné. Nevím, je-li to chyba UltraEditu nebo JavaScriptu.

Byl jsem vzhůru asi do půl čtvrtý, a hledal jsem jak tuhle blbost obejít. Našel jsem.

Rozhodně nechápu, proč ještě svět nepřešel k obecný kódovací normě UTF-32. Já vím, že je to pro naši latinku neekonomický. Ale to je jako by Američani lpěli na 7-bitovým ASCII, s odůvodněním, že kódovat jejich 2 × 26 písmenek osmi bitama je neekonomický. Tak teď když mají národy píšící latinkou víceméně vystaráno, tak nechtěj přejít na UTF-32. Proč kódovat jeden znak 4 bajtama, když stačí jeden nebo tu a tam dva?