[an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]
[an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] (none) [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive][an error occurred while processing this directive]![]() |
![]() |
![]() |
|||||||||||||||||||||||||
|
|||||||||||||||||||||||||||
![]() |
![]() |
![]() |
On Fri, Jul 01, 2005 at 01:57:47PM +0200, Ole Laursen wrote: > sslug@sslug (Jacob Sparre Andersen) writes: > > > Problemer: > > > > > + UTF-8 kommer med begrebet »harmonisering« af strenge (=> programmer > > har lov til at omkode tegn til nogle der af og til ligner det) > > Det må jeg indrømme jeg aldrig har hørt om, og jeg kan ikke lige finde > noget med Google. Kan du uddybe? Så vidt jeg er orienteret, er UTF-8 > bare en måde at kode tegnene fra ISO-10646 på. Jeg tror han mener normalisering. Unicode er ikke et tegnsæt i gængs forstand, fordi der er flere måder at kode det samme tegn. Fx 'å' kan kodes som et enkelt tegn å og som to tegn: a med bolle. Normaliseringen sørger så for at en hel tekst (fil) enten koder alle å-erne på den ene eller den anden måde. Det er IMHO noget forfærdeligt rod, og jeg fik igennem i 10646 at det i hvert fald terminologisk ikke var sådan i 10646 at tegn konne kodes på forskellig måde. > > 3) Lav styresystemer, protokoller og filformater så de kun arbejder > > med én tegnkodning (det er noget rod at man kan angive filtypen > > »text/<et eller andet>« uden at angive en tegnkodning - og at en > > bruger kan ændre fortolkningen af et filnavn ved at ændre en > > opsætningsvariabel). > > Og det er netop her UTF-8 kommer ind. Ved at anbefale folk at hænge > fast i ISO-8859-* modarbejder du den idé. Jeg tror man skal kunne tillade flere tegnsæt samtidigt. Vi har ihvertfald i dag flere tegnsæt der er relevante, iso-8859-1 iso-8859-15, UTF-8, UTF-16LE, UTF-16BE, UCS4 i forskellige afskygninger og endianner, bare for at tage danske forhold. Vi skal altså kunne snakke sammen og udveksle filer og iøvrigt kunne gøre det også på vores egne systemer, hvor jeg da har en masse iso-8859-1 filer og en del utf-8 filer, og jeg med tiden vil få feler utf-8 filer, nok. Det vil jeg gerne kunne behandle fremover, også de næste 10-20-30 år. > Hilsen keld
![]() |
![]() |
![]() |
||||||||||||
|
||||||||||||||
![]() | ||||||||||||||
|
||||||||||||||
![]() |
![]() |
![]() |