Re: Sobre la ele geminada (era: Re: us funciona l'opció nodeadkeys?)

El dia 30 desembre de 2013 16.38, Ernest Adrogué <nfdisco@gmail.com> ha escrit:

2013-12-28, 05:58 (+0000); Ferran Jorba escriu:

> Carai, Joan, un article magnífic. A mi també sempre m'havia fet arronsar el
> nas aquest punt volat en un sol caràcter, però mai no havia sabut concretar
> el perquè, i el teu article ho explica fantàsticament bé. Només hi afegiria
> una raó més: la ordenació. Com que la ela geminada s'ha d'ordenar com si
> fos una doble ela, si tens entrades que s'han d'ordenar, utilitzant la
> combinació l·l d'entrada ja s'hi acosta molt més que el caràcter combinat
> (tot i que per a una ordenació correcta hi ha altres factors en els que ara
> no cal entrar-hi).

Doncs a mi me'ls ordena bé.

Cert, el caràcter ŀ té la mateixa consideració respecte a la L que el caràcter à respecte la A, gràcies a que és canònicament equivalent a L+ accent "punt superior" . El comportament predeterminat a Unicode ens afavoreix.

Una cosa que em posa negre de la «l·l» és que la navegació de paraules no
funciona. Proveu d'escriure «il·luminat» i ALT-B, que hauria de moure el
cursor al principi de la paraula. Es queda encallat en el punt. I els
correctors ortogràfics detecten error perquè es creuen que són dues paraules
«il» i «luminat». Això és perquè el caràcter «·» està catalogat com a
puntuació. En canvi el caràcter «ŀ» està catalogat com a alfabètic i no té
aquest problema.

Cert, el caràcter ŀ és alfabètic i no té problemes d'aquest tipus. En té d'altres. Per exemple hi ha tipus de lletra que no el tenen, o està mal dissenya, o no es fa servir a les bases de dades o no es troba al teclat ISO espanyol.

Per altra banda, els problemes que indiques no són deguts (exclusivament) a la categoria del puntuació del punt volat (U+00B7). A Unicode, la majoria d'estandàrds tenen en compte l'ús que en fem i, si l'apliació està ben dissenyada, acomplint amb Unicode, no hauríem de patir cap problema.

Per exemple, això que indiques del cursor, o el doble clic amb el ratolí, o el tokenitzador que passa els mots al motor de correcció ortogràfica, haurien de funcionar bé si segueixen l'estàndard UAX TR29. I no només per al català, sinò com a valor predeterminat.
http://www.unicode.org/reports/tr29/#Word_Boundaries

Python (o Perl ara em balla la memòria) permet variables amb caràcters no ASCII i sí, permet el punt volat, gràcies a l'UAX TR31
http://www.unicode.org/reports/tr31/

i se del cert que a can Twitter s'estan mirant el tema dels hashtags, amb sort en el 1r trimestre tindrem bones notícies, :)

Els algorismes que detecten URL automàticament haurien de funcionar (Gmail, Yahoo i Outlook web fallen!!!) si segueixen l'RFC 5892. Llegiu l'apèndix A.3
http://tools.ietf.org/search/rfc5892

Em referia a això en algun missatge anterior. El punt volat té problemes. Sí. Solucionem-los. Però estendre una codficació alternativa que no és plenament compatible, sense la col·laboració de tots els actors (governs, Unicode, Microsoft, Google, Apple, Adobe...) ho trobo contraproduent.

Joan Montané