Identificadores No-Ascii en Python

Discussion:

Gabriel Genellina

2007-05-15 08:47:13 UTC

Hola

(Crossposteado en gmane.org.user-groups.python.argentina y
gmane.comp.python.general.castellano)

En la lista en inglÃ©s de Python se puso a consideraciÃ³n esta propuesta:

PEP: 3131
TÃtulo: Soporte de Identificadores No-ASCII
http://groups.google.com/group/comp.lang.python/browse_thread/thread/ebb6bbb9cc833422/a4a0141d6c4cd1ed?#a4a0141d6c4cd1ed

BÃ¡sicamente sugiere soportar letras no-ASCII (como caracteres acentuados,
cirÃlicos, griegos, kanji, etc) como identificadores Python.
Si fuera aceptada, los siguientes serÃan identificadores vÃ¡lidos para
clases, funciones o nombres de variable: LÃ¶ffelstiel, changÃ©, ÐŸÑÐžÐ±ÐºÐ°, or å£²
ãå Ž (confiando que este Ãºltimo signifique "contador").

Aca va un intento de traducciÃ³n - hice lo mejor que pude...

=== begin ===
PEP: 3131
Title: Soporte de Identificadores No-ASCII
Version: $Revision: 55059 $
Last-Modified: $Date: 2007-05-01 22:34:25 +0200 (Di, 01 Mai 2007) $
Author: Martin v. LÃ¶wis <***@v.loewis.de>
Status: Draft
Type: Standards Track
Content-Type: text/x-rst
Created: 1-May-2007
Python-Version: 3.0
Post-History: TraducciÃ³n al espaÃ±ol por Gabriel Genellina

Resumen
=======

Este PEP sugiere soportar letras no-ASCII (como caracteres acentuados,
cirÃlicos, griegos, kanji, etc) como identificadores Python.

MotivaciÃ³n
==========

Mucha gente en el mundo que escribe cÃ³digo Python no estÃ¡ familiarizada
con la lengua inglesa, ni incluso conoce bien el sistema de escritura
latino. Tales desarrolladores a menudo desean definir clases y funciones
con nombres en sus lenguas nativas, antes que tener que usar una
traducciÃ³n al ingles (a menudo incorrecta) del concepto que desean nombrar.

Para algunos idiomas, existen sistemas de transliteraciÃ³n comunes (en
particular, para los sistemas de escritura basados en el alfabeto latino).
En otros idiomas, los usuarios tienen mayores dificultadas al usar el
alfabeto latino para escribir sus palabras nativas.

Objeciones comunes
==================

Algunas objeciones se invocan a menudo en contra de propuestas similares a
Ã©sta.

La gente afirma que no serÃ¡n capaces de usar una librerÃa si para ello
tienen que usar caracteres que no se pueden escribir con su teclado. Sin
embargo, es el diseÃ±ador de la librerÃa quien decide las restricciones de
uso de la misma: la gente podrÃa no tener acceso al cÃ³digo fuente (porque
no esta publicado), o porque la licencia prohibe su uso, o porque la
documentaciÃ³n esta en un lenguaje que no comprenden. Un desarrollador que
desea hacer su librerÃa ampliamente disponible debe hacer cierto nÃºmero de
elecciones explicitas (publicaciÃ³n, licenciamiento, lenguaje de la
documentaciÃ³n, lenguaje de los identificadores). Es una elecciÃ³n que debe
hacer el autor de la librerÃa, no los diseÃ±adores del lenguaje.

En particular, los proyectos que deseen ser de uso amplio probablemente
deseen establecer una polÃtica donde todos los identificadores,
comentarios y documentaciÃ³n se escriban en inglÃ©s (ej: la guia de estilo
de cÃ³digo GNU).
Restringiendo el lenguaje a identificadores ASCII Ãºnicamente, no se
garantizan comentarios y documentaciÃ³n en inglÃ©s, ni que los
identificadores sean realmente palabras inglesas, asÃ que una polÃtica
adicional siempre es necesaria.

EspecificaciÃ³n de Cambios en el Lenguaje
========================================

La sintaxis de los identificadores en Python estarÃ¡ basada en el Anexo
UAX-31 [1]_ del estÃ¡ndar Unicode, con la elaboraciÃ³n y comentarios
siguientes:

Dentro del rango ASCII (U+0001..U+007F), los caracteres vÃ¡lidos para
identificadores son los mismos que en Python 2.5. En esta especificaciÃ³n
solo se introducen caracteres adicionales fuera del rango ASCII. Para los
otros caracteres, la clasificaciÃ³n se basa en la versiÃ³n de Unicode
Character Database incluida en el modulo ``unicodedata``.

La sintaxis de un identificador es ``<ID_Start> <ID_Continue>*``.

``ID_Start`` se define como todos los caracteres que tengan alguna de
estas categorÃas generales: letras mayÃºsculas (Lu), letras minÃºsculas
(Ll), letras de tÃtulo (Lt), letras modificadoras (Lm), otras letras (Lo),
letras numÃ©ricas (Nl, mÃ¡s el carÃ¡cter de subrayado (XXX quÃ© son las
"stability extensions" listadas en UAX 31) [nota presente en el original
en inglÃ©s].

``ID_Continue`` se define como todos los caracteres en ``ID_Start``, mÃ¡s
marcas no espaciadoras (Mn), marcas de combinaciÃ³n de espacio (Mc),
nÃºmeros decimales (Nd) y puntuaciones conectivas (Pc).

Todos los identificadores se convierten en la forma normal NFC mientras se
parsean; la comparaciÃ³n de identificadores se basa en NFC.

EspecificaciÃ³n de la PolÃtica
=============================

Como adiciÃ³n al Estilo de CodificaciÃ³n en Python, se prescribe la
siguiente polÃtica: Todos los identificadores en la librerÃa estÃ¡ndar de
Python DEBEN usar identificadores sÃ³lo ASCII (sic), y DEBERÃAN usar
palabras inglesas siempre que sea posible.

Como una opciÃ³n, esta especificaciÃ³n puede ser aplicada a Python 2.x. En
ese caso, los identificadores sÃ³lo ASCII continuarÃan siendo representados
como strings de bytes en los diccionarios de los espacios de nombres; los
identificadores con caracteres no-ASCII serÃan representados como strings
Unicode.

ImplementaciÃ³n
==============

Los siguientes cambios deberÃ¡n hacerse al parser:

1. Si un carÃ¡cter no ASCII se encuentra en la representaciÃ³n en UTF-8 del
cÃ³digo fuente, se hace una bÃºsqueda hacia adelante hasta encontrar el
primer carÃ¡cter ASCII no-identificador (ej: un espacio o carÃ¡cter de
puntuaciÃ³n).

2. La string completa UTF-8 se pasa a una funciÃ³n para normalizar la
string en NFC, y entonces verificar que sigue la sintaxis de
identificadores. Tal llamada no se hace para identificadores ASCII puros,
que continÃºan siendo parseados de la misma forma que hasta ahora.

3. Si esta especificaciÃ³n se implementa en 2.x, se debe verificar que las
librerÃas de reflexiÃ³n (como pydoc) continÃºan funcionando cuando strings
Unicode aparecen en los slots ``__dict__`` como claves.

Referencias
===========

.. [1] http://www.unicode.org/reports/tr31/

Copyright
=========

Este documento se pone en el dominio publico.
=== end ===

Hay gente a favor y gente en contra. El problema en la discusiÃ³n es que
quienes opinan, mayormente tienen el ingles como idioma nativo asi que la
opinion no es del todo imparcial. Por eso conviene que gente como nosotros
opine sobre este cambio. Asi que, quÃ© les parece?

(El resumen de como viene la discusion hasta ahora se los debo - es tarde
ya :) )

--
Gabriel Genellina

Mariano Draghi

2007-05-15 11:53:42 UTC