scispace - formally typeset
Search or ask a question

Showing papers in "Procesamiento Del Lenguaje Natural in 2002"


Journal Article
TL;DR: La flexibilidad y el poder del corpus se deben a la arquitectura innovadora del corpus - varias bases de datos relacionales que estan ligadas y que tienen anotacion para los 45.000.000 n-grams distintos en el corpus.
Abstract: The first annotated corpus of historical and modern Spanish - the 100.000.000 word Corpus del Espanol - is now online at http://www.corpusdelespanol.org. Unlike other corpora of historical Spanish, the Corpus del Espanol allows searches by 35 grammatical categories, 20.000 lemmata, and 30.000 groups of synonyms and antonyms, in addition to searches by etymology, frequency, and by user-defined semantic and syntactic categories. All of this allows searches as complex as pronominal direct object + all forms of any synonym of querer + inifinitive, which occurs in the 1900s but not in the 1700s or 1800s. It is also possible to easily produce complete lists of collocations. The flexibility and power of the corpus (as well as the speed - 2-3 seconds for nearly all searches) are due to the innovative architecture of the corpus - several relational databases that are linked together and which contain annotation for the 45.000.000 distinct n-grams in the corpus

28 citations


Journal Article
TL;DR: A summary of the thesis put forward in December, 2000 by Jorge Grana Gil at the Computer Science Department of the University of La Coruna, and directed by doctors Manuel Vilares Ferro and Martin Rajman from the Swiss Federal Institute of Technology at Lausanne.
Abstract: We present a summary of the thesis put forward in December, 2000 by Jorge Grana Gil at the Computer Science Department of the University of La Coruna, and directed by doctors Manuel Vilares Ferro, from the same department, and Martin Rajman from the Swiss Federal Institute of Technology at Lausanne.

17 citations


Journal Article
TL;DR: A linguistic description of the typology of Named Entities is proposed and an architecture of sequential processes is described for addressing the recognition and classification of strong and weak Named Entity Recognition for Spanish.
Abstract: This paper presents a proposal for wide--coverage Named Entity Recognition for Spanish First, a linguistic description of the typology of Named Entities is proposed Following this definition an architecture of sequential processes is described for addressing the recognition and classification of strong and weak Named Entities The former are treated using Machine Learning techniques (AdaBoost) and simple attributes requiring non tagged corpora complemented with external information sources (a list of trigger words and a gazetteer) The latter are approached through a context free grammar for recognizing syntactic patterns A deep evaluation of the first task on real corpora to validate the appropriateness of the approach is presented A preliminar version of the context free grammar is qualitatively evaluated with also good results on a small hand--tagged corpus

17 citations


Journal Article
TL;DR: A method that avoids the use of rules that specify what stems can be generated from a given one by generating and verifying the hypotheses about possible grammatical forms is suggested.
Abstract: A crucial problem in development of systems for automatic morphological analysis for inflective languages is the treatment of stem alternations. The existing models require devel- opment of the corresponding rules that specify what stems can be generated from a given one. Many of such rules (e.g., for Russian about a thousand) do not have any reasonable linguistic in- terpretation. We suggest a method that avoids the use of such rules by generating and verifying the hypotheses about possible grammatical forms. The methods of such type are known as analysis through generation; they make the system development much simpler than the standard direct approach. A morphological analysis and generation system for Russian developed with our method is freely available for academic use; a Spanish system is being implemented.

15 citations


Journal Article
TL;DR: The Corpus del Espanol as mentioned in this paper contains 100.000.000 palabras in the first corpus anotado del espanol historico and moderno, a diferencia de otros corpus del ispanol historyico, permite busquedas por35 categorias gramaticales, 20.000 lemas, and 30.000 groups de sinonimos y antonimos, ademas de busquedsas por etimologia, frecuencia, and by categorias semanticas and sintacticas
Abstract: En http://www.corpusdelespanol.org se encuentra el Corpus del Espanol -100.000.000 palabras en el primer corpus anotado del espanol historico y moderno. A diferencia de otros corpus del espanol historico, el "Corpus del Espanol" permite busquedas por35 categorias gramaticales, 20.000 lemas, y 30.000 grupos de sinonimos y antonimos, ademas de busquedas por etimologia, frecuencia, y por categorias semanticas y sintacticas creadas por el usuario mismo. Con todo esto, puede haber busquedas tan complejas como "complemento directo pronominal + todas las formas de cualquier sinonimo de querer + infinitivo, que ocurre en el siglo XX pero no en los siglos XIII o XIX". Tambien se pueden producir facilmente listados completos de colocaciones. La flexibilidad y el poder del corpus (juntos con la velocidad- menos de 2-3 segundos para casi todas las busquedas) se deben a la arquitectura innovadora del corpus - varias bases de datos relacionales que estan ligadas y que tienen anotacion para los 45.000.000 n-grams distintos en el corpus.

11 citations


Journal Article
TL;DR: The basis of the annotation is presented, which follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus.
Abstract: The aim of this work is the construction of a syntactically annotated treebank for Basque. In this paper we present first, the basis of the annotation. After examining several options we chose the scheme presented in (Carrol et al., 1998). It follows the EAGLES standards and it is based on the idea of adding to each sentence in the corpus a series of grammatical relations specifying the dependencies between modifiers and their nucleus. After the formalism has been presented, we will describe the problems we have found and the decisions we have taken to solve them. Next we present an example showing the application of the scheme to an initial corpus. Finally, we present the main conclusions about the applicability to Basque and future work.

9 citations


Journal Article
TL;DR: Este trabajo se ha realizado gracias a una beca pre-doctoral asociada al proyecto X-Tract, PB98-1226 del Ministerio de Educacion y Cultura.
Abstract: Este trabajo se ha realizado gracias a una beca pre-doctoral asociada al proyecto X-Tract, PB98-1226 del Ministerio de Educacion y Cultura. Parte de esta investigacion se inscribe en el marco de los proyectos HERMES (TIC2000-0335-C03-02) y PETRA (TIC2000-1735-C02-02).

9 citations


Journal Article
TL;DR: A set of tools designed to help in the task of mining bilingual resources from the web, from a specific site, from the file system, from an list of URLs, or from a translation memory are described.

8 citations


Journal Article
TL;DR: A continuacion se analizan algunas propuestas de estudio de la sinonimia y se propone the que resulta mas adecuada a los propositos of the investigacion realizada, asi como se comparan sus prestaciones con respecto a WordNet.
Abstract: La tesis comienza con una descripcion de la herramienta que va a ser utilizada en el resto del trabajo: el Prolog, A continuacion se analizan algunas propuestas de estudio de la sinonimia y se propone la que resulta mas adecuada a los propositos de la investigacion realizada. Posteriormente se estudian algunos problemas importanes dentro del marco del procesamiento del lenguaje natural como la traduccion automatica, la sinonimia entre palabras, la sinonimia entre oraciones, la desambiguacion, etc., mediante la utilizacion de las herramientas de la programacion logica. En la ultima parte, se realiza una descripcion de un diccionario de sinonimos impreso que servira de base de datos para el diccionario electronico de sinonimos cuyo diseno que propone tambien en este capitulo. Finalmente, se analiza la utilidad de dicho diccionario electronico en el procesamiento del lenguaje natural, en lexicografia y en recuperacion de informacion, asi como se comparan sus prestaciones con respecto a WordNet. Partiendo de una concepcion gradual de la sinonimia y de la utilizacion de un diccionario de sinonimos (impreso) como base de datos empirica entendida como una muestra razonablemente fiel de comportamiento de la sinonimia en la practica, en esta tesis, se propone la elaboracion de un diccionario electronico de sinonimios que calcula el grado de sinonimia de dos de sus entradas. El calculo del grado permite mejorar las prestaciones del diccionario electronico frente al diccionario impreso. Las mejores obtenidas son las siguientes: 1,- El diccionario electronico detecta, de forma automatica, las acepciones y homografas de los sinonimos que proprociona como respuesta. 2,- Ordena los sinonimos segun su grado de sinonimia. 3,- Obtiene mas sinonimos que los que aparecen en el diccionario impreso bajo el criterio de que dos palaras son sinonimias si su grado de sinonimia es distinto de 0. 4,- Permite el

7 citations


Journal Article
TL;DR: Directores de la tesis: Manuel Palomar Sanz (Universidad de Alicante) y German Rigau Claramunt ( universitat Politecnica de Catalunya).
Abstract: Directores de la tesis: Manuel Palomar Sanz (Universidad de Alicante) y German Rigau Claramunt (Universitat Politecnica de Catalunya)

7 citations


Journal Article
TL;DR: Work done under partial support of Mexican Government (CONACyT and SNI) and CGEPI-IPN, Mexico.
Abstract: Work done under partial support of Mexican Government (CONACyT and SNI) and CGEPI-IPN, Mexico.

Journal Article
TL;DR: CATCG is a shallowparser for Catalan that uses the Constraint Grammar formalism and contains three basic tools: a morphological analyser, a POS tagger and a shallow parser.
Abstract: espanolCATCG es un sistema de analisis morfosintactico superficial para el catalan, basado en el formalismo Constraint Grammar, que contiene tres herramientas basicas: un analizador morfologico, un etiquetador morfologico y un analizador sintactico superficial. EnglishCATCG is a shallow parser for Catalan. It uses the Constraint Grammar formalism and contains three basic tools: a morphological analyser, a POS tagger and a shallow parser.

Journal Article
TL;DR: The authors describe a set of tools designed to help in the task of mining bilingual resources from the web, from a specific site, from file system, from list of URLs, or from a translation memory.
Abstract: espanolLos recursos multilingues son utiles para los estudios linguisticos, para la traduccion y para muchas otras tareas. Sin embargo, estos recursos son dificiles de obtener y de organizar. En este documento describimos un conjunto de herramientas disenadas para ayudar en la tarea de extraer recursos bilingues de la Red que sirvan para construir corpora paralelos y memorias de traduccion. Nuestro objetivo es construir herramientas que puedan ser compartidas o usadas de manera independiente. EnglishMultilingual resources are useful for linguistic studies, translation, and many other tasks. Unfortunately, these resources are difficult to obtain and organize. In this document we describe a set of tools designed to help in the task of mining bilingual resources from the web, from a specific site, from a file system, from a list of URLs, or from a translation memory. As a design goal we intend to build tools that can be used both cooperatively (in pipeline) and also in a independent way.

Journal Article
TL;DR: En esta comunicacion se describe un sistema de conversion texto-voz en lengua gallega basado en las denominadas "tecnicas de sintesis basadas en corpus", y se propone the seleccion conjunta del contorno entonativo y of las unidades de sintsis, con objeto of minimizar the distorsion causada by las modificaciones prosodicas.
Abstract: En esta comunicacion se describe un sistema de conversion texto-voz en lengua gallega basado en las denominadas "tecnicas de sintesis basadas en corpus". A diferencia de los tradicionales sintetizadores de voz por concatenacion, que normalmente utilizan un conjunto de unidades de sintesis reducido, los sistemas de sintesis basados en corpus consideran multiples realizaciones de cada unidad y, mediante tecnicas de programacion dinamica, seleccionan aquella secuencia de unidades que minimiza una funcion de coste. Por otro lado, tradicionalmente, la generacion de la informacion prosodica se realiza en una etapa previa a la seleccion de unidades, lo que ocasiona que en muchas ocasiones sea necesario manipular en exceso las unidades seleccionadas con el fin de ajustarlas a la entonacion, duracion y energia deseadas. En este articulo tambien se propone la seleccion conjunta del contorno entonativo y de las unidades de sintesis, con objeto de minimizar la distorsion causada por las modificaciones prosodicas.

Journal Article
TL;DR: An approach to the development of a dialogue manager based on stochastic models for the representation of the dialogue structure and strategy is presented and has been applied to a Spanish dialogue system which answers queries about train timetables by telephone in Spanish.
Abstract: We present an approach to the development of a dialogue manager based on stochastic models for the representation of the dialogue structure and strategy. The input of the manager consists of the semantic representation of the user turn. It has been applied to a Spanish dialogue system which answers queries about train timetables by telephone in Spanish.

Journal Article
TL;DR: In this work, a new approach to automatically generate a similarity thesaurus through a comparable corpus is described, with the aim of applying it to Cross Language Information Retrieval.
Abstract: In this work, it is described a new approach to automatically generate a similarity thesaurus through a comparable corpus, with the aim of applying it to Cross Language Information Retrieval. Although the availability of linguistic resources is higher and higher, it is still difficult to heve access to some of them, above all on multilingual circles. Even, the complexity itself of the ask CLIR requires the global use of several resources to increase the efficiency of the system. The comparable corpus are one of this multilingual resources specially interesting due to its availability and due do its chance to be generated automatically. However, in order to make these corpora useful, they should be aligned at least at document level. In order to carry out this task, clustering techniques have been used. Once the documents are aligned, the similarity thesaurus is generated from them. The accomplished experiments show that the multilingual similarity thesaurus are a good chance when other more suitable resources are not available.

Journal Article
TL;DR: En this trabajo se presenta un metodo de desambiguacion funcional that reduce el tamano of the respuesta gracias al tratamiento que hace of las estructuras sintacticas locales.
Abstract: Debido a que en espanol existe una considerable cantidad de palabras que pueden desempenar diferentes funciones gramaticales, el analisis de un texto produciria una desmesurada multiplicidad de combinaciones posibles en caso de no tener en cuenta la funcion de cada voz en el contexto en que aparece En este trabajo se presenta un metodo de desambiguacion funcional que reduce el tamano de la respuesta gracias al tratamiento que hace de las estructuras sintacticas locales

Journal Article
TL;DR: STILUS es el producto de tecnologia linguistica de DAEDALUS S.A. para the revision ortografica, gramatical y de estilo de gran calidad de textos en castellano, y permite detectar en un texto palabras erroneas o desconocidas.
Abstract: STILUS es el producto de tecnologia linguistica de DAEDALUS S.A. para la revision ortografica, gramatical y de estilo de gran calidad de textos en castellano. Con STILUS se puede revisar cualquier texto, ya se trate de un documento de cualquier procesador de textos o de una pagina web, y obtener un informe detallado y preciso con los errores ortograficos, gramaticales y de estilo detectados. El revisor ortografico de DAEDALUS permite detectar en un texto palabras erroneas o desconocidas. En este caso, STILUS propone palabras alternativas. El revisor gramatical de STILUS reconoce los siguientes tipos de errores: • Errores de concordancia: errores que contravienen restricciones de las categorias gramaticales de genero y de numero. § Dentro del SN -errores intrasintagmaticos: se producen violaciones de genero y numero dentro de un SN (p. ej., *Los periodico han resaltado la ineficacia de las autoridades.). § Fuera del SN -errores intersintagmaticos: se producen violaciones de genero o de numero entre el SN y los sintagmas vinculados a el, como entre el sujeto y el verbo, el sujeto y el atributo (p. ej. *Los periodicos ha resaltado la ineficacia de las autoridades.). • Errores de secuencias: errores que violan restricciones de secuencializacion de las categorias lexicas. § Homofonia (p. ej., *Solo piensa en si mismo.). § Grupos verbales continuos (p. ej., *Habia incluso pensado en venir antes). § Dequeismo y queismo (p. ej., *El servicio contestador de Telefonica le informa que no tiene ningun mensaje). § Sustitucion de preposiciones (p. ej., *Los politicos discrepan con los sociologos en muchas materias.). § Secuencias ilegales con amalgamas (p. ej., *Se trata de una seccion ritmica a al que se anaden instrumentos.). § Cambio de forma en las conjunciones coordinantes (p. ej., *Francia y Inglaterra han firmado los acuerdos de adhesion.). Para STILUS, el control del estilo significa control de la consistencia de un determinado texto, consistencia que ha de comprobarse a distintos niveles: • Consistencia en el uso del sublenguaje . § Nivel lexico: En el nivel lexico, el control de estilo se efectua sobre piezas lexicas que impiden la legibilidad y la comprension de los textos escritos (p. ej., extranjerismos, latinismos, etc.). § Nivel estructural: En el nivel estructural, la revision se realiza sobre el uso abusivo de ciertas construcciones (p. ej., pasivas

Journal Article
TL;DR: The aim of this paper is to focus on a problem about automatic generation in Spanish: the long verbal morphology causes a problems about the lexicon storage, because of storing each morphological variation of a term.
Abstract: espanolEl proposito de este articulo es, en primer lugar, llamar la atencion sobre un problema concerniente a la generacion automatica del espanol: la extensa morfologia del verbo crea un problema de almacenamiento de lexico, ya que introducir una a una todas las posibles variaciones morfologicas de cada elemento lexico es una tarea ardua y pesada. Se hace, pues, necesario la especificacion de recursos para la generacion de todas las posibles variaciones a partir de un minimo de informacion contenida en el lexico, con lo cual la introduccion de elementos lexicos verbales se hace mucho mas simple. La especificacion de estos recursos constituye la parte central del presente articulo. Dichos recursos han sido disenados para el entorno de desarrollo de gramaticas KMPL, que en la actualidad esta siendo desarrollado en la Universidad de Bremen. Esto significa que las especificaciones computacionales de estos recursos son validas solo para KPML o un entorno similar que utilice una aproximacion sistemico-funcional. No obstante, la parte mas abstracta del articulo, la que trata sobre la clasificacion y organizacion de los verbos para un almacenamiento lexico mas economico, puede ser aplicable a cualquier sistema de generacion. EnglishThe aim of this paper is, firstly, to focus on a problem about automatic generation in Spanish: the long verbal morphology causes a problem about the lexicon storage, because of storing each morphological variation of a term. Therefore, it is necessary the specification of tools to generate all possible variations of a term, from someone information stored in the lexicon. The specification of this kind of tools is the main aim of this paper. These tools have been designed for the development toolkit for KMPL grammars, which is presently developed in the University of Bremen. It means that the computational specifications of these tools are only proper for KPML.

Journal Article
TL;DR: This paper shows how the framework of Rhetorical Structure Theory (RST) for discourse modelling can be expressed through XML annotations and then used to implement a natural language generation system for the web.
Abstract: This paper shows how the framework of Rhetorical Structure Theory (RST) for discourse modelling can be expressed through XML annotations and then used to implement a natural language generation (NLG) system for the web. The system applies simplified RST schemes to the elaboration of a master document in XML from which content segments are chosen to suit the user's needs. The personalisation of the document is achieved through the application of a sequence of filtering levels of content selection based on the user aspects given as input.

Journal Article
TL;DR: Se plantea una combinacion de ambas fuentes de conocimiento para proponer una base linguistica, cientifica y metodologica de resolucion basada en informacion enriquecida that incorpora morfologia, sintaxis y semantica.
Abstract: Esta tesis presenta un profundo estudio de la influencia y el uso de papeles sintacticos e informacion semantica en la resolucion de la anafora pronominal en espanol, en concreto la generada por pronombres personales, demostrativos, reflexivos y omitidos. Se plantea una combinacion de ambas fuentes de conocimiento para proponer una base linguistica, cientifica y metodologica de resolucion basada en informacion enriquecida que incorpora morfologia, sintaxis y semantica.

Journal Article
TL;DR: A complete and normalized morphosyntactic tagset for the annotation of linguistic corpora in Galician and an intermediate tagset is created that allows us to establish a correspondence between grammatical information encoded for Galician in the CLUVI (Linguistic Corpus of the University of Vigo) and the information encoded in the EAGLES standard format in corpora of other languages.
Abstract: In this article we present a complete and normalized morphosyntactic tagset for the annotation of linguistic corpora in Galician. The elaboration of this tagset, designed by the Computational Linguistics Group (SLI) of the University of Vigo, following strictly the EAGLES recommendations (Leech and Wilson, 1996), includes the creation of an intermediate tagset that allows us to establish a correspondence between the grammatical information encoded for Galician in the CLUVI (Linguistic Corpus of the University of Vigo) and the information encoded in the EAGLES standard format in corpora of other languages.

Journal Article
TL;DR: Trabajo realizado con el apoyo parcial del Gobierno parcial de Mexico (CONACyT y SNI) y CGEPIIPN, Mexico y agradecimiento a Graeme Hirst y Ted Pedersen por sus utiles consejos y discusion.
Abstract: Trabajo realizado con el apoyo parcial del Gobierno de Mexico (CONACyT y SNI) y CGEPIIPN, Mexico Expresamos nuestro mas cordial agradecimiento a Graeme Hirst y Ted Pedersen por sus utiles consejos y discusion

Journal Article
TL;DR: This work shows a new approach based on neuronal networks that increases the precision in WSD task that performes better than other algorithms widely used in other works.
Abstract: Word Sense Disambiguation is an important task in Natural Language Processing. This work shows a new approach based on neuronal networks that increases the precision in WSD task. The learning algorithm is based on the Kohonen model, known with the name of the LVQ algorithm (Learning Vector Quatization). The results demonstrate that the use of this competitive algorithm performes better than other algorithms widely used in other works.

Journal Article
TL;DR: This research presents a probabilistic procedure for estimating the intensity of the response of the immune system to treatments of infectious diseases such as tuberculosis.
Abstract: Johann Haller IAI –Instituto de Ciencia Aplicada de la InformacionUniversidad de Saarland Martin-Luther-Strasse 14, 66111, Saarbrucken, Alemania hans@iai.uni-sb.de Alexis Donoso IAI –Instituto de Ciencia Aplicada de la InformacionUniversidad de Saarland Martin-Luther-Strasse 14, 66111, Saarbrucken, Alemania alexisdonoso@web.de Yamile Ramirez IAI –Instituto de Ciencia Aplicada de la InformacionUniversidad de Saarland Martin-Luther-Strasse 14, 66111, Saarbrucken, Alemania yamirasa@web.de

Journal Article
TL;DR: Esta investigacion se ha llevado a cabo gracias a la ayuda del proyecto HERMES (TIC 2000-0335-C03-02).
Abstract: Esta investigacion se ha llevado a cabo gracias a la ayuda del proyecto HERMES (TIC 2000-0335-C03-02).

Journal Article
TL;DR: The author was examined in September 25, 2000 by the commitee formed by Dr. Alonso Pardo under the supervision of Dr. Manuel Vilares Ferro and Dr. Antonio Blanco Ferro as discussed by the authors.
Abstract: PhD Thesis in Computer Science written by Miguel A. Alonso Pardo under the supervision of Dr. Manuel Vilares Ferro (Universidade da Coruna, Spain) and Dr. Eric Villemonte de la Clergerie (INRIA, France). The author was examined in September 25, 2000 by the commitee formed by Dr. Josep Miro (Universitat de les Illes Balears, Spain), Dr. Jose Mira Mira (UNED), Dr. Pierre Boullier (INRIA, France), Dr. Mark-Jan Nederhof (DFKI, Germany) and Dr. Antonio Blanco Ferro (Universidade da Coruna, Spain). The grade obtained was Sobresaliente Cum Laude.

Journal Article
TL;DR: Este trabajo ha sido parcialmente financiado by el Ministerio de Ciencia y Tecnologia (TIC2000-1005-C03-03 y TIC 2000-1669-C04-03).
Abstract: Este trabajo ha sido parcialmente financiado por el Ministerio de Ciencia y Tecnologia (TIC2000-1005-C03-03 y TIC2000-1669-C04-03).

Journal Article
TL;DR: En este resumen mostramos los aspectos mas relevantes incluidos en the tesis doctoral, cuyo hilo central ha girado en torno al estudio y comparacion de un conjunto significativo de estrategias de analisis para la clase de las Gramaticas de Adjuncion de Arboles.
Abstract: En este resumen mostramos los aspectos mas relevantes incluidos en la tesis doctoral, cuyo hilo central ha girado en torno al estudio y comparacion de un conjunto significativo de estrategias de analisis para la clase de las Gramaticas de Adjuncion de Arboles.

Journal Article
TL;DR: A quantitative characterization of the intuitive notions of normal, low and high speed of speech is presented, which is fundamental in the context of the study of the behaviour of the speaker of a language, when it is tried to obtain a speech synthesis with some level of control on the speed of the speech.
Abstract: espanolLa magnitud velocidad del habla no tiene una definicion precisa, si bien es ampliamente utilizada tanto en actividades diarias como en tareas especificas como lo son la dactilografia, estenografia y taquigrafia, entre otras. Esta nocion resulta fundamental en el contexto del estudio del comportamiento de los alofonos de un idioma, cuando se intenta realizar sintesis del habla con algun grado de control sobre la velocidad del sonido producido. No existe informacion precisa para el castellano y, mucho menos, para una de sus variantes como lo es la hablada en Uruguay y en el centro y sur de Argentina llamada castellano rioplatense. En este articulo se presenta una caracterizacion cuantitativa de las nociones intuitivas de velocidad normal, lenta y rapida del habla. El mismo describe investigaciones realizadas una amplia base experimental, ya que sus conclusiones son obtenidas de mediciones llevadas a cabo sobre 120 textos emitidos por diferentes locutores a distinta velocidad, en un contexto completamente libre de condicionamientos. Mas de la mitad de los textos fueron obtenidos desde fuentes publicas y de personas que nunca supieron que fueron especialmente grabadas para este estudio. EnglishThe magnitude of the speed of speech does not have a precise definition, as it is widely used both in daily activities and in specific tasks. This notion is fundamental in the context of the study of the behaviour of the speaker of a language, when it is tried to obtain a speech synthesis with some level of control on the speed of the speech. There is no knowledge about Spanish, and there is not on its variants. In this paper, it is presented a quantitative characterization of the intuitive notions of normal, low and high speed of speech.