research product . 2006

Lematizador morfosintáctico y semántico robusto con flexionador y estimador idiomático, usando algoritmos eficientes y compactos para idiomas muy ricos en formas como el español

Hohendahl, Andres T.; Zelasco, José F.;
Open Access Spanish
  • Published: 01 Oct 2006
  • Country: Argentina
Abstract
We present a word recognition and generation system for multilingual natural language processing, intended for human-machine interface. Presenting robust, low memory footprint and efficient algorithms, it is capable of: language identification, linguistic word-tagging, semantic extraction, automatic error recognition and correction with morphologic and sound-like estimation capability. It uses simple rules to express sophisticated and reversible morphological changes. Tolerates, detects and corrects spelling errors, primarily intended for text generated by automatic natural speech and writing recognition; constrained inputs like mobile phone keyboards or PDA’s, chat and/or e-mails. Useful for interactive text correction & assistance in word processing, it yields a low memory footprint and high processing speed, being adequate for personal computers, portables, palms, mobiles & embedded solutions. For spanish, it needs 200Kb for 50k lemmas and 4500 rules, equivalent to 1.2M exact words and >300M guessable. Capable of morphological and sound-like inference, in a similar way as a natural language human hearer would perform. As flexion generator, it has added semantic expression capability
Se presenta un sistema de reconocimiento y flexión de palabras en lenguaje natural orientado a interfase hombre-máquina. Presentamos algoritmos robustos, eficientes y con poca impronta de memoria, capaces de realizar identificación idiomática, etiquetado lingüístico, extracción semántica, estimación morfológica y acústica (por similitud). Usa reglas simples capaces de expresar sofisticados cambios morfológicos reversibles. Tolera, detecta y corrige errores, estando principalmente orientado a textos provenientes de reconocimiento automático de voz y texto escrito, mensajes de teclados restringidos como terminales móviles “sms/mms/wap”, PDA’s etc.., “chat” y/o e-mail. Es apropiado para asistencia y corrección interactiva en procesamiento de texto, tiene baja impronta de memoria y alta velocidad de proceso, siendo adecuado para ordenadores personales, portátiles, móviles y productos embebidos. Para el español, requiere 200Kb para 50k lemas y 4500 reglas, equivalentes a 1.2M palabras exactas y >300M estimables. Puede inferir por similitud morfológica y tónica, en forma similar a la de un hablante natural. Como flexionador posee además capacidad de expresión semántica.
Red de Universidades con Carreras en Informática (RedUNCI)
Subjects
free text keywords: Ciencias Informáticas, Procesamiento de Lenguaje Natural, Natural Language Processing, Semantics, Morphological, Algorithms
Communities
  • Digital Humanities and Cultural Heritage
Any information missing or wrong?Report an Issue