Categorías léxicas en medios digitales de Honduras de 2009 - 2016

Jairo Jonathán Martínez, Eva Leticia Martínez

Resumen


Un recurso valioso para las empresas y personas es la información. Aunque se pueden encontrar muchos datos estructurados, gran parte del conocimiento se encuentra en formatos no estructurados, en forma de lenguaje natural. En los últimos años las tecnologías han favorecido un crecimiento constante de la producción de volúmenes de texto que están disponibles, pero que son difíciles de procesar. Estos constituyen una gran fuente de información importante para las empresas, la política y las personas que quiere aplicar tecnicas de minería de texto para encontrar información que les sea de utilidad. Sin embargo, el procesamiento del lenguaje natural es un campo de investigación en pleno desarrollo, y una tarea pendiente para los científicos lingüístico-computacionales. En Honduras también ha crecido la producción de texto digital. Como parte del procesamiento computacional de texto se realiza el etiquetamiento de la categoría léxica a la que pertenece cada palabra. Para este artículo se realizó el etiquetamiento de una colección compuesta por más de 173 mil noticias publicades entre los años 2009 y 2016 en periódicos digitales del país. Además, se realiza un análisis de la frecuencia de las palabras y de las categorías léxicas en las que fueron clasificadas.

Palabras clave


categorías léxicas; Honduras; lingüística computacional; periódicos digitales

Texto completo:

PDF HTML

Enlaces refback

  • No hay ningún enlace refback.


Licencia de Creative Commons
Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.



© 2016 Portal de Revistas de la Universidad Tecnológica de Panamá
Este sitio es un componente del proyecto UTP-Ridda2
Utilizando Open Journal Systems