Clasificación de documentos

La clasificación de documentos es otra de las múltiples aplicaciones de la minería de textos. Ésta consiste en facilitar la navegación entre documentos y textos, a través de la agrupación de todos ellos en distintos grupos, obteniendo información representativa de cada uno de ellos.

Podríamos diferenciar dos tipos de clasificación de textos:

Clasificación no supervisada

(Dichos grupos, o categorías, se) Se detectan los grupos y categorías de los documentos de forma automática, lo que denominamos clustering de textos. El clustering se basa en un algoritmo que agruparía los textos en función de sus contenidos, es decir, que no requiere de una clasificación manual previa.

Clasificación supervisada

Esta clasificación también es conocida como categorización. Parte de la existencia de un conjunto de clases pre-establecida. El objetivo de la categorización es colocar cada documento en la clase que le corresponda. Requiere intervención humana para la clasificación de la colección y para la revisión y refinamiento del resultado.

Utilidades de la clasificación de documentos

La utilidad más destacable de la clasificación de documentos es la de descubrir relaciones entre distintos textos o documentos. Esto permite agruparlos de forma dinámica, para facilitar el acceso a distintos tipos de información. Gracias a ello, podremos obtener información sin tener que pasar por todos y cada uno de los documentos.

retencion-de-documentos-1024x768