Rosetta, un aplicativo para el análisis de datos con conjuntos difusos

A veces, para optimizar el rendimiento de una empresa hay que adentrarse en los datos que genera para analizarlos de manera que se pueda extraer información útil que describa el funcionamiento de la misma. Esta información puede dar pistas sobre procesos que se podrían mejorar y que uno ni se había dado cuenta.

La minería de datos puede aportar técnicas estadísticas que, aplicadas a un conjunto de datos sin sentido aparente, nos puede revelar fallos en nuestros procesos de negocio, u oportunidades para mejorar la rentabilidad del mismo. El tipo de software que trata estos temas solía ser bastante exclusivo de las grandes empresas que se pueden permitir el lujo de parar un momento a pensar y asignar una serie de recursos a analizar qué pueden mejorar de su negocio y como. Por supuesto, también eran bastante exclusivos de las universidades y centros de investigación (que son los que suelen parir estos productos informáticos).

Pero, como con todo tipo de software, cada vez hay más alternativas de software de minería de datos y al que los individuos o pequeñas empresas podemos acceder. En este caso presentamos Rosetta, salido del Linnaeus Centre for Bioinformatics, de la Uppsala University en Suecia.

Rosseta es un robusto conjunto de herramientas para el análisis de datos tabulados (lo que vienen a ser las tablas de toda la vida) basados en conjuntos difusos, el cual está diseñado para soportar todo el proceso de minería de datos para extraer información (o conocimiento). Este proceso se puede resumir de la siguiente manera:

  • Captar y preprocesar datos
  • Calcular conjuntos de atributos
  • Generación de reglas de decisión o patrones descriptivos
  • Validación y análisis de las reglas inducidas o de

Rosetta es una herramienta pensada para uso general para el modelado basado en discriminación, y no está orientada a ninguna aplicación concreta. La interfaz gráfica que ofrece es bastante intuitiva y se enfatiza en la navegación de los datos. De todos modos modos también podemos acceder al núcleo mediante una linea de comandos, la cual se puede invocar desde scripts de Perl o Python.



Características del kernel.

A continuación pasamos a enumerar algunas de las características que aporta Rosetta.

Import/Export

Se integra parcialmente con algunos sistemas gestores de bases de datos via drivers ODBC para importar datos, y exporta reglas, tablas, grafos y otros objetos a varios formatos como XML, C++ y Prolog.

Preprocessing

Completar tablas de decisión que tengan “valores perdidos”. Además de “discretizar” o hacer clasificaciones de atributos numéricos.

Computation

Rosetta soporta autoaprendizaje, ya sea supervisado o no, así como notaciones de discernimiento definidas por el usuario. Además se pueden generar reglas tipo “si, entonces”, así como patrones descriptivos, ejecución de scripts y soporta validaciones cruzadas.

Postprocesado

Filtrado avanzado de conjuntos de reglas y reducciones.

Validaciones y análisis

Con Rosetta se pueden aplicar las reglas generadas a ejemplos nuevos, generar matrices de confusión, curvas ROC y curvas de calibración. También se pueden evaluar reglas de manera individual de acuerdo con medidas de calidad avanzadas. Finalmente dispone de utilidades para el testeo de hipótesis estadísticas.

Miscelanea

Otras características de Rosetta incluyen el “clustering” a través de relaciones de tolerancia, cálculo de particiones y un robusto conjunto de aproximaciones de variable, soporte para generar muestras de observaciones aleatorias, código fuente abierto y documentación.

Documentación

Rosetta dispone de dos recursos de documentación principales, además de la típica lista de distribución donde los diferentes usuarios y los creadores van aportando datos sobre la herramienta. Puesto que éste es un producto parte de una tesis doctoral (documento en postscript), disponemos de la tesis, la cual contiene la teoría subyacente al software así como un pequeño ejemplo. Y, por supuesto tenemos un manual de referencia con sus conceptos técnicos explicados (sólo en formato pdf).

Rosetta es una buena aproximación para la resolución de problemas de discernimiento, no en vano está desarrollado como apoyo a la tesis doctoral de Aleksander Øhrn titulada “Discernibility and Rough Sets in Medicine: Tools and Applications”, la cual analiza los métodos de discernimiento necesarios para el análisis de datos médicos tabulados. Además, aunque la tesis data de 1999, la lista de distribución está más o menos activa, lo que quiere decir que la aplicación goza de buena salud, aunque sea en el ámbito universitario (lo cual no es poco).

Uno de los inconvenientes del software es que viene limitado en el uso de la librería RSES que viene embebida en el software. Si bien el kernel computacional de Rosetta ofrece el código abierto, es necesario adquirir una licencia para evitar las limitaciones en el uso de la librería RSES, una colección de algoritmos y estructuras de datos para el cálculo de conjuntos difusos. Así, los binarios distribuidos de Rosetta tienen una versión limitada de esta librería. De todos modos, aun sin RSES, el kernel de Rosetta es totalmente funcional. Entre dichas limitaciones tenemos que la versión de RSES incluída en los binarios de Roseta no soporta tablas de más de 30000 objetos (o filas de una tabla o individuos de una investigación u observaciones). Sin embargo, las restricciones aumentan cuando se quieren usar algunos algoritmos de la librería RSES embebida. En estos casos no podemos usar tablas de más de 500 registros y 20 atributos.

Estas limitaciones las podemos evitar o bien comprando una licencia de RSES o usando otro algoritmo de Rosetta que no esté limitado.

Podéis encontrar más detalles de Rosetta en su página web.

Valora esta noticia: 1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (0 votos, media: 0,00 de 5)
Loading ... Loading ...