You are on page 1of 6

ESTUDIO DE HERRAMIENTA PARA LA

“DATA MINING”

ORANGE

OBJETIVO

IDENTIFICAR PARCIALMENTE EL USO, ADMINISTRACIÓN Y


CONFIGURACIÓN DE ESTA HERRAMIENTA BASADA EN OPEN SOURCE

SENA, MAS TRABAJO

01/03/16

COLOMBIA-MEDELLÍN

2016
Introducción:

Orange como herramienta para la distribución de bases de datos y querys, está


diseñada para que el usuario final contenga una experiencia amigable con la
plataforma, ya que su sistema de código abierto ayuda al DBA con sus funciones
de simplificación, orden y búsqueda de data.

En la presente documentación se desea brindar una introducción no solo a la


herramienta, sino también a la minera de datos basada es sistemas
desarrolladores.

Contextualización
Orange es una suite de software para minería de base de datos y aprendizaje automático
basado en componentes que cuenta con un fácil y potente, rápido y versátil front-end de
programación visual para el análisis exploratorio de datos y visualización, y librerías para
Python y secuencias de comando. Contiene un completo juego de componentes para pre
procesamiento de datos, característica de puntuación y filtrado, modelado, evaluación del
modelo, y técnicas de exploración. Está escrito en C++ y Python, y su interfaz gráfica de
usuario se basa en la plataforma cruzada del framework Qt.

es un programa informático para realizar minería de datos y análisis predictivo


desarrollado en la facultad de informática de la Universidad de Ljubljana. Consta
de una serie de componentes desarrollados en C++ que implementan algoritmos
de minería de datos, así como operaciones de preprocesamiento y representación
gráfica de datos.Los componentes de Orange pueden ser manipulados desde
programas desarrollados en Python o a través de un gráfico. Se distribuye bajo
licencia GPL.

El programa proporciona una plataforma para el experimento de selección,


sistemas de recomendación y modelado predictivo y es utilizado en biomedicina,
bioinformática, genómica investigación y enseñanza. En ciencia, se utiliza como
una plataforma para probar nuevos algoritmos de aprendizaje de la máquina y
para la aplicación de nuevas técnicas en genética y bioinformática. En la
educación, fue utilizado para el aprendizaje de la máquina de enseñanza y
métodos de minería de datos para estudiantes de biología, biomedicina e
informática.
¿Que son las bases de datos?

Desde el punto de vista informático, la base de datos es un sistema formado por


un conjunto de datos almacenados en discos que permiten el acceso directo a
ellos y un conjunto de programas que manipulen ese conjunto de datos.

Cada base de datos se compone de una o más tablas que guarda un conjunto de
datos. Cada tabla tiene una o más columnas y filas. Las columnas guardan una
parte de la información sobre cada elemento que queramos guardar en la tabla,
cada fila de la tabla conforma un registro.
Adicional

Orange es un software de código abierto liberado bajo licencia GPL y disponible


para su uso en github. Versiones hasta la 3.0 incluyen componentes básicos en C
con las envolturas en Python. Desde la versión 3.0, utiliza naranja Python de
código abierto bibliotecas comunes para computación científica, como numpy,
scipy y scikit-aprender, mientras que su interfaz gráfica de usuario funciona en el
marco de Qt multiplataforma. La instalación por defecto incluye una serie de
algoritmos de visualización de aprendizaje, procesamiento y datos de máquina en
6 juegos de la widget (datos, visualizar, clasificar, regresión, evaluar y sin
vigilancia). Funcionalidades adicionales están disponibles como add-ons
(bioinformática, fusión de datos y minería de texto). Orange es compatible con OS
X, Windows y Linux y también se puede instalar desde el repositorio de índice de
paquetes Python (instalación de pipa naranja). A partir de 2015 la versión estable
es 2.7, mientras que 3.0 está disponible como versión beta.

Orange consiste en una interfaz de lienzo sobre el cual el usuario coloca los
widgets y crea un flujo de trabajo de análisis de datos. Widgets ofrecen
funcionalidades básicas como la lectura de los datos, mostrando una tabla de
datos, selección de características, predictores de entrenamiento, comparando
algoritmos de aprendizaje, visualización de elementos de datos, etc.. El usuario
puede explorar visualizaciones interactivamente o alimentación del subconjunto
seleccionado en otros widgets. Widget de árbol de clasificación en naranja 3.0
lona: gráfica front-end para el análisis de datos Widgets: datos: widgets para
entrada de datos, filtrado de datos, muestreo, imputación, cuentan con
manipulación y ofrecen selección visualiza: widgets para visualización (diagrama
de caja, histogramas, diagrama de dispersión) y multivariante visualización
(pantalla de mosaico, diagrama de tamiz). Clasificar: un conjunto de
supervisión algoritmos de aprendizaje de máquina para la clasificación regresión:
supervisado de un conjunto de algoritmos de aprendizaje de máquina para evaluar
la regresión: procedimientos de validación cruzada, basada en el muestreo,
estimación de la fiabilidad y puntuación de métodos de predicción de supervisión:
•sin aprender algoritmos de clustering (k-means, clustering jerárquico) y técnicas
de proyección de datos (escalamiento multidimensional, análisis de componentes
principales, análisis de correspondencias). Complementos: Bioinformática:
widgets para gene establecer análisis, enriquecimiento y acceso a la fusión de
datos de bibliotecas vía: widgets para diferentes conjuntos de datos, factorización
de la matriz colectiva y exploración de la minería de texto factores latentes de
fusión: widgets para tareas básicas de la red de minería de texto: widgets para el
análisis gráfico y red asociada: widgets para la minería frecuentan aprendizaje
regla itemsets y Asociación

You might also like