21 Enero 2019
del Sitio Web
Tendencias21
Pixabay
Una nueva
herramienta desarrollada en el MIT
democratiza el
cuarto paradigma de la ciencia,
la ciencia de
datos:
demuestra que
los programas probabilísticos
se pueden
sintetizar automáticamente,
en lugar de ser
escritos por personas...
Investigadores del Instituto Tecnológico de Massachusetts
(MIT) han desarrollado una herramienta que democratiza el
cuarto paradigma de la ciencia, la así llamada
ciencia de datos, que unifica,
...para comprender y
analizar los fenómenos reales.
Esta nueva ciencia
trasciende los métodos tradicionales de análisis de datos al
incorporar modelos, ecuaciones, algoritmos, así como la evaluación e
interpretación de resultados.
Uno de los problemas que tiene esta disciplina es que no hay muchos
especialistas que puedan modelar bien los datos, lo que limita su
aplicación para conocer en profundidad procesos sociales,
particularmente en la administración pública.
La nueva herramienta sale al encuentro de esta limitación, ya que
está pensada para que personas con poca o nula experiencia puedan
generar automáticamente modelos que analicen datos que están sin
procesar.
Según informa el MIT
en un comunicado, la herramienta
sustituye la labor de los especialistas, ya que absorbe conjuntos de
datos y genera los modelos estadísticos sofisticados que suelen
utilizar los expertos para analizar, interpretar y predecir patrones
subyacentes en los datos.
La herramienta está alojada en
Jupiter, un
espacio Web de código abierto que permite a los usuarios
ejecutar programas de forma interactiva en sus navegadores.
Los usuarios solo
necesitan escribir unas pocas líneas de código para descubrir
información sobre, por ejemplo,
...y otras tendencias.
En un artículo presentado en el Simposio ACM SIGPLAN sobre
Principios de los lenguajes de programación, los investigadores
demuestran que su herramienta puede extraer patrones y realizar
predicciones a partir de conjuntos de datos del mundo real, e
incluso superar modelos construidos manualmente en ciertas tareas de
análisis de datos.
Probabilidad
bayesiana
Uno de los principales atributos de esta herramienta es que utiliza
la
probabilidad bayesiana para la
realización de sus estimaciones.
A diferencia de otros
sistemas, este método estadístico actualiza continuamente la
probabilidad de una variable a medida que se dispone de más
información sobre esa variable.
Sirve por ejemplo para ir actualizando la previsión inicial de que
un candidato gane las elecciones.
A medida que surge más
información, por ejemplo sobre el desarrollo de la jornada
electoral, la probabilidad bayesiana va afinando la previsión
inicial sobre la posibilidad de que ese candidato sea finalmente el
elegido.
El mismo patrón metodológico puede servir también para predecir la
evolución del tráfico de las aerolíneas, y precisar con el tiempo la
probabilidad de que en verano podamos tener acceso a un billete de
avión para ir a nuestro destino preferido.
También es útil para reforzar la investigación sociológica de un
segmento de la población, ya que los modelos bayesianos pueden
predecir el salario de una persona en función de su ocupación y
lugar de residencia, o determinar si la edad y ocupación de un
individuo permiten conocer su nivel de ingresos.
Automatización
de procesos
Lo que aporta la nueva herramienta a la probabilidad bayesiana
es que automatiza una parte fundamental de su proceso metodológico,
ya que el modelado bayesiano suele ser bastante lento y
tedioso.
La nueva herramienta sustituye a un profesional estadístico
junior o a un científico de datos al responder a preguntas sobre
posibles variables de forma automática, a partir de la evolución de
los pronósticos iniciales.
Es esta facultad la que permite a la herramienta democratizar el
cuarto paradigma de la ciencia, ya que alcanza un nivel de
complejidad en el desarrollo de los cálculos sin tener conocimientos
previos sobre modelos estadísticos o probabilísticos.
La herramienta confirma
que los programas probabilísticos se pueden sintetizar a partir de
datos, en lugar de ser escritos por personas.
Gracias a esta herramienta, los usuarios escriben una línea de
código que detalla la ubicación de los datos en bruto. La
herramienta carga esos datos y crea múltiples programas
probabilísticos, cada uno de los cuales representa un modelo
bayesiano de los datos.
Los usuarios pueden
elegir sucesivamente qué modelos se adaptan mejor a su aplicación.
Referencia
|