Este trabajo tiene como objetivo emplear jerarquías lingüísticas y el aprendizaje multitarea para mejorar las tareas semánticas de NLP.

Sanh et al. (2018) propone un nuevo método basado en el aprendizaje multitarea, entrenado de manera jerárquica, para lograr resultados de vanguardia en varias tareas de NLP, como el Reconocimiento de Entidades Nombradas (NER), la Detección de Mención de Entidades (EMD) y la Extracción de Relaciones (RE).



La pregunta principal que este post pretende abordar es si las jerarquías lingüísticas y el aprendizaje de tareas múltiples pueden aprovecharse para mejorar los resultados en las tareas relacionadas con la semántica mencionadas anteriormente.

Anteriormente, los marcos de tareas múltiples no habían sido entrenados para aprovechar las fortalezas de la transferencia inductiva para lograr capacidades más generalizadas. Los aspectos complementarios de una oración (por ejemplo, la sintaxis y el orden de las palabras) se pueden combinar para producir incrustaciones de oraciones generalizadas. En este post se propone un modelo unificado que entrena y combina cuatro tareas semánticas de NLP sobre la base de que comparten interdependencias entre sí.

Resultado de imagen de Multi-task learning

El modelo propuesto consiste en una jerarquía entre las tareas en los niveles más bajos y fomenta las interacciones complejas en las capas más profundas. Esto implica que las tareas supervisadas simples se colocarán en capas inferiores y las tareas más complejas en las capas superiores. Esto se hace en una configuración de extremo a extremo y sin utilizar funciones de ingeniería manual. También se propone una nueva estrategia de muestreo para el aprendizaje de múltiples tareas, llamada muestreo proporcional (más sobre esto más adelante).

Modelo jerárquico NLP

La entrada del modelo consiste en las concatenaciones de tres tipos de incrustaciones de palabras: incrustaciones GloVe afinadas, incrustaciones ELMo e incrustaciones a nivel de caracteres.

El primer grupo de capas en el modelo está supervisado por etiquetas NER donde las entradas son las incrustaciones concatenadas y la salida representa los estados ocultos producidos por los biLSTM. Una capa de marcado CRF representa la última capa en este grupo como se ve en la figura del modelo anterior.

El segundo grupo de capas está supervisado por etiquetas EMD, donde la entrada es la concatenación de la salida de las capas inferiores y las incrustaciones de entrada, y la salida representa las incrustaciones de la secuencia. Similar a NER, CRF se utiliza para tomar decisiones de etiquetado. Tenga en cuenta que la entrada contiene información de las capas inferiores, que establece la arquitectura jerárquica.

El nivel más alto del modelo está supervisado por una tarea de resolución de Coreference (CR) donde la entrada son las incrustaciones concatenadas combinadas con la salida de las capas inferiores, y las salidas se envían al mencionador anotador de pares. En este mismo nivel de la arquitectura, el modelo también está supervisado por la tarea RE. La tarea RE implica identificar menciones y clasificar sus relaciones, por lo que también trata de vincular menciones similares a la tarea C.

Experimentos

En general, se utilizan dos conjuntos de datos para los experimentos. Para NER, se utiliza la parte en inglés de OntoNotes 5.0 (Pradhan et al. 2013). Para CR, EMD y RE, se utiliza el cuerpo ACE05 (Doddington et al. 2004). Las estadísticas de datos se pueden encontrar en la siguiente tabla:

Para evitar el olvido catastrófico (un problema común cuando se entrenan modelos de tareas múltiples), se emplea un método de entrenamiento simple pero efectivo. Específicamente, después de cada actualización de parámetros, una tarea de la pipeline se selecciona aleatoriamente y los lotes vinculados a esta tarea también se muestrean aleatoriamente. El muestreo de una tarea se logra utilizando un muestreo proporcional que es una función del tamaño relativo de un conjunto de datos en comparación con el tamaño acumulado de todos los conjuntos de datos.

Si te interesa saber como aprovechar al maximo la energía solar mira este artículo:

Resultado de imagen de energia solar gadget

Resultados

En resumen, el marco de aprendizaje jerárquico y multitarea propuesto, acuñado HMTL, logró resultados de última generación (SOTA) en tres tareas de NLP, a saber,

  • NER (+0.52),
  • EMD (+3.8)
  • RE (+6.8 ).

Los resultados están resumidos en la tabla que se encuentra abajo:

El modelo completo (A-GM) (resaltado en azul) produce resultados SOTA para EMD y RE.

Estos resultados sugieren que tener diferentes tipos de información en diferentes oraciones produce información valiosa y más rica. B, C, D, E, y E-GM son configuraciones de una sola tarea (resaltadas en rosa) que son superadas por el modelo completo (A) con excepción de la tarea de EMD. Sin embargo, A-GM supera la configuración de tarea única de EMD, teniendo en cuenta que este modelo hace uso de las menciones de oro. Para el resto de las configuraciones (por ejemplo, F, G, etc.), se utilizan distintas combinaciones de tareas durante el entrenamiento (resaltadas en verde). Estos resultados muestran cuánto puede contribuir una tarea o tareas a la otra / s. Tenga en cuenta que los autores también experimentaron con el orden de las tareas como (por ejemplo, F vs. K) y cómo esta decisión influyó en los resultados.



Puede observar la fuerza de las incrustaciones contextualizadas de ELMo por las diferencias que se muestran en las métricas. Además, los autores también analizan qué aprenden los codificadores y las incrustaciones en la arquitectura jerárquica multitarea a través de varias tareas de sondeo (consulte los detalles en el documento).

A %d blogueros les gusta esto: