Google lanza «Speaking practice» para practicar inglés con IA

Juan Cascón Baños

hace 11 meses

Google lanza "Speaking practice" para practicar inglés con IA

Categorías: Destacada, Internet, Móviles, Software, Tecnología

Etiquetas: Google, IA

Google está innovando en el ámbito de la educación lingüística con su nuevo experimento de inteligencia artificial, denominado «Speaking practice», destinado a ayudar a los usuarios a mejorar su inglés. Este servicio se encuentra en fase de pruebas y es parte de Search Labs, una plataforma de Google que permite a los usuarios experimentar con nuevas funcionalidades antes de su lanzamiento oficial. «Speaking practice» está integrado en la aplicación de Búsqueda de Google

Google está probando una nueva función de “Práctica de conversación” en la Búsqueda que ayuda a los usuarios a mejorar sus habilidades conversacionales en inglés. La compañía le dijo a TechCrunch que la función está disponible para estudiantes de inglés en Argentina, Colombia, India, Indonesia, México y Venezuela que se hayan unido a Search Labs, su programa para que los usuarios experimenten con experiencias de búsqueda de Google en etapas iniciales.

La compañía dice que el objetivo del experimento es ayudar a mejorar las habilidades de inglés de un usuario al lograr que participe en ejercicios interactivos de aprendizaje de idiomas impulsados por IA para ayudarlo a usar nuevas palabras en escenarios cotidianos.

La práctica oral se basa en una función que Google lanzó en octubre pasado y que está diseñada para ayudar a los estudiantes de inglés a mejorar sus habilidades. Si bien la función lanzada el año pasado permite a los estudiantes de inglés practicar oraciones en contexto y recibir comentarios sobre gramática y claridad, la práctica oral agrega la dimensión de la práctica conversacional de ida y vuelta.

Google está apuntando a Duolingo con una nueva función de Búsqueda de Google diseñada para ayudar a las personas a practicar (y mejorar) sus habilidades para hablar inglés.

La nueva función, que se implementará en los próximos días para la búsqueda en dispositivos Android en Argentina, Colombia, India, Indonesia, México y Venezuela, con más países e idiomas en el futuro, brindará práctica interactiva del habla para estudiantes de idiomas que traduzcan o Del inglés, escribe Google en una publicación de blog.

La característica fue detectada por primera vez por un usuario de X , quien compartió capturas de pantalla de la funcionalidad en acción.

La práctica oral funciona haciendo al usuario una pregunta conversacional a la que debe responder utilizando palabras específicas. Según las capturas de pantalla, un escenario posible podría incluir que la IA le diga al usuario que quiere ponerse en forma y luego le pregunte: «¿Qué debo hacer?». Luego, el usuario deberá decir una respuesta que incluya las palabras «ejercicio», «corazón» y «cansado».

La idea detrás de esta función es ayudar a los estudiantes de inglés a mantener una conversación en inglés y, al mismo tiempo, comprender cómo usar correctamente diferentes palabras.

El lanzamiento de la nueva función indica que Google podría estar sentando las bases para un verdadero competidor de las aplicaciones de aprendizaje de idiomas como Duolingo y Babbel. Esta no es la primera vez que Google incursiona en herramientas educativas y de aprendizaje de idiomas. En 2019, Google lanzó una función que permitía a los usuarios de la Búsqueda practicar cómo pronunciar palabras correctamente.

Aprender un idioma puede abrir nuevas oportunidades en la vida de una persona. Puede ayudar a las personas a conectarse con personas de diferentes culturas, viajar por el mundo y avanzar en su carrera. Se estima que sólo el inglés tiene 1.500 millones de estudiantes en todo el mundo. Sin embargo, es difícil lograr el dominio de un nuevo idioma y muchos estudiantes citan la falta de oportunidades para practicar el habla activamente y recibir comentarios prácticos como una barrera para el aprendizaje.

Nos complace anunciar una nueva función de la Búsqueda de Google que ayuda a las personas a practicar el habla y mejorar sus habilidades lingüísticas. En los próximos días, los usuarios de Android en Argentina, Colombia, India (hindi), Indonesia, México y Venezuela podrán obtener aún más soporte lingüístico de Google a través de la práctica interactiva del habla en inglés, expandiéndose a más países e idiomas en el futuro. La Búsqueda de Google ya es una herramienta valiosa para los estudiantes de idiomas, ya que proporciona traducciones, definiciones y otros recursos para mejorar el vocabulario. Ahora, los estudiantes que traduzcan hacia o desde el inglés en sus teléfonos Android encontrarán una nueva experiencia de práctica de habla inglesa con comentarios personalizados.

Una nueva función de la Búsqueda de Google permite a los alumnos
practicar la pronunciación de palabras en contexto.

A los alumnos se les presentan indicaciones de la vida real y luego forman sus propias respuestas habladas utilizando una palabra del vocabulario proporcionada. Participan en sesiones de práctica de 3 a 5 minutos, reciben comentarios personalizados y la opción de registrarse para recibir recordatorios diarios para seguir practicando. Con solo un teléfono inteligente y algo de tiempo de calidad, los alumnos pueden practicar a su propio ritmo, en cualquier momento y en cualquier lugar.

Actividades con comentarios personalizados, para complementar las herramientas de aprendizaje existentes.

Diseñada para usarse junto con otros servicios y recursos de aprendizaje, como tutorías personales, aplicaciones móviles y clases, la nueva función de práctica oral en la Búsqueda de Google es otra herramienta para ayudar a los estudiantes en su viaje.

Nos hemos asociado con lingüistas, profesores y expertos pedagógicos de ESL/EFL para crear una experiencia de práctica oral que sea eficaz y motivadora. Los alumnos practican vocabulario en contextos auténticos y el material se repite en intervalos dinámicos para aumentar la retención: enfoques que se sabe que son eficaces para ayudar a los alumnos a convertirse en oradores seguros. Como compartió uno de nuestros socios:

«Hablar en un contexto determinado es una habilidad que los estudiantes de idiomas muchas veces no tienen la oportunidad de practicar. Por lo tanto, esta herramienta es muy útil para complementar clases y otros recursos.» – Judit Kormos, profesora, Universidad de Lancaster

También estamos entusiasmados de trabajar con varios socios de aprendizaje de idiomas para presentar el contenido que están ayudando a crear y conectarlos con estudiantes de todo el mundo. Esperamos ampliar aún más este programa y trabajar con cualquier socio interesado.

Comentarios personalizados en tiempo real

Cada alumno es diferente, por lo que brindar comentarios personalizados en tiempo real es una parte clave de una práctica eficaz. Las respuestas se analizan para proporcionar sugerencias y correcciones útiles en tiempo real.

El sistema proporciona retroalimentación semántica , indicando si su respuesta fue relevante para la pregunta y si puede ser entendida por un interlocutor. La retroalimentación gramatical proporciona información sobre posibles mejoras gramaticales, y un conjunto de respuestas de ejemplo en distintos niveles de complejidad del lenguaje brindan sugerencias concretas sobre formas alternativas de responder en este contexto.

La retroalimentación se compone de tres elementos: análisis semántico, corrección gramatical y respuestas de ejemplo.

Traducción contextual

Entre las diversas tecnologías nuevas que desarrollamos, la traducción contextual brinda la capacidad de traducir palabras y frases individuales en contexto . Durante las sesiones de práctica, los alumnos pueden tocar cualquier palabra que no comprendan para ver la traducción de esa palabra considerando su contexto.

Ejemplo de función de traducción contextual.

Esta es una tarea técnica difícil, ya que las palabras individuales aisladas a menudo tienen múltiples significados alternativos, y varias palabras pueden formar grupos de significados que deben traducirse al unísono. Nuestro novedoso enfoque traduce la oración completa y luego estima cómo se relacionan entre sí las palabras del texto original y el traducido. Esto se conoce comúnmente como problema de alineación de palabras .

Ejemplo de un par de oraciones traducidas y su alineación de palabras. Un modelo de alineación de aprendizaje profundo conecta las diferentes palabras que crean el significado para sugerir una traducción.

La pieza tecnológica clave que permite esta funcionalidad es un novedoso modelo de aprendizaje profundo desarrollado en colaboración con el equipo de Google Translate, llamado Deep Aligner. La idea básica es tomar un modelo de lenguaje multilingüe entrenado en cientos de idiomas y luego ajustar un modelo de alineación novedoso en un conjunto de ejemplos de alineación de palabras (consulte la figura anterior para ver un ejemplo) proporcionados por expertos humanos, para varios pares de idiomas. A partir de esto, el modelo único puede alinear con precisión cualquier par de idiomas, alcanzando una tasa de error de alineación de última generación (AER, una métrica para medir la calidad de las alineaciones de palabras, donde cuanto más bajo, mejor). Este nuevo modelo único ha dado lugar a mejoras espectaculares en la calidad de la alineación en todos los pares de idiomas probados, reduciendo el AER promedio del 25% al 5% en comparación con los enfoques de alineación basados en modelos ocultos de Markov (HMM).

Tasas de error de alineación (cuanto más bajo, mejor) entre inglés (EN) y otros idiomas.

Este modelo también se incorpora a las API de traducción de Google, mejorando enormemente, por ejemplo, el formato de los archivos PDF y sitios web traducidos en Chrome, la traducción de los subtítulos de YouTube y mejorando la API de traducción de Google Cloud.

Comentarios gramaticales

Para permitir la retroalimentación gramatical para el lenguaje hablado con acento, nuestros equipos de investigación adaptaron modelos de corrección gramatical para texto escrito (consulte el blog y el artículo ) para trabajar en transcripciones de reconocimiento automático de voz (ASR), específicamente para el caso del habla con acento. El paso clave fue perfeccionar el modelo de texto escrito en un corpus de transcripciones humanas y ASR de habla acentuada, con correcciones gramaticales proporcionadas por expertos. Además, inspirados en trabajos anteriores , los equipos desarrollaron una novedosa representación de salida basada en edición que aprovecha la alta superposición entre las entradas y salidas y que es particularmente adecuada para oraciones de entrada cortas comunes en entornos de aprendizaje de idiomas.

La representación de edición se puede explicar con un ejemplo:

Entrada : Yo ¹ soy ² entonces ³ malo ⁴ cocinando ⁵
Corrección : Yo ¹ soy ² entonces ³ malo ⁴ a ^{las 5} cocinando ⁶
Ediciones : (‘en’, 4, PREPOSICIÓN, 4)

En lo anterior, «en» es la palabra que se inserta en la posición 4 y «PREPOSICIÓN» indica que se trata de un error relacionado con las preposiciones. Usamos la etiqueta de error para seleccionar umbrales de aceptación dependientes de la etiqueta que mejoraron aún más el modelo. El modelo aumentó la recuperación de problemas gramaticales del 4,6% al 35%.

Algunos ejemplos de resultados de nuestro modelo y un modelo entrenado en corpus escritos:

	Ejemplo 1	Ejemplo 2
Entrada del usuario (voz transcrita)	Vivo de mi profesión.	Necesito una tarjeta eficiente y confiable.

Modelo de gramática basada en texto	Vivo de mi profesión.	Necesito una tarjeta eficiente y confiable.

Nuevo modelo optimizado para voz	Vivo de mi profesión.	Necesito una tarjeta eficiente y confiable.

Análisis semántico

Un objetivo principal de la conversación es comunicar claramente la intención. Por lo tanto, diseñamos una función que comunica visualmente al alumno si su respuesta era relevante para el contexto y si un compañero la entendería. Éste es un problema técnico difícil, ya que las respuestas habladas de los estudiantes tempranos de idiomas pueden ser sintácticamente poco convencionales. Tuvimos que equilibrar cuidadosamente esta tecnología para centrarnos en la claridad de intención en lugar de en la corrección de la sintaxis.

Nuestro sistema utiliza una combinación de dos enfoques:

Clasificación de sensibilidad : los modelos de lenguaje grandes como LaMDA o PaLM están diseñados para dar respuestas naturales en una conversación, por lo que no sorprende que funcionen bien a la inversa: juzgar si una respuesta determinada es contextualmente sensata.
Similitud con las buenas respuestas: utilizamos una arquitectura de codificador para comparar la entrada del alumno con un conjunto de buenas respuestas conocidas en un espacio de incrustación semántica. Esta comparación proporciona otra señal útil sobre la relevancia semántica, mejorando aún más la calidad de los comentarios y sugerencias que brindamos.

El sistema proporciona retroalimentación sobre si la respuesta fue relevante para el mensaje y si sería entendida por un interlocutor.

Desarrollo de contenido asistido por ML

Nuestras actividades de práctica disponibles presentan una combinación de contenido creado por expertos humanos y contenido creado con asistencia de IA y revisión humana. Esto incluye indicaciones para hablar, palabras de enfoque, así como conjuntos de respuestas de ejemplo que muestran respuestas significativas y contextuales.

Se proporciona una lista de respuestas de ejemplo cuando el alumno recibe comentarios y cuando toca el botón de ayuda.

Dado que los alumnos tienen diferentes niveles de capacidad, la complejidad lingüística del contenido debe ajustarse adecuadamente. El trabajo previo sobre la estimación de la complejidad del lenguaje se centra en textos de párrafos o más largos , que difieren significativamente del tipo de respuestas que procesa nuestro sistema. Por lo tanto, desarrollamos modelos novedosos que pueden estimar la complejidad de una sola oración, frase o incluso palabras individuales. Esto es un desafío porque incluso una frase compuesta de palabras simples puede ser difícil para un estudiante de un idioma (por ejemplo, «Vayamos al grano»). Nuestro mejor modelo se basa en BERT y logra predicciones de complejidad más cercanas al consenso de expertos humanos. El modelo fue pre-entrenado usando un gran conjunto de ejemplos etiquetados LLM y luego ajustado usando un conjunto de datos etiquetados por expertos humanos.

Error cuadrático medio del desempeño de varios enfoques al estimar la dificultad del contenido en un corpus diverso de ~450 pasajes conversacionales (texto/transcripciones). Fila superior: Los evaluadores humanos etiquetaron los ítems en una escala de 0,0 a 5,0, aproximadamente alineada con la escala del MCER (de A1 a C2). Cuatro filas inferiores : diferentes modelos realizaron la misma tarea y mostramos la diferencia según el consenso de expertos humanos.

Con este modelo, podemos evaluar la dificultad de los elementos del texto, ofrecer una amplia gama de sugerencias y, lo más importante, desafiar a los alumnos de manera adecuada según sus niveles de habilidad. Por ejemplo, al usar nuestro modelo para etiquetar ejemplos, podemos ajustar nuestro sistema para generar indicaciones de habla en varios niveles de complejidad del lenguaje.

	Palabras de enfoque de vocabulario, que se obtendrán mediante las preguntas.
		guitarra	manzana	león

Simple		¿A qué te gusta jugar?	¿Te gusta la fruta?	¿Te gustan los grandes felinos?

Intermedio		¿Tocas algún instrumento musical?	¿Cuál es tu fruta favorita?	¿Cuál es tu animal favorito?

Complejo		¿Qué instrumento de cuerda te gusta tocar?	¿Qué tipo de fruta te gusta comer por su textura crujiente y su sabor dulce?	¿Te gusta observar depredadores grandes y poderosos?

Además, la estimación de la dificultad del contenido se utiliza para aumentar gradualmente la dificultad de la tarea con el tiempo, adaptándose al progreso del alumno.

Conclusión

Con estas últimas actualizaciones, que se implementarán en los próximos días, la Búsqueda de Google se ha vuelto aún más útil. Si eres usuario de Android en India (hindi), Indonesia, Argentina, Colombia, México o Venezuela, pruébalo traduciendo hacia o desde el inglés con Google.

. Leer artículo completo en Frikipandi Google lanza «Speaking practice» para practicar inglés con IA.