1. Introducción
La inteligencia artificial ha experimentado un notable desarrollo en la última década, demostrando ser capaz de procesar grandes cantidades de datos en un tiempo asombrosamente corto que los humanos no pueden igualar e, incluso, generar nuevos datos a partir de este material. En particular, desde la introducción de ChatGPT a finales de 2022, su uso ha dado un salto cualitativo y se ha convertido en algo casi habitual entre muchos estudiosos de una amplia gama de disciplinas, como la lingüística, la enseñanza de idiomas y la lexicografía. En el contexto educativo, ya son varias las publicaciones que de manera inmediata han intentado guiar el uso e incorporación de esta tecnología en la enseñanza (Dokukina y Gumanova, 2020; Belda-Medina y Calvo-Ferrer, 2022; Chaudhry y Kazim, 2022; Muñoz-Basols et al., 2024). La mayoría de estos estudios han explorado cómo hacer uso de los potenciales datos proporcionados para facilitar la tarea docente. En este sentido, la comunicación con los chatbots es uno de los grandes retos que tienen por delante tanto investigadores, como docentes, que pretendan beneficiarse de su rápida generación de datos.
Este artículo se enmarca en una nueva corriente inaugurada junto al investigador Tarp, que ha dado frutos ya en diversas publicaciones (Huete-García y Tarp, 2024; Tarp y Nomdedeu-Rull, 2024) y que está destinada al uso de los chatbots como apoyo indispensable para el desarrollo de datos relevantes en disciplinas como la lexicografía aplicada a la enseñanza de lenguas. Esta nueva metodología de trabajo, como Calañas Continente y Domínguez Vázquez (2023, pp. 13-14) describen, contribuye a la creación de estándares que interconecten los datos existentes para desarrollar herramientas que permitan converger y explotar diferentes fuentes.
Si bien es cierto que existen ya otros estudios centrados en la relación entre la lexicografía y el uso de chatbots con fines lexicográficos (Fuertes-Olivera, 2024; De Schryver, 2023; Rees y Lew, 2024), en el estudio de Huete-García y Tarp (2024) se describen algunas de nuestras experiencias en un proyecto en curso de un asistente de escritura en español, en colaboración con una empresa danesa de alta tecnología lingüística. Allí, el uso de ChatGPT resulta claramente útil, ya que aumenta significativamente la productividad, aunque sin llegar a ser perfecto. En ese proyecto, el modelo lingüístico basado en IA de ChatGPT se utiliza para entrenar y preparar otro modelo lingüístico basado en IA que se utilizará como apoyo al asistente de escritura. Ese estudio se focalizó en lo que se ha denominado posteriormente como "tecnología para la educación", pero los datos inducidos por el chatbot pueden tener una clara aplicación como material en sí mismo para la enseñanza en el aula. Esto se ha llamado recientemente como "tecnología en la educación" (Dooly y Comas Quinn, 2024, p. 28).
Por esta razón, el presente estudio busca explorar los retos y avances de aplicación de esta nueva metodología para generar datos pedagógicamente explotables y adaptados a las necesidades de potenciales estudiantes. Así, la pregunta de investigación que motiva este estudio es "¿Puede verdaderamente un chatbot imitar a un estudiante de español real?", por lo que el objetivo principal es determinar si un chatbot puede imitar la escritura de un estudiante de español. Se parte de la hipótesis de que los chatbots actuales todavía no están preparados para imitar a la perfección a estudiantes dadas sus limitaciones de sesgo e ideología (Xue et al., 2023), además de que se cuestiona el poder de la (mal) llamada "inteligencia" artificial1. Para cumplir con este objetivo, se llevó a cabo una investigación de prompt enginering que consiste en analizar la capacidad de los chatbots ChatGPT (OpenAI), Copilot (Microsoft) y Gemini (Google), a partir de la comparación de sus funcionalidades para determinar cuál es capaz de imitar con mayor precisión este rol.
Todo ello con base en una serie de variables especificadas en los prompt al generar los datos demandados. De esta forma, se expone la fiabilidad de los datos aportados por las herramientas de IA generativa y se proporciona una guía que sirve como ejemplo para que los diferentes profesionales "eduquen" a los chatbots para su uso adecuado en el contexto de la enseñanza de lenguas. Debe aclararse, como se especifica posteriormente, que no se ha contemplado la variable del nivel de lengua porque los chatbots todavía no pueden obtener estos datos de ninguna fuente accesible.
A lo largo de este artículo se realiza, en primer lugar, un breve repaso del uso de la IA en el contexto de la enseñanza de lenguas (2) y qué implicaciones tiene desde dos perspectivas fundamentales: para la generación de datos con fines pedagógicos (2.1) y como aliada indispensable del desarrollo de herramientas para la enseñanza del español (2.2). Posteriormente, se expone la metodología empleada para el análisis y desarrollo de prompts específicos que faciliten la inducción de datos útiles para fines pedagógicos (3). El resultado se plasma en un apartado destinado al análisis contrastivo de la capacidad cognitiva o generativa de estas tecnologías basadas en inteligencia artificial (IA) (4), lo cual da respuesta a la pregunta inicial. Finalmente, las conclusiones de este estudio revelan las principales ventajas del uso de chatbots como intérpretes del rol de estudiante para la enseñanza de español, entre las que destacan la generación específica de textos con errores especializados (5).
2. Usos recientes de la IA en enseñanza de lenguas
La introducción de la inteligencia artificial generativa ha cambiado nuestra relación con la tecnología a gran escala, así como las interrelaciones que se establecen en el proceso de enseñanza entre aprendices y máquinas para acceder a datos que generen conocimiento. En el caso de la enseñanza de lenguas, parece evidente que desempeñará un papel fundamental en las interacciones pedagógicas entre los seres humanos y las máquinas, algo que ya lleva dándose de forma prácticamente natural desde la irrupción de las TIC en el terreno educativo. Este tipo de interacción, más sofisticada si cabe, a pesar de tener su origen en la aparición de ChatGPT en noviembre de 2022, ya se está desarrollando en multitud de herramientas de lengua que hacen uso de la IA generativa para desarrollar sus datos o adaptarse al usuario (Escobar Hernández, 2021), como es el caso de algunos asistentes de escritura en desarrollo (Huete-García y Tarp, 2024; Tarp y Nomdedeu-Rull, 2024) o algunos asistentes y herramientas ya existentes como el caso de Grammarly (2009) o DeepL (2017).
Según describen Muñoz-Basols y Fuertes Gutiérrez (2024), existen hasta tres grandes categorías de aplicación inmediata de la IA en la enseñanza de lenguas: (1) el aprendizaje informal, (2) la autonomía del aprendiente y (3) la (auto)evaluación. En este estudio se desarrolla la categoría número 2, ya que los datos proporcionados por los chatbots pueden utilizarse con fines lexicográficos y como material en sí mismo que puede ser explotado en el aula. En este caso, los datos generados por los chatbots podrían utilizarse para tareas de comprensión de lectura, escritura creativa (Sharples y Pérez, 2022) o bien como revisión del proceso de escritura (Martín-Marchante, 2022), donde se insertaría nuestra propuesta (§ 4). Esta se ocupa fundamentalmente de abordar la reflexión léxico-gramatical a partir de la corrección de textos. Este tipo de tratamiento, además de tener un impacto positivo en el proceso de aprendizaje del español, puede poner en tela de juicio la eficacia de los modelos de IA, con lo cual reforzaría el argumento de que los aprendices no deben depender totalmente de estos para el aprendizaje o realización de tareas sin una reflexión crítica previa.
Una de las funcionalidades principales de los chatbots basados en IA generativa es la enseñanza de la expresión escrita. MacArthur (2009) afirma que el aprendizaje mediante el uso de procesadores de texto depende de una combinación de tecnología y guía pedagógica que ayude a los aprendices a sacar su mayor rendimiento a estas herramientas. En esta misma línea, el uso de chatbots se entiende como una extensión de un campo, el del procesamiento de textos, que ha sido trabajado sustancialmente como tecnología de escritura (Dalton y Hannafin, 1987; Wolfe et al., 1996; Álvarez-Higuita, 2009; Martín-Marchante, 2022; entre otros). Así pues, hace tiempo quedó demostrado que estos sistemas pueden tener un impacto positivo en las aulas de enseñanza de lenguas, donde la aplicación de estos sistemas fomenta un aprendizaje autónomo que facilita la corrección y autorregulación (Pokrivcakova, 2019).
Sin embargo, a pesar de las múltiples funcionalidades que se han venido estudiando y analizando de la eficiencia de estos sistemas, no existen estudios que hayan utilizado los sistemas de IA generativa para la producción voluntaria de errores que puedan emplearse en el proceso de enseñanza-aprendizaje de lenguas. A pesar de que sí se ha tenido que lidiar ya con los errores tanto de forma como de sesgo emitidos de manera automática por los chatbots. Estos errores pasan por respuestas correctas para el algoritmo (Gutiérrez y Restrepo et al., 2019; Martínez Martínez, 2021), con las implicaciones sociales que ello conlleva. Para describir cómo se integraría esta modalidad en el caso de la enseñanza de lenguas y otros ámbitos afines como el de la lexicografía, se han desarrollado dos subapartados descriptivos que siguen la línea propuesta por Dooly y ComasQuinn (2024).
2.1. Tecnología en la educación
Se entiende por "tecnología en la educación" la práctica docente y aprendiente de los recursos y herramientas disponibles (Dooly y Comas-Quinn, 2024). En el caso de los chatbots, se entendería como su uso activo por parte de estudiantes o docentes para beneficiarse, pedagógicamente, de sus
funcionalidades. En este artículo se presenta una metodología para que el docente recabe datos útiles a través de los chatbots, los cuales pueden beneficiar el proceso de aprendizaje de los estudiantes de dos maneras. En primer lugar, pueden servir para guiar su proceso pedagógico; y en segundo lugar, funcionarían como complementos para perfeccionar las actividades docentes.
Asimismo, los datos recabados con esta investigación pueden emplearse pedagógicamente para el análisis de errores y la reflexión léxico-gramatical. En el caso del uso de esta tecnología generativa para la enseñanza de lenguas, una de las grandes ventajas es la incorporación inmediata en el aula de muestras de texto sin tener que recurrir a textos de personas reales, que suelen requerir un permiso específico y cuyas muestras gramaticales a trabajar no dependen del docente. Otros ejemplos de tecnología en la educación están en la planificación y el desarrollo curricular en entornos virtuales de aprendizaje (González-Lloret, 2024) o bien como método para proporcionar evaluación y feedback (Bailini, 2024).
2.2. Tecnología para la educación
Se entiende por "tecnología para la educación" el desarrollo de herramientas y recursos que están diseñados para este fin. Esta función de la tecnología viene a cubrir un campo con varios aspectos relevantes que requieren atención. Por ejemplo, el acceso social al aprendizaje de lenguas, que ha sido relegado mayoritariamente a sectores de la sociedad occidental con recursos suficientes para su adquisición (Katz et al., 2017). A pesar de lo que pueda parecer, en el ámbito de la tecnología para la educación también los docentes con un perfil interdisciplinario pueden tener un papel activo. A modo de ejemplo, en el proyecto lexicográfico descrito en Huete-García y Tarp (2024) se ejemplifica de qué manera la IA se convierte en aliada del saber humano y la experiencia docente para el desarrollo de una serie de tareas clave en el desarrollo de un futuro asistente de escritura en español que incluya datos de tipo pedagógico. El objetivo de este proyecto es desarrollar un asistente de escritura basado en IA para estudiantes de español, tanto nativos como no nativos. Concretamente, surge de una colaboración interdisciplinar entre especialistas informáticos de la empresa danesa Ordbogen A/S y un pequeño equipo de lexicógrafos de universidades españolas, británicas y danesas.
A pesar de que pueda ser menos frecuente, no es la primera vez que equipos de docentes llevan a cabo estudios desarrollados fuera del aula y que logran un impacto directo en ella y los estudiantes (Verlinde, 2011; Granger y Paquot, 2015; Tarp et al., 2017; Alonso-Ramos y García-Salido, 2019; Frankenberg-García et al., 2019; Tarp, 2020; Frankenberg-García, 2020; Fuertes-Olivera y Tarp, 2020; entre otros). Estos aprovecharon su formación interdisciplinar y experiencia con los usuarios, además de asumir los retos y cambios que la IA ha traído consigo. En el caso del proyecto descrito en Huete-García y Tarp (2024), entre las tareas principales basadas en las interrelaciones entre los especialistas y los chatbots se incluye la creación de dos corpus paralelos en español con fines de entrenamiento interno, el desarrollo de material de validación y la creación de explicaciones complementarias que ayuden a entender los problemas lingüísticos a los usuarios potenciales.
3. Metodología
Para dar respuesta a la pregunta de investigación se optó por seleccionar un total de tres de los chatbots más populares del mercado: ChatGPT (Open AI), Gemini (Google) y Copilot (Microsoft). Estos se trabajaron en un estudio previo con fines lexicográficos para la descripción analítica (Fuentes Morán et al., 2024). El objetivo fue comparar la efectividad de los resultados proporcionados entre ellos. Se aplicó una metodología totalmente novedosa y experimental que consiste en la formulación de prompts para interacturar con el chatbot a través de diferentes pruebas, de las más generales a las más específicas. Esta metodología se desarrolló y aplicó por primera vez en la fase creación de dos corpus paralelos en español con fines lexicográficos (Huete-García y Tarp, 2024). Determinar si un chatbot es capaz de imitar a un estudiante de español real es un gran reto; ya que, como afirma Bailini (2024, p. 226):
[…] el desarrollo de sistemas de Inteligencia Artificial (IA) de tipo chatbot, como ChatGPT, capaces de generar textos coherentes y correctos sobre cualquier tema y con un buen nivel de razonamiento crítico hace muy difícil, si no imposible, detectar si un texto es el resultado de una producción humana auténtica o de una máquina.
Por ello, para conocer el grado de cercanía de las respuestas del chatbot con las de un estudiante real, se tuvo en consideración su capacidad para cometer errores lo más fieles posibles a los del ser humano, en cuanto a la redacción de textos académicos. En ese sentido, las variables que se incorporaron en los prompt fueron el "QUÉ", "OBJETIVO1", "ROL" y "OBJETIVO2" en la pregunta introductoria; mientras que "TIPO DE TEXTO", "NÚMERO DE PALABRAS", "TEMA", "COMPLEMENTO" y "RESULTADO" para la instrucción específica. No obstante, para obtener respuestas adecuadas fueron necesarias algunas pruebas previas que tuvieron como objetivo evitar la falta de precisión o, incluso, generación de datos falsos/inventados, lo cual se ha calificado como "alucinaciones" (hallucinations) (Bang et al., 2023). En una primera fase, se optó por dar con frases breves ordenadas en tablas, para lo que se preguntó lo siguiente:
Proporciona 10 argumentos que formen parte del ensayo sobre la guerra con errores frecuentes en español en una columna, y su corrección en la columna de la derecha. (ChatGPT, OpenAI, 2023)
La respuesta de la IA mezcló errores de tipo lingüístico y moral (véase Tabla 1), por lo que la especificación de etiquetas es importante para alcanzar el objetivo principal.
Tabla 1 Ejemplos de respuesta donde se mezclan tipos de errores
La guerra es inevitável y siempre ha existido en la humanidad. | La guerra es inevitable y siempre ha existido en la humanidad. |
La guerra es una solución válida para resolver conflictos. | La guerra no es una solución válida para resolver conflictos. |
En general, cuando se le especifican los datos, la respuesta es más satisfactoria, aunque no se libra de las limitaciones propias de la IA, que se bloquea si recibe instrucciones complejas y con una sobrecarga informativa. Los chatbots pueden proporcionar datos adecuados si no los colapsamos con datos instructivos: es decir, cuanto más breves y específicos son los datos, mejor es la respuesta (véase Tabla 2).
Tabla 2 Ejemplos de instrucciones con y sin sobrecarga informativa
Ejemplo de instrucciones con sobrecarga informativa | Ejemplo de instrucciones sin sobrecarga informativa |
Proporciona 10 introducciones (de 120 palabras cada una) como si fueran de un ensayo sobre el cambio climático. Tienen que tener errores gramaticales frecuentes en español. Presenta las introducciones en una tabla donde aparezcan los textos con errores gramaticales en la columna de la izquierda y los textos corregidos en la columna de la derecha. Sin números. | Escribe dos introducciones a un ensayo sobre el cambio climático que tengan errores gramaticales frecuentes para un estudiante de español como lengua extranjera y proporciona la corrección de los textos. |
El siguiente reto fue evitar la repetición de errores básicos relacionados con la concordancia de palabras o la ausencia de tildes. Para ello, se debe especificar el tipo de error que queremos que el asistente incorpore. Sin embargo, la forma de hacerlo es importante para que lo genere adecuadamente. Por ejemplo, usar una etiqueta como "error de estilo" o "error de registro" es tan general y abstracta que la IA no es capaz de emitir una respuesta precisa. En cambio, cuando se trata de errores lingüísticos identificables como "de concordancia" (§ 4.3), la respuesta es más precisa. No obstante, esto no siempre funciona, y en la búsqueda de errores gramaticales específicos podemos dar con casos concretos cuya respuesta no es satisfactoria porque el chatbot desconoce la naturaleza lingüística o funcionamiento gramatical de ellos. En estos casos, podría funcionar la delimitación y descripción del error para que el propio chatbot lo aprenda y pueda emularlo, puesto que genera respuestas más específicas sobre lo que el propio chat ha emitido o descrito previamente. Tomando en cuenta el siguiente esquema, se puede alcanzar un nivel de concreción mayor:
1. Especificar que debe ser un texto con fines didácticos.
2. Introducir el error y que lo explique (errores ortográficos).
3. Especificar el orden de los textos (primero texto correcto y luego con errores o a la inversa).
4. Concretar el número de palabras y el tema.
Las etiquetas son relevantes porque cada elemento de la oración está interconectado con el resto y el chatbot puede hacer una búsqueda y procesar sobre aquel contenido que tiene que emitir posteriormente. A continuación, se proporciona el modelo de pregunta/instrucciones de ejemplo que se ha utilizado después de las pruebas emitidas (véase Tabla 3).
Tabla 3 Ejemplos de preguntas genéricas
Pregunta base con etiquetas |
Hola. Estoy entrenado [QUÉ] [OBJETIVO1] y necesito que asumas el rol de [ROL] para [OBJETIVO2]. ¿Puedes hacerlo? |
Gracias. Debes escribir [TIPO DE TEXTO] [NÚMERO DE PALABRAS] sobre [TEMA] con [COMPLEMENTO] de [TIPO DE ROL] y después ofrecerme [RESULTADO]. |
Ejemplo de pregunta |
Hola. Estoy entrenado un modelo lingüístico con fines didácticos y necesito que asumas el rol de estudiante de español como lengua extranjera para escribir algunos textos. ¿Puedes hacerlo? |
Gracias. Debes escribir un ensayo de 200 palabras sobre la importancia de proteger el medio ambiente con errores reales de un estudiante de español y después ofrecerme el mismo texto corregido. |
El "ROL" es una de las etiquetas clave del proceso de obtención de los textos en este estudio porque predispone al chatbot a asumir un papel lo más realista posible. Teniendo en cuenta que los chatbots son sistemas que no están diseñados para proporcionar datos con errores, hacerle asumir un rol es una estrategia casi perfecta para este cometido. De este modo, al solicitar al chatbot que actúe como un estudiante real, le permite emular errores reales con mayor facilidad, además de dar la versión corregida con fines didácticos (OBJETIVO1). Hay que añadir que sin la especificación de lo que hemos clasificado como "ROL" y el "OBJETIVO2", el chatbot puede negarse a proporcionar datos con errores o bien no los genera de manera automática porque no está programado para ello. Una posible solución a la ejecución de textos con errores variados y específicos es la formulación concreta del error como se manifiesta en el ejemplo de la Tabla 4.
Tabla 4 Ejemplos de aspectos gramaticales específicos
Pregunta base con etiquetas |
Un error frecuente entre los estudiantes de español es [TIPO DE ERROR], ¿lo sabías? |
Gracias. Ahora asume el rol de [ROL] y escribe [TIPO DE TEXTO] con [NÚMERO DE PALABRAS] sobre [TEMA] que incluya [TEMA GRAMATICAL]. Después, [OBJETIVO], escribe el mismo [TIPO DE TEXTO] incluyendo errores del siguiente tipo: [ERROR GRAMATICAL]. Sin notas. |
Ejemplo de pregunta |
Un error frecuente entre los estudiantes de español es confundir los verbos "ser" y "estar", ¿lo sabías? |
Gracias. Ahora asume el rol de estudiante de español y escribe un ensayo con más de 180 palabras sobre el impacto de la tecnología en la sociedad que incluya los verbos "ser" y "estar". Después, con fines didácticos, escribe el mismo ensayo incluyendo errores del siguiente tipo: confundir los verbos "ser" y "estar". Sin notas. |
Las etiquetas que se añaden en este caso son las de "TEMA GRAMATICAL" y "ERROR GRAMATICAL". La primera hace referencia simplemente al elemento lingüístico que queremos que figure en el texto; ya que, de no manifestarlo, es improbable que el chatbot lo incorpore. La segunda es la descripción del problema gramatical o de lengua que queremos que se incorpore. Es recomendable que el "ERROR GRAMATICAL" sea una frase que el chatbot haya emitido previamente para facilitar su tarea de comprensión e identificación. Para ello puede preguntarse por un listado adecuadamente ordenado: "¿Puedes darme una lista de 10 errores gramaticales frecuentes en un estudiante de español como lengua extranjera?".
Tras la aplicación de esta metodología en fase de desarrollo, se usaron los dos tipos de prompts generales y específicos como resultado de las múltiples pruebas, los cuales proporcionaron datos suficientes para probar la efectividad y el grado de exactitud de los chatbots en relación con el objetivo planteado en esta investigación. Gracias a esto, se solicitó a los chatbots que presentaran dos versiones de los textos: una que simulara estar escrita por un estudiante de español en fase de aprendizaje y sus correspondientes errores naturales, mientras que la otra debía ser ese mismo texto corregido.
4. Análisis e implicaciones didácticas
Una vez aplicados los dos tipos de prompts estudiados en el proceso metodológico, se optó por llevar a cabo un análisis contrastivo basado en la frecuencia y modalidad de errores generados. Generalmente, se contemplan dos categorías de errores: 1) errores de motivación cognitiva y 2) errores fortuitos (Díaz Villa, 2005). Esta clasificación sigue, asimismo, la tradicionalmente utilizada en los estudios relacionados con aprendizaje de lenguas, donde resulta de gran interés distinguir entre errores de competencia y errores de actuación (Chomsky, 1986). Así pues, los errores de motivación cognitiva (o de competencia) implican el desconocimiento de la norma ortográfica y gramatical, mientras que los fortuitos (o de actuación) tienen lugar accidentalmente y están motivados por factores extralingüísticos. Optar por una clasificación cerrada permite, como afirma Díaz Villa (2005) siguiendo el ejemplo de otros estudios previos (Ramírez Bustamante et al., 1994; Wedbjer, 1999; Becker et al., 1999), evaluar el funcionamiento del sistema de errores en cuanto a la cobertura de casos obtenida. En nuestro caso, el análisis de esta tipología va a determinar cuál es el grado de autenticidad del tipo de textos emulados por el chatbot y, por tanto, su exactitud a la hora de proporcionar textos que emulen las características propias de un estudiante de español real.
4.1. Generación de errores lingüísticos mediante IA
A partir de las pruebas, se aplicó el primer prompt maestro que especificaba el objetivo, el papel que debían desempeñar ChatGPT, Gemini y Copilot, y la tarea a realizar: "escribe un ensayo de 200 palabras sobre la importancia de proteger el medio ambiente con errores gramaticales reales de un estudiante de español". Hay que tener en cuenta que, antes de presentar una pregunta al chatbot, es necesario darle el siguiente texto introductorio para contextualizar el tema: "Estoy entrenando un modelo lingüístico con fines didácticos y necesito que asumas el papel de un estudiante de español como lengua extranjera de nivel intermedio para escribir unos textos".
La Tabla 5 muestra cómo los ejemplos obtenidos como respuesta al prompt genérico no fueron demasiado alentadores. Tras múltiples pruebas de prompts genéricos alternando algunas palabras o verbos, queda patente que el chatbot no es capaz de tener un conocimiento del mecanismo gramatical suficiente como para poder imitar algo tan propio del ser humano como es el error lingüístico. ChatGPT es el chatbot que incluye un mayor número de errores, a pesar de que estos son únicamente ortográficos (ausencia de tildes). Por su parte, Gemini incorpora un único error de ortografía ("g" por "j") con "protejer*", y Copilot introduce errores que no serían identificables en el plano ortográfico; sino que, según su propia justificación, se tratan de errores por confusión de palabras de tipo léxico ("grande" por "grave", "cortarlos" por "talarlos"). Además, la extensión, como puede observarse, es arbitraria en cada chatbot y solamente ChatGPT y Gemini se acercan a lo demandado.
Tabla 5 Respuestas de los chatbot al prompt genérico
ChatGPT | Gemini | Copilot |
---|---|---|
La importancia de proteger el medio ambiente es un tema muy relevante hoy en dia. El medio ambiente esta en peligro por muchas razones. Primero, la contaminacion del aire es un gran problema en muchas ciudades. Esto afecta la salud de las personas y los animales. Segundo, la deforestacion destruye los bosques que son los pulmones del planeta. Es importante proteger los arboles porque ellos producen oxigeno y absorben dioxido de carbono. Ademas, el cambio climatico es una consequencia de la actividad humana. La quema de combustibles fosiles libera grandes cantidades de gases de efecto invernadero a la atmosfera. Esto causa el calentamiento global, que tiene efectos negativos como el derretimiento de los glaciares y el aumento del nivel del mar.Para proteger el medio ambiente, es necesario tomar medidas como reciclar, usar menos plastico y reducir el consumo de energia. Tambien es importante educar a las personas sobre la importancia de cuidar la naturaleza. Cada pequeño esfuerzo cuenta y juntos podemos hacer una gran diferencia. La Tierra es nuestro hogar y debemos cuidarla para las futuras generaciones. [178 p] | El medio ambiente es nuestro hogar, el lugar donde vivimos y del que obtenemos todo lo que necesitamos para sobrevivir. Sin embargo, en los últimos años, el medio ambiente ha estado sufriendo un gran deterioro debido a la actividad humana. Es importante protejer el medio ambiente por muchas razones. Primero, porque es el hogar de millones de especies de plantas y animales, muchas de las cuales están en peligro de extinción. Segundo, el medio ambiente nos proporciona recursos naturales esenciales, como aire, agua y alimentos. Si no protegemos el medio ambiente, estos recursos se agotarán y no podremos sobrevivir.Tercero, el medio ambiente tiene un impacto en nuestra salud. La contaminación del aire y del agua puede causar enfermedades respiratorias y otros problemas de salud. El cambio climático también puede tener un impacto negativo en nuestra salud, provocando sequías, inundaciones y otros desastres naturales.Por todas estas razones, es importante que tomemos medidas para protejer el medio ambiente. Podemos hacer muchas cosas para ayudar, como reciclar, usar menos energía y conducir menos. También podemos apoyar a las organizaciones que trabajan para proteger el medio ambiente.Es importante que todos trabajemos juntos para protejer el medio ambiente para las generaciones futuras. Si no tomamos medidas ahora, será demasiado tarde. [208 p] | La protección del medio ambiente es muy importante. Hay muchas razones por las cuales debemos cuidar de la naturaleza. Primero, el aire está contaminado y esto es malo para nuestra salud. Segundo, los animales están en peligro de extinción. Si no hacemos nada, no habrá más tigres ni elefantes. Tercero, la deforestación es un problema grande. Los árboles son necesarios para el oxí- geno y para los animales. Por eso, debemos plantar más árboles y no cortarlos. En conclusión, todos debemos trabajar juntos para proteger el medio ambiente. [87 p] |
En cambio, al aplicar el prompt específico de confusión de palabras, los resultados son mucho más satisfactorios, aunque limitados a un solo tipo de error. Esta vez, los ejemplos responden a la pregunta "asume el rol de estudiante de español y escribe un ensayo con más de 180 palabras sobre el impacto de la tecnología en la sociedad que incluya los verbos ‘ser’ y ‘estar’. Después, con fines didácticos, escribe el mismo ensayo incluyendo errores del siguiente tipo: confundir los verbos ‘ser’ y ‘estar’. Sin notas" (Tabla 6).
Tabla 6 Respuestas de los chatbot al prompt con tema específico
ChatGPT | Gemini | Copilot |
---|---|---|
La tecnología ha tenido un impacto significativo en la sociedad moderna. En primer lugar, la tecnología está una herramienta fundamental que ha revolucionado la forma en que nos comunicamos. Antes, enviar una carta estaba un proceso largo y tedioso, pero ahora, gracias al correo electrónico y las redes sociales, podemos comunicarnos al instante, sin importar la distancia.Además, la tecnología también es cambiando la manera en que trabajamos. Muchas personas ahora son trabajando desde casa, lo que está posible gracias a las herramientas digitales como las videoconferencias y las plataformas de colaboración en línea. Esta flexibilidad está beneficiosa tanto para empleados como para empleadores.Sin embargo, no todo está positivo. La dependencia excesiva de la tecnología puede llevar a problemas de salud, como el sedentarismo y el estrés. Muchas personas son pasando demasiadas horas frente a las pantallas, lo que es afectando su bienestar físico y mental. Además, está importante considerar la brecha digital, ya que no todas las personas están acceso a la tecnología, lo que es creando desigualdades en la sociedad.En conclusión, la tecnología está una fuerza poderosa que es transformando la sociedad de muchas maneras. Aunque está innegable que tiene muchos beneficios, también está crucial usarla de manera equilibrada y consciente para evitar sus posibles efectos negativos. | La tecnología es un elemento omnipresente en la sociedad actual, estando presente en todos los aspectos de nuestra vida. Ser una herramienta poderosa que ha transformado la forma en que nos comunicamos, trabajamos, aprendemos y nos divertimos. Sin duda, la tecnología ha tenido un impacto positivo en la sociedad. Ha permitido avances médicos que han mejorado la esperanza de vida y la calidad de vida de millones de personas. Ha facilitado la comunicación global, permitiendo que las personas se conecten entre sí sin importar la distancia. Ha revolucionado la educación, brindando acceso a información y conocimiento a personas de todo el mundo.Sin embargo, la tecnología también ha tenido un impacto negativo en la sociedad. Ha generado una dependencia excesiva de los dispositivos electrónicos, lo que puede llevar a problemas de salud física y mental. Ha incrementado la brecha digital, dejando a las personas sin acceso a las oportunidades que ofrece la tecnología. Ha creado nuevas formas de crimen y explotación, como el ciberacoso y el robo de identidad. Es importante estar conscientes tanto de los beneficios como de los riesgos de la tecnología. Debemos utilizarla de manera responsable y ética, para que nos beneficie a todos y no nos perjudique. | El impacto de la tecnología en la sociedad está innegable. La tecnología es una parte integral de nuestras vidas, es presente en cada aspecto de nuestra rutina diaria. Desde los teléfonos inteligentes que están extensiones de nosotros mismos hasta las redes sociales que son conectando a personas de todo el mundo, la tecnología es omnipresente.En primer lugar, la tecnología es una herramienta poderosa para la comunicación. Las aplicaciones de mensajería instantánea y las redes sociales son cambiando la forma en que nos relacionamos con los demás. Estamos más conectados que nunca, pero también estamos expuestos a nuevos desafíos, como la privacidad y la adicción a las pantallas. Además, la tecnología es un motor de innovación. Las empresas tecnológicas son líderes en la creación de soluciones para problemas globales, como la energía limpia y la atención médica. La inteligencia artificial es una herramienta poderosa que es transformando industrias enteras. Sin embargo, también son viendo los efectos negativos de la tecnología. Estamos más aislados, pasamos menos tiempo al aire libre y son preocupados por la seguridad de nuestros datos. La tecnología es una espada de doble filo.En conclusión, la tecnología es una parte esencial de nuestra sociedad actual. Está moldeando nuestra forma de vida y nuestras relaciones. Debemos ser conscientes de su impacto y encontrar un equilibrio entre sus beneficios y sus riesgos. |
En la Tabla 6 se muestra un ejemplo de ensayo con errores ortográficos generales producidos en respuesta a este tipo de indicaciones. Al ser más precisos, los chatbots son capaces de actuar generando el tipo de error demandado. Este ejercicio de análisis se repitió con un total de 40 temas diferentes que se generaron también mediante IA originalmente para el proyecto descrito en Huete-García y Tarp (2024). En una primera instancia, existió la hipótesis de que la variación de temas ayudaría a la generación de mayor variedad de errores, tanto generales como específicos. Sin embargo, los datos reales no arrojaron grandes cambios, lo cual demuestra que la IA generativa sigue sin estar preparada para proporcionar datos que simulen el error humano con precisión. Por el contrario, los errores cometidos demuestran que estos sistemas fomentan una repetición constante de datos considerados políticamente correctos y que "obligarlos a errar" no está entre las funcionalidades para las que han sido programados.
4.2. Generación de errores por trastornos del lenguaje mediante IA
A pesar de las limitaciones con las que podemos toparnos al momento de hacer uso de estos sistemas de IA generativa, lo cierto es que funcionan bastante bien cuando se trata de generar tipos de errores que se hallan mucho más documentados en internet. Es un hecho que los potenciales errores de un verdadero estudiante de español como lengua extranjera se constituyen como entramado amplio y complejo donde entran en juego muchísimas variables como el nivel, la lengua materna o segundas lenguas, el contexto sociocultural, entre otras (Doughty y Long, 2003). Al respecto, tal y como se describe en Huete-García y Tarp (2024), una de las grandes ventajas de solicitar al chatbot que imite a un estudiante de español real fue el acceso a datos más complejos: aquellos conocidos como errores disortográficos, causados por trastornos del lenguaje. Esta tipología de errores afecta a la actuación de los estudiantes y es un gran paso para tener material generado que se puede implementar en futuras explotaciones didácticas, como se describe en el apartado 4. Para este cometido, solamente debe añadirse la mención explícita al tipo de trastorno del lenguaje que interesa emular, como se ha utilizado en el siguiente prompt:
Escribe un ensayo sobre la importancia de los derechos humanos con faltas de ortografía que comete con frecuencia un estudiante de español con disortografía. A continuación, escribe el mismo texto con las faltas corregidas.
Los datos generados por los tres chatbots presentan soluciones mucho más precisas y útiles para una potencial explotación pedagógica. De hecho, en esta ocasión, los textos generados ofrecen una variedad de errores que se pueden atribuir fácilmente a este fenómeno. Entre los que se pueden identificar, están los siguientes (Mendoza Flores, 2020):
1. Sustitución de fonemas vocálicos y/o consonánticos afines por el punto y/o modo de articulación.
2. Confusión en palabras con fonemas que admiten dos grafías en función d las vocales (g/j/k).
3. Omisión de la letra h.
La Tabla 7 ilustra que, en estos casos, ChatGPT y Copilot demuestran ser más eficientes al generar estos ejemplos, además de que se comprueba su capacidad para crear errores afectados por un factor externo al propio conocimiento del mecanismo gramatical. No cabe duda de que ChatGPT arroja resultados mejores y más precisos que el resto de chatbots probados. Copilot, a su vez, continúa siendo bastante impreciso en cuanto al número de palabras, a pesar de que responde con mayor precisión a prompts específicos. Por su parte, Gemini sigue limitándose a un aspecto por cada pregunta realizada. Aunque los textos con errores obtenidos para disortografía son acertados, no puede afirmarse con contundencia que los emitidos con prompts generales cumplan con este propósito.
Tabla 7 Ejemplos de respuestas al prompt de disortografía
ChatGPT | Gemini | Copilot |
---|---|---|
Los derechos umanos son fundamentales para la convivencia pazífica y justa en cualquier sosiedad. Estos derechos garantisan que todas las personas sean tratadas con dignidad y respeto, independientemente de su orijen, religión, género o situación económica. […] | Los derechos humános son un conjunto de normas básicas que protegen la dignidad y libertades fundamentales de todas las personas, sin distinción de raza, sexo, nacionalidad, religión, idioma o cualquier otra condición. Son universales, es decir, válidos para todas las personas en todo el mundo, y son inalienables, lo que significa que no se pueden perder ni ser arrebatados. […] | Los derechhos humanos son muy importantes para todas las personas. Son como las reglas del mundo para que todos podamos vivir en paz y felisidad. Sin los derechhos humanos, la vida sería muy dificil y injusta. […] |
4.3 El uso de los textos mediante IA como recurso docente
El estudio y análisis de errores en niveles intermedios ha sido trabajado ampliamente de manera analítica (Ferreira Cabrera et al., 2014; Ferreira Cabrera y Elejalde Gómez, 2017; entre otros). Estos estudios han contribuido de sobremanera a identificar aquellos errores más frecuentes en los corpus de errores disponibles en aras de guiar nuevas y mejores soluciones pedagógicas. Algunos de estos errores frecuentes son el uso incorrecto de las categorías gramaticales, la falsa selección de género y número en la concordancia gramatical y la omisión de tildes en la ortografía acentual. Las pruebas realizadas y expuestas en el apartado de análisis muestran que los chatbots emulan con relativa facilidad la omisión de tildes, pero todavía no son capaces de procesar y generar los otros tipos de errores, salvo que se les solicite un ejemplo explícito y articulado mediante sustitución de palabras.
No obstante, con el alcance actual de los chatbots y su capacidad para esta tarea, se puede dar con una forma de trabajar sistemática y aplicable a otros proyectos, asumibles por cualquier especialista, y cuyas propuestas prácticas se presentan en este subapartado. Con este fin, se ha optado por un enfoque orientado al significado (MOI) (Barcroft y Muñoz-Basols, 2022). Este enfoque de tipo léxico consiste en poner el foco metodológico en el significado, con lo cual se garantiza un aprendizaje del léxico en contexto que considera el proceso de adquisición una parte fundamental. Se proponen dos formas de trabajar con los datos generados por IA. En primer lugar, a través de la generación de textos que presenten errores inducidos que cada docente quiera trabajar en clase de lengua; y, en segundo lugar, la generación de datos temáticos que generen el debate y la discusión en torno a los sesgos cognitivos de la IA. De esta forma se contribuye a afianzar mejor el aprendizaje del léxico. En la Figura 1 se ejemplifica brevemente cuáles serían algunos de los pasos fundamentales.
En el primer ejemplo se trata de trabajar un aspecto gramatical específico, con lo cual se pueden generar algunos textos con errores de concordancia de género y número en español. Con las muestras obtenidas, se solicita a los estudiantes que identifiquen y marquen los errores y, a continuación, intenten explicar el significado y función de estos en el contexto ofrecido. En la Tabla 7 se muestran dos ejemplos de textos generados con ChatGPT y Copilot. Tal y como se ha ido evidenciado en ejemplos previos, ChatGPT es el chatbot que mejor responde a nuestros prompts al proporcionar datos variados y veraces. (Tabla 8)
Tabla 8 Ejemplos de ensayos escritos con errores de concordancia de género y número
ChatGPT | El medio ambiente es muy importante para nuestra vida y debemos cuidarla para que las futuras generaciones puedan disfrutar de un planeta sano. La problema de la contaminación afecta tanto a los seres humanos como a los animales y plantas. Si no tomamos medidas ahora, podríamos enfrentarnos a consecuencias grave en el futuro. Es necesario que todos pongamos de nuestra parte para reducir las emisiones de gases contaminante y promover el uso de energías renovables.Las bosques son esenciales para mantener el equilibrio del ecosistema. Desafortunadamente, muchos de ellos están siendo destruido a un ritmo alarmante. Esto no solo afecta a la biodiversidad, sino que también contribuye al cambio climático. Las campañas de reforestación deberían ser una prioridad para los gobiernos y las comunidad local.Otro aspecto importante es el manejo de los residuos. Muchas personas no reciclan correctamente, lo que provoca que grandes cantidades de plásticos y otros materiales dañinos terminen en los océanos. Las animal marinos sufren las consecuencias de nuestra negligencia, y muchas especies están en peligro de extinción.En resumen, proteger el medio ambiente es una responsabilidad de todos. Si cada uno de nosotros hace un esfuerzo, podremos asegurar un futuro más limpio y saludable para nuestras generaciones futuras. Es hora de actuar y hacer la diferencia. |
Copilot | El medio ambiente es muy importante para todos nosotros. Es necesario que cuidemos de ella para que nuestras futuras generaciones puedan disfrutar de un planeta limpio y sano. Hay muchas maneras en que podemos proteger el medio ambiente.Primero, debemos reciclar. El reciclaje es importante porque ayuda a reducir la cantidad de basura que producimos. Si todos reciclamos, habrá menos contaminación en el aire y en el agua. Además, debemos usar menos plástico. Los plásticos son muy malos para el medio ambiente y debemos evitarlos tanto como sea posible.Otra forma de proteger el medio ambiente es plantar árboles. Los árboles son muy importantes porque producen oxígeno y nos dan sombra. También debemos cuidar de las animales. Si no protegemos a las animales, podrían desaparecer y eso sería muy triste. En conclusión, debemos tomar medidas para proteger el medio ambiente. Si todos hacemos nuestra parte, tendremos un mundo mejor para vivir. |
Por lo que respecta a los errores de sesgo cognitivo, el tema elegido para el ensayo será de gran importancia. Esta es una gran oportunidad para reflexionar sobre conceptos culturales léxicos como "siesta". Para ello, se puede solicitar a los chatbot emitir un ensayo sobre algún aspecto sociocultural del mundo hispánico. A modo de ejemplo, se solicitó un ensayo sobre "la cultura de la siesta". A partir de los textos emitidos se puede pedir a los estudiantes que definan "siesta" según su opinión y después lo comparen con lo expresado en los textos mediados por la herramienta de IA.
Tabla 9 Ejemplos de estereotipos asociados a «la siesta» por los chatbots
ChatGPT | Los comercios suelen cerrar durante unas horas en la tarde para permitir a las personas ir a sus casas y descansar. Esta pausa en la jornada laboral también es vista como una oportunidad para pasar tiempo con las familias. |
Copilot | Todas las personas se acuestan después de almorzar y se despiertan después de una hora o dos. Durante la siesta, las calles están tranquilas y no hay mucho tráfico. Las tiendas y los restaurantes están cerrados. La gente se toma su tiempo para descansar y disfrutar de la vida. |
Gemini | La siesta se ha asociado tradicionalmente con las zonas rurales de España, donde el calor del mediodía dificultaba el trabajo físico al aire libre. Sin embargo, en la actualidad, la siesta también se practica en las ciudades, y se ha convertido en una parte importante del estilo de vida español. |
Se podrían aprovechar los ejemplos de sesgo para que los estudiantes investiguen sobre ese concepto cultural en otras fuentes objetivas. Este procedimiento no solamente ayudaría al aprendizaje de la significancia de "la siesta" en el mundo hispano, sino también a desmentir algunos estereotipos y prejuicios asociados con esa cultura. Entre estos, están la cultura del poco esfuerzo o la asociación de esa actividad con zonas alejadas de las ciudades, algo que los chatbots reproducen. Algunos ejemplos de estos potenciales sesgos se muestran en la Tabla 9.
5. Conclusiones
El trabajo de inducción de errores con IA fue y sigue siendo un reto porque estas herramientas nunca estuvieron diseñadas para ello. Además, se suma el hecho de que los chatbots cuentan con limitaciones de sesgo e ideologías subyacentes fruto de diferentes procesos sociocognitivos, lo que no ha facilitado la tarea. Los sesgos suelen afectar tanto a algoritmos, diseño, tratamiento de datos, como a otros aspectos que también son la causa de la propia interacción entre los usuarios y el chatbot (Xue et al., 2023). En tal sentido, el gran reto para nuestras investigaciones fue provocar que el chatbot consiguiera emitir datos para los que no estaba programado, como en el caso de inducir errores voluntariamente, incluso si se trataba con fines pedagógicos (Huete-García y Tarp, 2024; Tarp y Nomdedeu Rull, 2024).
El objetivo de este estudio fue demostrar si los datos creados por los chatbots podían realmente emular los de un estudiante real. Después del análisis, se ha refutado nuestra hipótesis de que no pueden hacerlo todavía con máximas garantías. En otras palabras, el conocimiento humano es fundamental para modular las respuestas de estos sistemas, tanto para la formulación de los prompt como para explotar pedagógicamente los datos (Huete-García y Tarp, 2024). Por tanto, se concluye que un chatbot no es capaz de crear errores que se cometen por competencia o actuación. Es preciso manifestar que se trata de un proceso en el que estamos exigiendo al chatbot que entienda el mecanismo de formación de los errores lingüísticos humanos, lo cual se ve afectado por una serie de factores pragmáticos y cognitivos que resultan complejos de entender incluso para los seres humanos.
Sin embargo, los chatbots pueden reproducir errores pautados. Estos textos con errores sirven para diferentes fines como el desarrollo interno y preparación de herramientas lexicográficas (como los asistentes de escritura) o el planteamiento de explotaciones didácticas a partir de los datos emitidos. Asimismo, ha quedado comprobado que son una buena herramienta para crear datos que incluyan ejemplos de errores próximos a la dislexia y otros trastornos del lenguaje. Para este cometido, es necesario el uso de unos prompts específicos y muy pautados, como los que se han descrito. Así, si bien los chatbots de IA generativa todavía no están lo suficientemente preparados para imitar a un estudiante de español real con facilidad, su fuente inagotable de datos puede resultar de enorme valor para la enseñanza de segundas lenguas, especialmente cuando se trata de generar datos preparados para el aprendizaje y práctica de la escritura en español.
Por lo tanto, esta investigación ha descrito una nueva función de los chatbots y ha explicado una metodología de trabajo que facilita la interacción entre los chatbots y el ser humano para desarrollar el campo de los errores lingüísticos generados por IA. Cabe señalar que este tipo de investigaciones cuentan con las limitaciones propias de las características y alcance de los chatbots, los cuales están aún en constante actualización y desarrollo. Una investigación futura que puede derivarse de estos estudios es el desarrollo de prompts que permitan emitir mayor variedad de errores en textos sin necesidad de especificar con tanta precisión. Esto proporcionaría una evolución necesaria para poder seguir aprovechando las ventajas de la IA generativa sin que ella domine al ser humano.