La inquietante verdad sobre los chatbots: ¡Pueden deducir todo sobre ti!

La inquietante verdad sobre los chatbots: ¡Pueden deducir todo sobre ti!
chatbots

En su estudio, Vechev y su equipo han descubierto que los chatbots más avanzados, basados en modelos lingüísticos de gran tamaño (Llm), son capaces de deducir con precisión una cantidad significativa de información personal de los usuarios a partir de conversaciones aparentemente insignificantes. Este fenómeno está directamente relacionado con la forma en que se han entrenado los algoritmos de estos modelos. La resolución de este problema aún no está clara, según Martin Vechev, profesor de informática en el Politécnico de Zúrich en Suiza, quien lideró la investigación.

El equipo de Zúrich ha probado los modelos lingüísticos desarrollados por OpenAI, Google, Meta y Anthropic, y ha informado del problema a todas las empresas involucradas. OpenAI está trabajando en eliminar la información personal de los datos de entrenamiento y ajustar sus modelos para rechazar solicitudes de datos personales. Anthropic, por su parte, asegura en su política de privacidad que no recopila ni vende información personal. Google y Meta no han respondido a las solicitudes de comentario.

Este nuevo problema de privacidad está relacionado con el proceso que ha permitido a los chatbots como ChatGPT mejorar su capacidad. Los modelos de inteligencia artificial utilizados para entrenar estos chatbots se nutren de grandes cantidades de datos recopilados en la web, lo que les permite desarrollar una sensibilidad hacia los patrones del lenguaje. Estos datos de entrenamiento contienen información personal y conversaciones que pueden estar vinculadas al uso del lenguaje de maneras no inmediatamente evidentes, como la relación entre ciertos dialectos o frases y la ubicación o los datos demográficos de una persona.

Estos patrones permiten a los modelos lingüísticos formular hipótesis sobre las personas basadas en las frases que escriben, incluso si estas parecen irrelevantes a simple vista. Por ejemplo, si un usuario escribe en un chat que «acaba de tomar el tranvía por la mañana», un modelo podría deducir que se encuentra en Europa, donde este medio de transporte es más común. Sin embargo, los modelos de inteligencia artificial también pueden captar pistas más sutiles y combinar información para identificar con impresionante precisión la ciudad, el género, la edad y la etnia de una persona.

El equipo de Zúrich ha probado la capacidad de varios modelos lingüísticos para deducir datos personales utilizando conversaciones publicadas en Reddit en las que los usuarios habían revelado información sobre sí mismos. GPT-4, el modelo en el que se basa ChatGPT, ha sido capaz de deducir correctamente información privada con una precisión que osciló entre el 85% y el 95%.

No es sorprendente que los modelos lingüísticos sean capaces de obtener información privada, lo sorprendente es la precisión con la que lo hacen. A pesar de que existen técnicas para ocultar datos personales en los textos, los Llm aún pueden deducir conclusiones precisas basándose en información parcial. Los investigadores creen que estos modelos podrían ser utilizados para extraer información sensible de las redes sociales o ser diseñados para descubrir datos a través de solicitudes aparentemente inocuas.