Waymo quiere utilizar Gemini de Google para entrenar sus robotaxis.

Photo illustration of an autonomous vehicle.

Waymo Avanza en el Desarrollo de Modelos de Entrenamiento para Robotaxis

Waymo ha destacado durante mucho tiempo sus vínculos con DeepMind de Google y su investigación en inteligencia artificial como una ventaja estratégica sobre sus rivales en el ámbito de la conducción autónoma. Ahora, la compañía de Alphabet está llevando esto un paso más allá al desarrollar un nuevo modelo de entrenamiento para sus robotaxis basado en el modelo de lenguaje multimodal de Google, Gemini. Hoy, Waymo ha publicado un nuevo artículo de investigación que presenta un “Modelo Multimodal de Fin a Fin para la Conducción Autónoma”, también conocido como EMMA.

EMMA: Un Nuevo Modelo para la Toma de Decisiones

Este nuevo modelo de entrenamiento de principio a fin procesa datos de sensores para generar “trayectorias futuras para vehículos autónomos”, ayudando a los vehículos sin conductor de Waymo a tomar decisiones sobre hacia dónde ir y cómo evitar obstáculos. Más importante aún, esto es una de las primeras indicaciones de que el líder en conducción autónoma tiene planes de usar MLLMs en sus operaciones. Además, es un signo de que estos LLMs podrían liberarse de su uso actual como chatbots y encontrar aplicación en un entorno completamente nuevo en la carretera.

En su artículo de investigación, Waymo propone “desarrollar un sistema de conducción autónoma en el que el MLLM sea un ciudadano de primera clase”.

Retos de los Sistemas de Conducción Autónoma y Soluciones Innovadoras

El artículo describe cómo, históricamente, los sistemas de conducción autónoma han desarrollado módulos específicos para diversas funciones, incluyendo percepción, mapeo, predicción y planificación. Este enfoque ha demostrado ser útil durante muchos años, pero tiene problemas de escalabilidad “debido a los errores acumulados entre los módulos y la limitada comunicación entre módulos”. Además, estos módulos podrían tener dificultades para responder a “entornos novedosos” porque, por su naturaleza, son “predefinidos”, lo que puede dificultar la adaptación.

Waymo afirma que MLLMs como Gemini presentan una solución interesante para algunos de estos desafíos por dos razones: el chat es un “generalista” entrenado en vastos conjuntos de datos extraídos de Internet “que proporcionan un rico ‘conocimiento del mundo’ más allá de lo que contienen los registros de conducción comunes”; y demuestran capacidades de razonamiento “superiores” mediante técnicas como el “razonamiento en cadena”, que imita el razonamiento humano desglosando tareas complejas en una serie de pasos lógicos.

EMMA y sus Aplicaciones en la Navegación de Robotaxis

Waymo desarrolló EMMA como una herramienta para ayudar a sus robotaxis a navegar en entornos complejos. La compañía identificó varias situaciones en las que el modelo ayudó a sus autos sin conductor a encontrar la ruta correcta, incluyendo encuentros con diversos animales o construcción en la carretera.

Otras empresas, como Tesla, han hablado extensamente sobre el desarrollo de modelos de fin a fin para sus autos autónomos. Elon Musk afirma que la última versión de su sistema Full Self-Driving utiliza un sistema de IA de “redes neuronales de fin a fin” que traduce imágenes de cámaras en decisiones de conducción.

Esto es una clara indicación de que Waymo, que tiene una ventaja sobre Tesla en la implementación de verdaderos vehículos sin conductor en la carretera, también está interesada en perseguir un sistema de fin a fin. La compañía afirmó que su modelo EMMA sobresale en la predicción de trayectorias, detección de objetos y comprensión de grafos de carretera. “Esto sugiere una prometedora vía de investigación futura, donde incluso más tareas centrales de conducción autónoma podrían combinarse en un entorno similar y ampliado”, comentó la compañía en una publicación de blog hoy.

Sin embargo, EMMA también tiene sus limitaciones, y Waymo reconoce que será necesario realizar futuras investigaciones antes de poner el modelo en práctica. Por ejemplo, EMMA no pudo incorporar entradas de sensores 3D de lidar o radar, lo que Waymo calificó como “costoso computacionalmente”. Y solamente pudo procesar una pequeña cantidad de fotogramas de imágenes a la vez.

Existen también riesgos al usar MLLMs para entrenar robotaxis que no se mencionan en el artículo de investigación. Los chatbots como Gemini a menudo “alucinan” o fallan en tareas simples como leer relojes o contar objetos. Waymo tiene muy poco margen de error cuando sus vehículos autónomos viajan a 40 mph por una carretera concurrida. Se necesitará más investigación antes de que estos modelos puedan ser implementados a gran escala, y Waymo es claro al respecto. “Esperamos que nuestros resultados inspiren una mayor investigación para mitigar estos problemas”, escribe el equipo de investigación de la compañía, “y para seguir evolucionando el estado del arte en las arquitecturas de modelos de conducción autónoma”.

Fuente y créditos: www.theverge.com

Cats:

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Mi resumen de noticias

WhatsApp