Publicado 20/11/2025 04:53

SAM 3 de Meta reconoce más objetos en imágenes y vídeos con indicaciones en texto e imágenes de ejemplo

Identificación de objetos en una imagen del modelo SAM 3
Identificación de objetos en una imagen del modelo SAM 3 - META

   MADRID, 20 Nov. (Portaltic/EP) -

    Meta ha presentado la nueva versión de su modelo de segmentación, SAM 3, que introduce la capacidad de usar indicaciones en texto e imágenes de ejemplo para que pueda reconocer más conceptos e identificarlos mejor en una imagen o un vídeo.

    La familia Segment Anything Model (SAM) se compone de modelos de segmentación de imagen - que identifica los píxeles de la imagen que pertenecen a un objeto- para ayudar en la identificación y diferenciación de objetos.

   Con el primero modelo, presentado en 2023, Meta pretendía democratizar esta tecnología para pudiera usarse en áreas como la edición de vídeo o la ganadería. Un año después llegó SAM 2, que introdujo la capacidad de segmentar cualquier objeto y seguirlo de manera consistente a lo largo de todos los fotogramas de un vídeo en tiempo real.

    SAM 3 avanza en las indicaciones, ya que además de las de tipo audiovisual, admite indicaciones conceptuales como frases nominales simples y ejemplos de imágenes, como informa Meta en un comunicado.

    En los modelos de lenguaje multimodales de gran tamaño, SAM 3 también puede segmentar objetos descritos mediante indicaciones más complejas, como: "personas sentadas, pero sin llevar una caja de regalo en las manos".

    Meta ha destacado el rendimiento de SAM 3, hasta el punto de que "procesa una sola imagen con más de cien objetos detectados en 30 milisegundos en una GPU H200". En vídeo, asegura que mantiene un rendimiento "casi en tiempo real" para unos cinco objetos simultáneos.

    Asimismo, Meta ha creado una base de datos para el entrenamiento con más de 4 millones de conceptos únicos, para lo que ha usado sistema híbrido de anotadores humanos y modelos de inteligencia artificial.

Contador

Contenido patrocinado