OSMOZ-IT — Proyecto de matching semántico
Contexto
OSMOZ-IT encuentra dificultades en la identificación de episodios de series: títulos y números varían según el país de emisión, lo que complica las correspondencias. Un piloto rápido con OpenSearch confirmó la viabilidad de un enfoque de matching semántico de sinopsis.
Solución entregada
- Motor vectorial : OpenSearch desplegado en Docker para la búsqueda semántica.
- Embeddings multilingües : conversión de las sinopsis en vectores de embeddings mediante modelos multilingües.
- Importación y búsqueda : ingesta de datos en varios idiomas, búsqueda vía Dev Tools y API REST.
- Benchmark comparativo : evaluación de modelos, estrategias de búsqueda y análisis estadístico.
- Entrega llave en mano : Dockerfile, Docker Compose, síntesis técnica, notebook de demo y resultados de pruebas.
Benchmark
Se realizó un enfoque de benchmark para validar la solución: comparación de modelos de embedding (propietario vs. open source), análisis de estrategias de búsqueda (umbral de puntuación mínima, top-k) y evaluación estadística (precisión, recall, MRR, NDCG). El objetivo era alcanzar una tasa de matching correcto superior al 90 % en una muestra representativa.
Testimonio del cliente
«Recurrí a Ninoh y Joël para desarrollar un prototipo de matching semántico de episodios de series. La calidad del entregable y la precisión de su informe superaron ampliamente mis expectativas. Recomiendo encarecidamente a Ninoh y Joël a cualquier empresa que desee contar con expertos en IA fiables y rigurosos.»
— Marc OZONNE, Cofundador, OSMOZ-IT