Tier 3 · ARCHITECTURE SIGNBRIDGE

Traducción bidireccional de lengua de señas.Bidirectional sign language translation.

ASL ↔ LSC ↔ texto/voz. Sistema basado en MediaPipe + PyTorch CNN+LSTM con visualización 3D del signer. Accesibilidad real.ASL ↔ LSC ↔ text/voice. System based on MediaPipe + PyTorch CNN+LSTM with 3D signer visualization. Real accessibility.

01 / ProblemaProblem

El problema realThe problem real

Los traductores de lengua de señas existentes son unidireccionales (mayormente: voz → texto, ignorando señas → texto). Los pocos sistemas que detectan señas son ASL únicamente y requieren guantes o cámaras de profundidad. En LATAM no existe nada serio para LSC (lengua de señas colombiana). La comunidad sorda local depende de intérpretes humanos escasos y caros.Existing sign language translators are unidirectional (mostly: voice → text, ignoring signs → text). The few systems that detect signs are ASL-only and require gloves or depth cameras. In LATAM there is nothing serious for LSC (Colombian sign language). The local deaf community depends on scarce and expensive human interpreters.

Por qué importaWhy it matters

ASL ↔ LSC ↔ texto/voz. Sistema basado en MediaPipe + PyTorch CNN+LSTM con visualización 3D del signer. Accesibilidad real.ASL ↔ LSC ↔ text/voice. System based on MediaPipe + PyTorch CNN+LSTM with 3D signer visualization. Real accessibility.

02 / SoluciónSolution

Cómo lo resolvemos.How we solve it.

Sistema bidireccional con cámara web estándar: el signer firma, MediaPipe extrae landmarks de manos/cara/cuerpo, una CNN+LSTM entrenada con dataset propio LSC+ASL clasifica la seña a texto, y un TTS lo lee. En sentido inverso: el oyente habla, Whisper transcribe, un modelo neural genera la secuencia de señas, y un avatar 3D animado (Three.js) la representa. Latencia objetivo: <500ms.Bidirectional system with standard webcam: signer signs, MediaPipe extracts hand/face/body landmarks, a CNN+LSTM trained on custom LSC+ASL dataset classifies the sign to text, TTS reads it. Reverse: hearing person speaks, Whisper transcribes, a neural model generates the sign sequence, an animated 3D avatar (Three.js) represents it. Target latency: <500ms.

03 / Stack

Tecnologías usadas.Tech used.

Vision
MediaPipe
Model
PyTorch CNN+LSTM
Voice
Whisper + XTTS
3D Avatar
Three.js
Backend
FastAPI
Frontend
React + Vite
2
Lenguas señasSign languages
<500ms
Latencia targetTarget latency
3D
AvatarAvatar
Offline
CapableCapable
04 / Próximos pasosNext steps

¿Institución o partner social?Institution or social partner?

Buscamos partners institucionales (gobierno, ONG, fundaciones) para co-construir el dataset LSC y pilotear en colegios y centros de salud.Looking for institutional partners (government, NGOs, foundations) to co-build the LSC dataset and pilot in schools and health centers.

Hablemos del proyectoLet's discuss the project