ASSA — Ninguna Voz Dejada Atrás

Misión

Hay Voces Que la IA No Puede Escuchar

La IA de reconocimiento de voz actual está construida sobre las voces de hablantes típicos. Para las personas con disartria, su habla se trata como una entrada inesperada — esencialmente “ruido” que se descarta.

La disartria es un trastorno motor del habla causado por condiciones neurológicas como accidentes cerebrovasculares, parálisis cerebral o condiciones congénitas. Afecta a millones de personas en todo el mundo, pero sus voces siguen ausentes de los datos de entrenamiento de la IA.

No importa cuánto avance la tecnología, las voces excluidas de los datos de entrenamiento nunca serán reconocidas. ASSA nació para cambiar esta exclusión estructural.

Image placeholder

Historia

El Desafío de Asahi Ogasawara — 15 Horas de Determinación

En el corazón del proyecto ASSA está la historia de un investigador que también era una persona que vivía con disartria.

Vivir con disartria

Asahi Ogasawara nació con músculos faciales débiles, lo que causaba un habla poco clara — una condición conocida como disartria. “Mi voz nunca llegará a nadie” — en esa soledad, encontró esperanza en la tecnología.

Una tasa de reconocimiento de solo el 7%

Cuando probó su voz con la IA de voz más avanzada, la tasa de reconocimiento fue de apenas el 7%. De 10 intentos, ni uno solo fue comprendido correctamente. La IA, construida únicamente con voces típicas, trataba su habla como “ruido”.

“Si los datos no existen, yo seré los datos”

“Si no hay suficientes datos, los crearé yo mismo.” Durante medio año, Asahi se sentó frente a un micrófono casi todos los días. A pesar del esfuerzo físico, grabó 15 horas y aproximadamente 12,000 enunciados — un corpus de habla disártrica de un solo hablante sin precedentes.

Un salto al 80% de precisión

Cuando este enorme conjunto de datos se utilizó para entrenar la IA, la precisión del reconocimiento saltó del 7% a más del 80%. Este logro fue aceptado en ICASSP 2026, la conferencia más prestigiosa del mundo en acústica, habla y procesamiento de señales.

Asahi Ogasawara presentando en una conferencia

Asahi Ogasawara trabajando en su investigación

El 17 de marzo de 2026, Asahi Ogasawara falleció en su hotel la noche después de completar su presentación en la conferencia de la Sociedad Acústica de Japón. Nunca vio la finalización de esta investigación — su camino se interrumpió a mitad de recorrido.

Pero la determinación que vertió en 15 horas de grabación y su deseo de “crear una sociedad donde ninguna voz sea dejada atrás” nunca se desvanecerá. Este proyecto, nombrado en honor a su apodo “Assa”, lleva su legado adelante.

Asahi Ogasawara

2001 - 2026

Investigador y persona que vivía con disartria. 2020: Ingresó en la Universidad de Iwate, Facultad de Ciencias e Ingeniería, Curso de Información Inteligente. 2024: Avanzó a la escuela de posgrado. Estudió reconocimiento de voz bajo la dirección del Profesor Asociado Yi-Yu Tan. Trabajando desde un laboratorio enfocado en hardware, se conectó de forma independiente con expertos en IA de voz y construyó SS-JDSC, un corpus de habla disártrica. Durante seis meses, grabó 15 horas y aproximadamente 12,000 enunciados, mejorando la precisión del reconocimiento de voz del 7% a más del 80%. Su trabajo fue aceptado en ICASSP 2026, la conferencia más importante del campo. También había sido aceptado en el programa doctoral de la Universidad de Kobe.

Corpus JDSC

Corpus de Habla Disártrica Japonesa

JDSC (Japanese Dysarthria Speech Corpus) es un corpus de habla japonesa a gran escala grabado por hablantes con disartria. Basado en SS-JDSC, el corpus que Asahi Ogasawara creó, tiene como objetivo expandirse a más hablantes y condiciones en el futuro.

🎙

Datos a Gran Escala de Un Solo Hablante

15 horas y 12,000 enunciados — uno de los mayores conjuntos de datos de habla disártrica de un solo hablante en el mundo.

📊

Mejora de Precisión Comprobada

Se ha demostrado que el uso de este corpus para el entrenamiento mejora el reconocimiento de habla disártrica del 7% a más del 80%.

🌐

Base de Investigación Abierta

El corpus tiene como objetivo estar disponible para la comunidad investigadora, permitiendo a investigadores de todo el mundo avanzar en la tecnología de reconocimiento de habla disártrica.

Investigación

Fundamento Académico

Los resultados de este proyecto han sido aceptados en la conferencia más prestigiosa del mundo en habla y procesamiento de señales.

Aceptado en ICASSP 2026

SS-JDSC: Single-Speaker Japanese Dysarthric Speech Corpus

IEEE International Conference on Acoustics, Speech and Signal Processing
Mayo 2026, Barcelona, España

🤗 Hugging Face Datasets

Conjunto de datos SS-JDSC (público)

huggingface.co/datasets/JDSC-Project/SS-JDSC →

Equipo

Miembros del Proyecto

Shinnosuke Takamichi

Director de Tecnología

Profesor Asociado, Universidad de Keio
Doctor en Ingeniería

Especialista en síntesis de voz, conversión de voz y procesamiento de señales de habla. Tras obtener su doctorado en NAIST, trabajó en la Universidad de Tokio antes de unirse a Keio en 2024. Ha sido moderador de sesiones en IEEE ICASSP y ha recibido más de 20 premios por sus publicaciones.

Yi-Yu Tan

Asesor Académico

Profesor Asociado, Universidad de Iwate

Asesor académico de Asahi Ogasawara. Su especialidad es el hardware de computadoras (CPUs), pero apoyó la investigación de IA de voz de Asahi durante tres años, ayudando a allanar el camino hacia la aceptación en ICASSP.

Go Suenaga

Director Creativo

CyberAgent / Investigador Independiente
Prof. Asoc. Visitante, Univ. Digital Hollywood

Co-investigador a cargo de la planificación y promoción del proyecto. Inspirado por su encuentro con Asahi en una conferencia nacional, trabaja en la implementación social de la tecnología de IA y el diseño inclusivo.