Ya he encontrado la solución, por si a alguien le ocurre lo mismo la pongo aquí.
El archivo de video mide 41:30.20 y las dos pistas de audio miden 41:28.63, además en el stream information dice que hay un delay de 287 ms.
Pues bien, lo que hay que hacer es ver la diferencia que hay entre el video y el audio, que es de 1570 ms, y restarle el delay, con lo que quedaría 1283ms. Con esto ya está todo sincronizado.