Lo que hacemos habitualmente es un render a wav para obtener una sola pista y usar esta en la línea de tiempos eliminando a las otras. Pero sin ver exactamente tu problema, o mejor dicho tu línea de tiempo, esto que he dicho puede ser una tontería :-)
X.
X.