목차

립씽크

화면의 입모양과 오디오의 동기화를 위한 딜레이 값의 설정 작업

방송 시스템에서 대체적으로 오디오 프로세싱은 리얼타임으로 이루어지는 반면, 영상의 처리는 카메라의 프레임레이트, 카메라의 출력이나 비디오 스위쳐 등을 거치면서 시간이 지연되게 된다. 이때 영상과 오디오의 시간을 둘 중 하나는 지연시켜서 일치되도록 보이게 한다.

일반적으로 방송에서 사용하는 프레임레이트는 30fps 이므로, 1초에 30번의 화면을 사용한다. 즉 1/30초 안에 그림과 일치하는 오디오가 재생되면 소리가 제 시간에 나는 것으로 느껴지므로, 1000ms/30fps= 33.3ms, 즉 33.3ms 안에 소리가 표현되면 화면과의 일치감이 느껴진다. 영화에서는 24fps 이므로, 좀 더 딜레이의 여유가 있다.1)

레이턴시 이야기를 할 때 사람이 인지하지 못하는 레이턴시의 값으로 종종 이 립 씽크 딜레이에 관한 내용이 언급 된다. 즉, 소프트웨어 모니터링등을 할 때 ASIO 라운드 트립 레이턴시가 33.3ms(30fps) 나 20ms(50fps) 또는 16ms(60fps)보다 작으면 사람이 인지하기 힘들다고 주장하는 사람들이 많은데,

이것은 완전히 틀린 설명이다. 이러한 립 씽크 딜레이에 대한 값은 “입모양과 목소리가 일치하게 느껴지는 딜레이 범위”에 대한 내용일 뿐이다.

노래 하는 보컬이나 악기를 연주하는 연주자는 최소 4ms 이내에서 소리가 재생되어야 소리가 실시간으로 난다고 인지한다.

1)
1000ms/24fps=41.66ms