음향 처리의 구현

강의 & 연구노트/콘텐츠 시스템

음향 처리의 구현

GPIA 2010. 3. 20. 16:45

1) 신호의 개요

정보를 옮기는 파형을 신호(信號,Signal)라고 한다. 일반적으로 우리가 관측 하는 신호는 어떤 물리량을 표시하는데, 연속적인 시간 및 진폭으로 정의되는 신호를 아날로그 신호(Analog Signal)라고 한다. 이것에 대하여 이산치로 정의 되는 신호를 디지탈 신호(Digital Signal)라고 한다. 쉽게 풀이해서 아날로그와 디지탈의 차이는 호스에서 뿜어져 나오는 물과 기 관총에서 발사되는 탄환의 차이와 다소 유사하다. 즉 아날로그 신호는 그 형태를 다양하게 변화시켜 전송되는 메시지를 표현하는 연속적인 전자파다. 반대로 디지탈 신호는 일련의 단절적인 조각들로서 그 조각들이 만들어 내는 패턴을 보고 전달되는 정보의 내용을 파악할 수 있다

2) 디지탈 신호 처리의 기초 개념

디지탈 신호 처리(Digital Signal Processing; DSP)는 음성 통신, 영상 신호 그 외에 생체 신호, 지진파와 같은 각종 계측 신호 등의 아날로그 신호를 디지탈 신호로 변환한 후 디지탈 연산에 의해서 신호 처리 조작을 하여 원하는 기능 을 실현하는 것을 목적으로 한다.

1. 사운드 기능

멀티미디어 분야에서 빼놓을 수 없는 부분이 바로 사운드 카드의 샘플링 기능 이다.일반 FM 음악이야 멀티미디어에서는 미디 음원의 음원으로 대체가 되지만 사운드 카드의 샘플링 기능은 다른 것으로 대체가 불가능하기 때문에 매우 중요 하다고 볼 수가 있다.16비트 사운드카드로의 전환시점에 입지하고 있는 현 상 황에서 미루어 보건대,여타 많은 응용프로그램과 수많은 사운드관련 프로그 램이 쏟아져 나왔고 또 그만큼 빨리 잊혀져간 발자취를 더듬어 보자면, 오히 려 뒤늦은 행보를 보이고있는 출발로 받아들여지는 감이 사실상 없질 않다. 애 드립에서부터 시작된 사운드 카드의 대표적인 보급빈도에 비하여, 다량의 sound 프로그램들이 선보여지고 또 수렴되어진 바 있으나, 게임배경음과 효과 음 처리시각 및 간략한 연주기 차원 그 이상의 기발한 모습으로 대두된 적은 없다고 보아도 과언이 아닐듯 싶다. 현재 사운드 카드가 없는 컴퓨터 시스템이 이상할 정도로 사운드 카드는 많이 보급되어 있다.이제 16비트 사운드 카드로의 전환점을 맞이하고 있는 현실이지 만 WAV 데이터의 에디트 방식이야 8비트 사운드 카드나 16비트 사운드 카드가 동일하다.

2. 아날로그에서 디지털로

원래, 소리는 연속적인 형태, 끊임없는 변하는 파동으로 일어난다.- 이것을 analog(아나로그)시그널이라고 한다. 소리의 파동은 세가지의 측정할 수 있는 치수가 있는데 음폭(이나 높이), 진동수 (얼마나 빠르게 파동이 움직이는가-이 것은 소리의 피치를 결정하고 ,Hertz(헤프츠)나 kiloHertz(킬로헤르츠)로 측정 이 된다. 초당 천 사이클)와 파장이 그것이다. 진동수와 파장은 상호 (하나가 올라가면 다른 것은 떨어지는)간에 계속적인 연관 관계가 있다. 컴퓨터는 끊임없이 변화하는 시그널을 처리할 수 없다. 신호처리를 위해서는 모든 아날로그 시그널은 먼저 쪼개고 Os와 1s (비트)로 표현되는 불연속의 단위 로 바꾸어야 한다. 이 프로세스를 디지타이징이라고 부르고, 그것은 고정된 시 간의 간격에 샘플링한 소리의 파장을 연관 시켜, 샘플안의 정보(불연속 값으로 할당한)를 양자화 시킨다. 전형적인 CD-DA Analog-to-Digital Converter 에서는, 들어오는 오디오는 초 당 44,100번 샘풀링 비율이 44,1 킬로 헤르츠라는 것이다. 이 변환기는 샘플링 을 수행하기 위해 charged-capacitor 방법을 사용한다. 전기적으로 말하면, 스 위치는 콘데서의 전류를 흐르도록 한다. 이 전류의 흐름은 샘플링 지점에서 소 리의 파동을 비례적으로 증폭하게 된다. (기술 용어로, 이것은 "시그널 증폭의 샘풀링 순간 값"이라고 한다.) 시간의 주기를 미리 결정한 후에, 콘덴서의 용량이 측정되고 양자화하고, 스 위치가 닫혀져 전류가 방출이 된다. 콘덴서가 비워지가 되고 다시 반복된다. 이 것이 초당 44,100번 반복이 된다. 이 프로세스는 수도꼭지와 양동이에 비교될 수 있다. 수도꼭지를 틀면, 양동 이에 물이 채워진다.물의 압력이 높아지면(증폭)물은 주어진 시간안에 양동이로 넘치게 된다. 그러면 수도꼭지는 잠궈지고 양동이의 용적이 측정이 된다.
마침 내, 양동이가 비워지게 되고, 프로세스는 반복이 된다. 샘플링 비율은 결과적인 소리의 양에 대단히 중요하다. 사람의 귀는 20에서 20,000헬르츠(높은 진동수는 높은 피치를 가르킴)의 범위안에서 들을 수 있다. 모든 디지타이징 시스템은 만약 소리의 세그먼트안에 모든 들을 수 있는 진동수 로 재생선할 수 있으려면 이 범위안에 있어야 한다. 그렇기 때문에 정확히 이러 한 진동수를 나타내기 위해, 샘플링은 소리의 세그먼트(Nypuist Frequency)로 가장 높은 진동수의 적어도 두배의 비율로 해야하는 것이다. 그래서 CD-DA 개발 자는 샘플링 비율을 44.1KHz로 선택했다. 디지타이즈된 소리의 양은 샘플링된 분해도(resolution)에 의해 좌우된다. 비트의 숫자는 각 샘플을 나타낸다. 이 숫자는 사운드 샘플을 양자화 할때선택할 수 있는 Analog-to Digital converter(ADC)로 부터 분리된 값의 숫자를 결정한 다. 디지타이즈 된 소리의 전형적인 분해도는 8비트와 16비트이다. 사람의 귀가 인식할 수 있는 한, 원래의 소리에서 분리될 수 없다.(소리의 65,536레벨이 사람의 귀로 들을 수 있다는 것은 매우 흥미 있는 일이다. - 사실,"실제의 소리"- 인간의 눈으로 인식할수 있는 "실제의 색깔"를 만들어내는 것이 16백만칼라 이상을 요구하는 것, 귀가 눈만큼 정확하다면, CD는 "완벽한" 음악을 단지 4초에 저장할 수 있을 것이다.)

3. And NAck Agin

디지탈 사운드가 수행이 되면, CD플레이어나 컴퓨터의 CD-DA Analog-to-Digital Converter가 디지탈 데이터를 스피커나 헤드폰의 막을 진동 시키는 전기적인 충격을 만들어 낸다. 오디오 CD플레이어에서, ADC는 분리된 출력 라인을 통하여 샘플당 16비트 출 력을 한다. 단순 오디오 시그널로 이러한 모든 시그널을 재결합하기 위해, 변조 프로세스가 적용된다. 여기에서는 여러가지 다른 시스템이 있다. Pulse Amplitude Modulation (PAM), Pulse Number Modulation (PNM), Pulse Position Modulation (PPM), 과 그외의 것들, 각각은 그것의 pros 와 cons 가 있고 우리 는 여기에서 Pulse Modulation (PCM)은 디지탈 오디오 시그널 프로세싱이 선택 에 가장 알맞다.

4. Bandwidth

분명히 고려해보아야 할 사운드의 다른 면은 어떻게 디스크에서 스피커로 전 달을 할 수 있는가 하는 것이다. Bandwidth는 초당 데이터의 양을 나타내고 통 신용 채널을 통해 흐른다. CD 드라이브는, 이것이 초당 75섹터(150 킬로바이트) 에 해당하며, 단지 소리의 이동뿐만 아니라, 문자나 그림을 동일한 채널을 통해 동시에 전달 할 수 있다는 점을 기억하고, 그래서 bandwidth(밴드폭)은 소리의 중요성을 점유하고 있다는 것이다.

5. CD-ROM을 위한 사운드

컴팩트 디스크 상(컴퓨터 내부의)에 소리는 항상 디지탈이다. 그러나 디지탈 사운드를 잡아내는 방법에는 여러가지 (가장 다른 점은 샘플링 비율과 밀도)가 있다. 질의 다른 수준이 다른 목적인 각각의 강약에 사용된다. 여기서는 우리가 알아보고, 각각의 응용분야는 어떤것이 있는가 살펴본다. CD-DA CD-ROM디스크 상에 소리에 대한 본래의 옵션은 CD-DA표준과 비슷하다. 결국, 무엇이 CD를 개발하게 하였는가인데, 양질의 음을 이용하기 위해서라고 할수 있 다. 또한, 모든 CD플레이어는 CD-DA 사운드를 연주 할 수 있고, 그래서 디스크 의 최종 소비자는 고음질을 듣기 위해서 부가 장비를 구입할 필요가 없다. 그러 나, CD-DA 는 컴퓨터 데이터에서 다른 형태로 기록이 된다. 소리를 CD-ROM디스 크에 기록하기 위해서, 디스크는 "mixed-mode"로 제작되어야 하며-이것은 데이 터와 오디오 트랙이 동시에 포함되어야 한다는 것(디스크는 99트랙을 가질 수 있다.)이다. 여기에서는 비트와 혼합 모드 디스크에 대해 좀더 자세히 다루겠 다. 다시 CD-DA에 들어가서, 가장 중요한 것은 메모리일 것이다. 샘플링 비율은 44.1kHZ와 빈도는 16비트이다. CD-DA는 메모리 잡기인데 왜냐하면, 1분의 소리 를 기록하는게 10메가바이트의 양이 필요하기 때문이다. CD-DA는 또한 완전히 밴드폭을 취하는데, CD-DA가 플레이 백 되는 동안, 디스 크에서는 아무것도 전송할 수 업삳. 고음질 오디오는 기록하고 프로세스하는데 비용이 많이 드는데, 왜냐하면 스 튜디오 시간과 장비가 요구되기 때문이다. 매킨토시 컴퓨터에서 전문적인 기록 용 스튜디오가 현재 널리 이용되고 있고, 필요하다면 전문적인 사운드 믹싱 시 스템의 high-end Mac을 가질수 있다. 출발점에서,(소프트웨어에 대한 공간을 더 하여)작업하고자 하는 각 한시간의 소리는 약 하드디스크의 600메가 바이트 용 량이다. 이것은 메킨토시나 DOS컴퓨터 상에 CD-DA에 기록을 하고 조작을 하는데 이용 가능하게 하기 위해 여러개의 소프트웨어와 보드 시스템이 있다.

6. CD-ROM에 비해 CD-DA의 몇 가지의 불리한 점

* 플레이백은 시작하는데 긴 시간이 필요하다. 왜냐하면 , 드리이브가 분리 된 오디오 트랙을 검색하여야 하기 때문이다. CD-DA뮤직은 끼워넣기가 될수 없 고, 데이터 트랙은 오디오가 플레이 되는 동안 억세스 할 수 없다.

* CD-DA 플레이백은 직접CD-ROM드라이브를 통해서 하는데, 그래서 소리는 드 라이브의 출력 잭에 부착이 되어 있는 단지 스피커나 헤드폰을 통해서 들을 수 있다.

* CD-DA 사운드는 하드디스크에 저장될 수 있다. 그러나 하드디스크로부터 플래이백 할 수 없기 때문에 테스트를 위해 시뮬레이트할 수 없다. 그러므로, 데스팅하는데 원형 디스크를 만들어야 하는 불편함이 있다.

CD-DA 사운드를 사용하는 가장 큰 이 점은 동일한 사운드를 모든 논리적인 파 일 포맷으로 억세스 할 수 있다는 것이다. 이것은 멀티 플랫폼 멀티미디어에 대 한 가능한 해결책이기도 하다.

- 디지탈이즈 사운드 디지타이즈 된 소리는 CD-DA의 원리에서 컴퓨터에서 직접 디지탈이즈 한다는 것외에 그리 다르지 않다. 매킨토시의 경우에, LC(system software 6.07이나 그 이상)이후의 모든 모델에서 소리를 짜맞추는 디지타이징 능력을 가지고 있다. DOS 기종에서는 우리는 MPC나 Ultimedia 시스템과 같은 부가적인 사운드 보드를 필요로 한다. 디지타이즈 된 소리와 CD-DA의 다른 점은 질이다. 사운드는 CD-DA에서 사용하 는 것보다 컴퓨터에서 떨어지는 샘플링 비와 정도를 사용한다. 예를 들어, 매킨 토시는 8,11 이나 22kHZ를 8비트 해상도로 소리를 디지타이즈 플레이백 한다. DOS시스템은 사운드 보드에 의존하여 얻을 수 있다.

7. ADPCM

ADPCM(Adaptive Delta Pulse Code Modulation) 은 CD-I 와 CD-ROM XA에서 사 용되는 사운드 암호 및 압축기구로 다른 데이터와 소리를 삽입하도록 설계되어 있다. 여기에는 세가지의 기본적인 레벨이 있는데, 사운드의 질과 메모리의 공 간사이에 선택을 해야 할 것이다. 이 현상은 스테레오(두채널)사운드에 적용이 된다. 만약 모노를 사용한다면, 데이터의 전송에 있어 저장스페이스의 반으로 밴드폭의 두배를 전송할 수 있다. ADPCM과 다른 컴퓨터 디지타이즈 사운드의 타입은 음악이 주요 포커스가 아닌 모든 어플리케이션에 충분한 양질의 음을 제공한다. 음질에 따라 디스크의 공간 을 좌우되는데 예를 들어, 22kHZ 8bit 사운드 1분은 단지 2.5메가바이트의 저장 공간을 필요로 한다. 또한, 디지타이즈 된 소리는 다른 데이터와 같이 사용되고 억세스 할 수 있는 파일 형태로 직접 받아 들여진다. 사운드는 RAM이 미리 읽어 들여져 명령에 의해 플레이 백되는데, CD-DA 트랙을 검색하는 시간보다 아주 빠 르다.(이것은 프로그램을 통해 종종 사용하는 짧은 사운드의 매우 유용한 기술 이다. )디지타이즈된 사운드는 삽입 할 수 있으며, CD 포맷을 그렇게 사용하게 할 수도 있다. 테스트는 간단하다. 왜냐하면, 파일들이 사운드 보드를 통하여 하드 디스크로 부터 직접 연주가 가능한 포맷이기 때문이다.

8. MIDI

MIDI 는 Music Instrument Digitial Interface의 약자이다. 1983년에, 전자 음악 기계 제작자와 국제 표준 위원회에서 전자 음악도구, 컴퓨터와 다른 도구를 달아 디지탈 정보의 전송 표준에 합의가 되었다. 이것은 오늘날 MIDI라고 말해지는 모든 프로페셔널 전자 도구에서 증명되고 있다. Low-end전자 음악 장난감조차도 이 표준에 따르고 있다. 그러면 정확히 MIDI란 무엇인가? 전자장치는 여러가지 방법으로 음악을 만들고, 소리를 생성하 지만 정보를 얻는데 너무나 어렵고 비효과적이다. 그것은 다른 장치나 컴퓨너에 전송할 수 있는 표준 포맷으로 기록하기 때문이다. 컴퓨터로 전송할때, 연주에 대한 정보는 플레이백, 조작과 기록을 할 수 있는 파일로 저장된다. MIDI파일은 음악 그 자체가 아니다. 그 보다는, MIDI파일은 노트의 시리즈를 연주하는 방법에 전자적인 장치의 시리즈이다. MIDI는 노트가 연주하는 음질(소 리의 형태)나 장치상의 아무것도 상술하지 않는다. -MIDI 파일로 키타연주를 선 택할 수 있고, 전자 키보드를 통해 연주할 수 있으며, vice versa 를 할 수 있 다. Andy Summers of the Police는 종종 이 기술을 사용하는데 키타로 신디싸이즈 사운드를 연주한다. 대부분의 MIDI파일의 변경하는 것에 대한 명령이 포함 되어 있다. (이 조각들은 신세사이저로 연주할 수 있는 사운드의 다른 형태의 기술용어 있다.) 왜냐하면 그것들은 사운드에 대한 정보를 포함하고 있지 않기 때문에, MIDI 파일은 CD-DA나 디지타이즈된 사운드보다 대단히 작다. 흔한 예로 서, "busy" MIDI 음악의 일분은 단지 20 킬로바이트를 점유한다. MIDI 파일의 크기는 디지타이즈된 오디오 파일과 같지 않고, 연주하는 시간에 의존하지 않는 다. 특별한 연주에 필요로하는 정보의 양에 의존하지만, 돌아보면, 숫자와 장치 의 형태, 조각의 길이 등에 의존한다. 그러나 어떤 경우에는 MIDI의 밴드폭은 낮고, 다른 데이터를 동시에 전송하게 한다. MIDI 뮤직은 수학적인 알고리즘(많은 MIDI 연속 소프트웨어 패캐지의 통합체)에 전환, 반전, 떨어짐 등에 사용하여 끊임없이 조절한다. 플레이백은 프로그램 가 능한 클럭에 의해 규칙적으로 되고, 노트의 피치에 영향을 미치지 않고 애니매 이션의 연속적을 따라 연속되는 노트의 속도를 높이거나 낮출수 있다. 이것은 MIDI로 작업하는데, MIDI의 능력을 사용하여 개발과 플레이백 시스템을 가지고 할 수 있으며, 일반적으로 부가의 외부 하드웨어가 필요하다. 여기에는 두가지 과정을 거쳐야 하는데, 그것은 음악을 기록하고, 다시 읽는 작업이다.

9. MIDI In, MIDI Out.

MIDI 뮤직을 제작하는 가장 쉬운 방법은 음악적인 입력장치 상에서 연주하는 것으로, 아마도 MIDI가 장치된 키보드여야 한다. 작고 싼 (약$500)것이 널리 이용될 수 있고, 시간이 지남에 따라 점점 값은 내려갈 것이다. 이것은 컴퓨터에 MIDI 인터페이스 박스로 연결이 가능하고 ,MIDI의 데이터의 흐름을 키보드에 의 해 만들어 컴퓨터로 보내게 된다. 그러면 MIDI파일을 편집할 필요가 있을 것이 다. 대부분의 연속적인 소프트웨어는 MIDI 파일을 직접 입력하게 하고, 각 노트 에 대해 MIDI정보의 모든 세트를 "프로그래밍"하고, 스탠다드 뮤직 표기에 의해 "기록"를 하게 되어 프로그램은 MIDI로 해석을 하게 되는 것이다. 그러나 보다 낳은 접근법은 실험실적인 방법이다. 매킨토시에서 매킨토시 내부 사운드 보드 로 직접 MIDI룰 플레이백할 수 있는 프로그램을 기록하거나 구입할 수도 있다.