07.11.2024
#Информатика
42

Кодирование звуковой информации

Ссылка на ГОСТ
Студенческие работы от сервиса №1 в России
Поможем написать диплом, курсовую, реферат и любые другие типы работ. Сделаем качественно или вернём деньги.
Заказать
Содержание статьи
  1. Физическая природа звуковых колебаний
  2. Представление звука в аналоговой форме
  3. Цифровое представление звуковых сигналов
  4. Технические параметры оцифровки звука
  5. Методы сжатия звуковых данных
  6. Подведем итоги
  7. Вопросы для самопроверки
Блаженко В.
Эксперт по предмету «Информатика»

Физическая природа звуковых колебаний

Звук — это механические колебания, распространяющиеся в упругой среде в виде волн. Когда какой-либо объект колеблется, он создает области сжатия и разрежения в окружающей среде. Эти колебания передаются от частицы к частице, формируя звуковую волну. В роли среды распространения чаще всего выступает воздух, хотя звук может распространяться и в других средах — жидкостях и твердых телах.

🤔 Определение

Звуковая волна — это процесс распространения механических колебаний в упругой среде, сопровождающийся переносом энергии без переноса вещества.

Источниками звука могут быть самые разные объекты. В музыкальных инструментах это колеблющиеся струны, мембраны или столбы воздуха. В акустических системах звук создается движением диффузора динамика. При разговоре источником звука становятся наши голосовые связки. Независимо от природы источника, физический механизм создания и распространения звука остается неизменным.

Классификация звуковых волн по частоте

В зависимости от частоты колебаний звуковые волны делятся на три основные категории:

  • инфразвук с частотой менее 20 Гц;
  • звуковой диапазон от 20 Гц до 20 кГц;
  • ультразвук с частотой более 20 кГц.
✏ Заметка

Хотя человеческое ухо воспринимает звук в диапазоне 20 Гц – 20 кГц, некоторые животные способны слышать гораздо более широкий диапазон частот. Например, летучие мыши используют ультразвук для эхолокации, а слоны общаются с помощью инфразвука на расстоянии нескольких километров.

Измерение громкости звука

Громкость звука измеряется в децибелах (дБ) — логарифмических единицах, отражающих отношение интенсивности звука к порогу слышимости. Использование логарифмической шкалы обусловлено тем, что человеческое ухо воспринимает относительные, а не абсолютные изменения громкости.

📖 Пример

Рассмотрим типичные уровни громкости в нашем окружении:

  • шелест листьев — 10 дБ;
  • тихий разговор — 40 дБ;
  • оживленная улица — 70 дБ;
  • работающий отбойный молоток — 100 дБ;
  • взлетающий реактивный самолет — 130 дБ.

Длительное воздействие звука громкостью более 85 дБ может привести к постепенной потере слуха. При уровне выше 120 дБ возникает болевое ощущение, а звук громкостью 130 дБ способен вызвать необратимые повреждения слухового аппарата.

Представление звука в аналоговой форме

Любой звук можно представить как непрерывную функцию, изменяющуюся во времени. Эта функция описывает колебания давления воздуха относительно среднего значения. В простейшем случае — это синусоидальная волна, характеризующаяся амплитудой, частотой и фазой колебаний.

🤔 Определение

Амплитуда звуковой волны — это максимальное отклонение колеблющейся величины от положения равновесия, определяющее громкость звука.

Период колебаний — это время, за которое совершается одно полное колебание, а частота — величина, обратная периоду, показывающая количество колебаний в секунду. Длина волны связана с частотой и скоростью распространения звука простым соотношением: λ = v/f, где λ — длина волны, v — скорость звука, f — частота.

В реальности мы практически никогда не имеем дело с чистыми синусоидальными колебаниями. Звуки музыкальных инструментов, человеческий голос, шумы окружающей среды — все это сложные колебания, которые можно представить как сумму простых синусоидальных волн разной частоты и амплитуды.

Спектральный анализ звука

Любой сложный звук можно разложить на простые составляющие с помощью математической операции, называемой преобразованием Фурье. Это преобразование позволяет перейти от временного представления сигнала к его частотному спектру.

В спектре музыкального звука обычно присутствует основной тон, определяющий высоту ноты, и набор обертонов — колебаний с частотами, кратными основному тону. Именно соотношение амплитуд обертонов формирует тембр звука — то, что позволяет нам различать инструменты, даже когда они играют одну и ту же ноту.

📖 Пример

Рассмотрим спектры различных музыкальных инструментов:

  • скрипка имеет богатый спектр с множеством высоких обертонов;
  • флейта дает более «чистый» звук с меньшим количеством обертонов;
  • кларнет характеризуется преобладанием нечетных гармоник.

Цифровое представление звуковых сигналов

Для обработки звука на компьютере необходимо преобразовать непрерывный аналоговый сигнал в последовательность чисел — цифровой сигнал. Этот процесс называется аналого-цифровым преобразованием (АЦП) и включает две основные операции: дискретизацию по времени и квантование по уровню.

Цифровое представление имеет ряд существенных преимуществ перед аналоговым:

  • высокая помехоустойчивость;
  • отсутствие деградации при копировании;
  • возможность точного редактирования;
  • удобство хранения и передачи.

Теорема Котельникова-Найквиста

При оцифровке звука важнейшим параметром является частота дискретизации — количество отсчетов сигнала, берущихся за одну секунду. Теорема Котельникова-Найквиста утверждает, что для точного восстановления непрерывного сигнала частота дискретизации должна как минимум вдвое превышать максимальную частоту в этом сигнале.

✏ Заметка

Именно поэтому для качественной записи звука, слышимого человеком (до 20 кГц), используется частота дискретизации 44.1 кГц или выше.

Если это условие не выполняется, возникает эффект наложения частот (алиасинг) — высокочастотные составляющие сигнала преобразуются в низкочастотные призвуки, искажающие звучание. Для предотвращения алиасинга перед оцифровкой применяют фильтры, подавляющие частоты выше половины частоты дискретизации.

Методы квантования сигнала

После дискретизации по времени следующим этапом оцифровки является квантование по уровню — преобразование мгновенных значений сигнала в числа с конечной точностью. Каждому уровню квантования присваивается свой код, который записывается в двоичном виде.

🤔 Определение

 Квантование — это процесс преобразования непрерывной величины в набор дискретных уровней, каждому из которых присваивается определенное числовое значение.

При равномерном квантовании весь диапазон значений сигнала делится на равные интервалы — шаги квантования. Количество таких интервалов определяется разрядностью квантования. Например, при 16-битном квантовании используется 2^16 = 65536 уровней, что обеспечивает динамический диапазон около 96 дБ.

Неравномерное квантование применяется в системах, где важно более точно передать сигналы малой амплитуды. При этом шаг квантования увеличивается с ростом амплитуды сигнала, что лучше соответствует особенностям человеческого слуха.

Любое квантование неизбежно вносит ошибку — шум квантования, возникающий из-за округления значений сигнала до ближайшего уровня. Чем больше уровней квантования (выше разрядность), тем меньше этот шум.

Технические параметры оцифровки звука

В зависимости от требований к качеству звука и доступных ресурсов используются различные комбинации частоты дискретизации и разрядности квантования:

  • телефонная связь: 8 кГц, 8 бит, моно — минимально необходимое качество для разборчивой передачи речи;
  • FM-радио: 32 кГц, 16 бит, стерео — среднее качество, достаточное для музыкального вещания;
  • CD-качество: 44.1 кГц, 16 бит, стерео — стандарт высококачественного воспроизведения музыки;
  • студийное качество: 96 кГц, 24 бит, стерео — профессиональный стандарт для записи и обработки звука.
📖 Пример

Рассчитаем объем одноминутной стереозаписи CD-качества: 44100 отсчетов/с × 16 бит × 2 канала × 60 секунд = 84 672 000 бит ≈ 10.1 МБ.

Особенности стереофонической записи

Стереофоническая запись использует два независимых канала для создания объемной звуковой картины. Это позволяет передать пространственное расположение источников звука и создать эффект присутствия.

В процессе записи используются различные методы формирования стереообраза:

  • интенсивностная стереофония — основана на различии громкости сигналов в каналах;
  • временная стереофония — использует задержки между каналами;
  • комбинированная стереофония — сочетает оба метода.

Современные многоканальные системы (5.1, 7.1) развивают принципы стереофонии, добавляя дополнительные каналы для еще более реалистичного воспроизведения пространственной картины звука.

Методы сжатия звуковых данных

Для уменьшения объема звуковых файлов без заметной потери качества применяются различные алгоритмы сжатия. Все методы сжатия можно разделить на две основные категории: сжатие без потерь и сжатие с потерями.

При сжатии без потерь исходный сигнал может быть восстановлен абсолютно точно. Такие алгоритмы используют статистическую избыточность сигнала, то есть повторяющиеся фрагменты и предсказуемые последовательности значений. Степень сжатия при этом обычно не превышает 2:1.

Сжатие с потерями обеспечивает гораздо более высокую степень компрессии за счет удаления информации, которая считается малозначимой с точки зрения восприятия. В основе таких алгоритмов лежит психоакустическая модель — математическое описание особенностей человеческого слуха.

✏ Заметка

Человеческий слух обладает эффектом маскировки — громкий звук определенной частоты может полностью заглушать более тихие звуки близких частот. Алгоритмы сжатия используют этот эффект, удаляя замаскированные компоненты сигнала.

Современные аудиоформаты

Каждый аудиоформат имеет свои особенности и область применения. Рассмотрим наиболее распространенные форматы:

WAV (Waveform Audio File Format). Стандартный формат Windows для хранения несжатого звука. Обеспечивает максимальное качество, но требует много места. Используется для профессиональной работы со звуком.

MP3 (MPEG-1 Layer 3). Самый популярный формат сжатия с потерями. Обеспечивает степень сжатия до 11:1 при приемлемом качестве звучания. Стал стандартом де-факто для распространения музыки через интернет.

FLAC (Free Lossless Audio Codec). Формат сжатия без потерь. Уменьшает размер файла примерно вдвое при сохранении абсолютно точного качества. Популярен среди аудиофилов и в профессиональной среде.

AAC (Advanced Audio Coding). Более совершенный алгоритм сжатия с потерями, обеспечивающий лучшее качество по сравнению с MP3 при той же степени сжатия. Используется в продуктах Apple и потоковых сервисах.

Подведем итоги

Процесс кодирования звуковой информации представляет собой сложную цепочку преобразований — от улавливания звуковых колебаний микрофоном до получения готового цифрового файла. На каждом этапе важно правильно выбрать параметры преобразования, чтобы обеспечить требуемое качество при разумном объеме данных.

Современные технологии кодирования звука продолжают развиваться. Создаются новые алгоритмы сжатия, совершенствуются методы пространственной записи звука, повышается качество преобразования сигналов. Все это делает работу со звуком более удобной и открывает новые возможности для творчества.

Вопросы для самопроверки

  1. Почему при оцифровке звука используется частота дискретизации 44.1 кГц?
  2. Как связаны разрядность квантования и динамический диапазон звукового сигнала?
  3. В чем преимущества и недостатки форматов со сжатием без потерь?
  4. Рассчитайте объем одноминутной стереозаписи CD-качества.
  5. Объясните причины возникновения эффекта алиасинга.
  6. Сравните характеристики форматов WAV и MP3.
  7. Как работает психоакустическая модель сжатия звука?
Поможем с написанием учебной работы от 24 часов

Узнайте стоимость
консультации!

Узнайте стоимость онлайн за 1 минуту