Рады, что вам понравилась статья 😊
Звук — это механические колебания, распространяющиеся в упругой среде в виде волн. Когда какой-либо объект колеблется, он создает области сжатия и разрежения в окружающей среде. Эти колебания передаются от частицы к частице, формируя звуковую волну. В роли среды распространения чаще всего выступает воздух, хотя звук может распространяться и в других средах — жидкостях и твердых телах.
🤔 ОпределениеЗвуковая волна — это процесс распространения механических колебаний в упругой среде, сопровождающийся переносом энергии без переноса вещества.
Источниками звука могут быть самые разные объекты. В музыкальных инструментах это колеблющиеся струны, мембраны или столбы воздуха. В акустических системах звук создается движением диффузора динамика. При разговоре источником звука становятся наши голосовые связки. Независимо от природы источника, физический механизм создания и распространения звука остается неизменным.
В зависимости от частоты колебаний звуковые волны делятся на три основные категории:
✏ ЗаметкаХотя человеческое ухо воспринимает звук в диапазоне 20 Гц – 20 кГц, некоторые животные способны слышать гораздо более широкий диапазон частот. Например, летучие мыши используют ультразвук для эхолокации, а слоны общаются с помощью инфразвука на расстоянии нескольких километров.
Громкость звука измеряется в децибелах (дБ) — логарифмических единицах, отражающих отношение интенсивности звука к порогу слышимости. Использование логарифмической шкалы обусловлено тем, что человеческое ухо воспринимает относительные, а не абсолютные изменения громкости.
📖 ПримерРассмотрим типичные уровни громкости в нашем окружении:
- шелест листьев — 10 дБ;
- тихий разговор — 40 дБ;
- оживленная улица — 70 дБ;
- работающий отбойный молоток — 100 дБ;
- взлетающий реактивный самолет — 130 дБ.
Длительное воздействие звука громкостью более 85 дБ может привести к постепенной потере слуха. При уровне выше 120 дБ возникает болевое ощущение, а звук громкостью 130 дБ способен вызвать необратимые повреждения слухового аппарата.
Любой звук можно представить как непрерывную функцию, изменяющуюся во времени. Эта функция описывает колебания давления воздуха относительно среднего значения. В простейшем случае — это синусоидальная волна, характеризующаяся амплитудой, частотой и фазой колебаний.
🤔 ОпределениеАмплитуда звуковой волны — это максимальное отклонение колеблющейся величины от положения равновесия, определяющее громкость звука.
Период колебаний — это время, за которое совершается одно полное колебание, а частота — величина, обратная периоду, показывающая количество колебаний в секунду. Длина волны связана с частотой и скоростью распространения звука простым соотношением: λ = v/f, где λ — длина волны, v — скорость звука, f — частота.
В реальности мы практически никогда не имеем дело с чистыми синусоидальными колебаниями. Звуки музыкальных инструментов, человеческий голос, шумы окружающей среды — все это сложные колебания, которые можно представить как сумму простых синусоидальных волн разной частоты и амплитуды.
Любой сложный звук можно разложить на простые составляющие с помощью математической операции, называемой преобразованием Фурье. Это преобразование позволяет перейти от временного представления сигнала к его частотному спектру.
В спектре музыкального звука обычно присутствует основной тон, определяющий высоту ноты, и набор обертонов — колебаний с частотами, кратными основному тону. Именно соотношение амплитуд обертонов формирует тембр звука — то, что позволяет нам различать инструменты, даже когда они играют одну и ту же ноту.
📖 ПримерРассмотрим спектры различных музыкальных инструментов:
- скрипка имеет богатый спектр с множеством высоких обертонов;
- флейта дает более «чистый» звук с меньшим количеством обертонов;
- кларнет характеризуется преобладанием нечетных гармоник.
Для обработки звука на компьютере необходимо преобразовать непрерывный аналоговый сигнал в последовательность чисел — цифровой сигнал. Этот процесс называется аналого-цифровым преобразованием (АЦП) и включает две основные операции: дискретизацию по времени и квантование по уровню.
Цифровое представление имеет ряд существенных преимуществ перед аналоговым:
При оцифровке звука важнейшим параметром является частота дискретизации — количество отсчетов сигнала, берущихся за одну секунду. Теорема Котельникова-Найквиста утверждает, что для точного восстановления непрерывного сигнала частота дискретизации должна как минимум вдвое превышать максимальную частоту в этом сигнале.
✏ ЗаметкаИменно поэтому для качественной записи звука, слышимого человеком (до 20 кГц), используется частота дискретизации 44.1 кГц или выше.
Если это условие не выполняется, возникает эффект наложения частот (алиасинг) — высокочастотные составляющие сигнала преобразуются в низкочастотные призвуки, искажающие звучание. Для предотвращения алиасинга перед оцифровкой применяют фильтры, подавляющие частоты выше половины частоты дискретизации.
После дискретизации по времени следующим этапом оцифровки является квантование по уровню — преобразование мгновенных значений сигнала в числа с конечной точностью. Каждому уровню квантования присваивается свой код, который записывается в двоичном виде.
🤔 ОпределениеКвантование — это процесс преобразования непрерывной величины в набор дискретных уровней, каждому из которых присваивается определенное числовое значение.
При равномерном квантовании весь диапазон значений сигнала делится на равные интервалы — шаги квантования. Количество таких интервалов определяется разрядностью квантования. Например, при 16-битном квантовании используется 2^16 = 65536 уровней, что обеспечивает динамический диапазон около 96 дБ.
Неравномерное квантование применяется в системах, где важно более точно передать сигналы малой амплитуды. При этом шаг квантования увеличивается с ростом амплитуды сигнала, что лучше соответствует особенностям человеческого слуха.
Любое квантование неизбежно вносит ошибку — шум квантования, возникающий из-за округления значений сигнала до ближайшего уровня. Чем больше уровней квантования (выше разрядность), тем меньше этот шум.
В зависимости от требований к качеству звука и доступных ресурсов используются различные комбинации частоты дискретизации и разрядности квантования:
📖 ПримерРассчитаем объем одноминутной стереозаписи CD-качества: 44100 отсчетов/с × 16 бит × 2 канала × 60 секунд = 84 672 000 бит ≈ 10.1 МБ.
Стереофоническая запись использует два независимых канала для создания объемной звуковой картины. Это позволяет передать пространственное расположение источников звука и создать эффект присутствия.
В процессе записи используются различные методы формирования стереообраза:
Современные многоканальные системы (5.1, 7.1) развивают принципы стереофонии, добавляя дополнительные каналы для еще более реалистичного воспроизведения пространственной картины звука.
Для уменьшения объема звуковых файлов без заметной потери качества применяются различные алгоритмы сжатия. Все методы сжатия можно разделить на две основные категории: сжатие без потерь и сжатие с потерями.
При сжатии без потерь исходный сигнал может быть восстановлен абсолютно точно. Такие алгоритмы используют статистическую избыточность сигнала, то есть повторяющиеся фрагменты и предсказуемые последовательности значений. Степень сжатия при этом обычно не превышает 2:1.
Сжатие с потерями обеспечивает гораздо более высокую степень компрессии за счет удаления информации, которая считается малозначимой с точки зрения восприятия. В основе таких алгоритмов лежит психоакустическая модель — математическое описание особенностей человеческого слуха.
✏ ЗаметкаЧеловеческий слух обладает эффектом маскировки — громкий звук определенной частоты может полностью заглушать более тихие звуки близких частот. Алгоритмы сжатия используют этот эффект, удаляя замаскированные компоненты сигнала.
Каждый аудиоформат имеет свои особенности и область применения. Рассмотрим наиболее распространенные форматы:
WAV (Waveform Audio File Format). Стандартный формат Windows для хранения несжатого звука. Обеспечивает максимальное качество, но требует много места. Используется для профессиональной работы со звуком.
MP3 (MPEG-1 Layer 3). Самый популярный формат сжатия с потерями. Обеспечивает степень сжатия до 11:1 при приемлемом качестве звучания. Стал стандартом де-факто для распространения музыки через интернет.
FLAC (Free Lossless Audio Codec). Формат сжатия без потерь. Уменьшает размер файла примерно вдвое при сохранении абсолютно точного качества. Популярен среди аудиофилов и в профессиональной среде.
AAC (Advanced Audio Coding). Более совершенный алгоритм сжатия с потерями, обеспечивающий лучшее качество по сравнению с MP3 при той же степени сжатия. Используется в продуктах Apple и потоковых сервисах.
Процесс кодирования звуковой информации представляет собой сложную цепочку преобразований — от улавливания звуковых колебаний микрофоном до получения готового цифрового файла. На каждом этапе важно правильно выбрать параметры преобразования, чтобы обеспечить требуемое качество при разумном объеме данных.
Современные технологии кодирования звука продолжают развиваться. Создаются новые алгоритмы сжатия, совершенствуются методы пространственной записи звука, повышается качество преобразования сигналов. Все это делает работу со звуком более удобной и открывает новые возможности для творчества.