Формат HE-AAC, его версии и их отличия. Сравнение звуковых форматов AAC и МР3 Что это такое

Хотел бы познакомить Вас с таки форматом аудио, как AAC .

В чем преимущества данного формата AAC над другими, например над mp3?

До 48 звуковых каналов;
Большая эффективность кодирования как при постоянном, так и при переменном битрейте;
Частоты дискретизации от 8 Гц до 96 кГц (MP3: 8 Гц - 48 кГц);
Более гибкий режим Joint stereo.

> Попросту говоря, AAC это не просто лучший формат, по сравнению с другими, но еще и обладает преимуществами.

Вы до сих пор храните музыку в MP3 и LOSSLESS?

Наш ответ на это - только AAC! Посудите сами: самые крупные социальные сети используют этот формат в видео, что позволяет значительно экономить место на их жестких дисках. Формат поддерживается большинством современных телефонов, которые способны воспроизводить mp3, wma. Например, корпорация Nokia стандартные рингтоны, которые находятся в телефонах их производства записывает именно в формате AAC. Вы еще не убеждены в его превосходстве? Тогда перейдем к цифрам...

При сжатии из MP3 в формат 3GPP AAC+ музыкальный файл теряет свой вес как минимум в ТРИ раза!

То есть, мы берем файл с битрейтом звучания 320 kbps, а на выходе получаем битрейт в 48 kbps, Считаем 320/48=6.666. Т.е потенциально файл MP3 может быть уменьшен в ШЕСТЬ РАЗ !

А теперь представим, что Ваша 40ГБ-тная библиотека аудио, лежащая в формате MP3 сократиться в три раза 40/3=13! ВСЕГО ТРИНАДЦАТЬ ГБ! При этом качество звучания НИ ЧУТЬ НЕ ПОСТРАДАЕТ . Если Вы сомневаетесь, то скажу так: я храню всю свою музыку в формате AAC, так три года назад у меня был жестки размером 40ГБ. Да да, не удивляйтесь) Поэтому я начал искать методы сократить свою библиотеку аудио. Удалять музыку мне не хотелось, просто перевел все в AAC. Конечно, на моем AMD 1500+ это происходило поэтапно и не так быстро, как хотелось бы, но я это сделал!

Хотите еще информацию?

На сегодняшний день производители жестких дисков заинтересованы в том, что бы их товар покупался. В связи с этим (хотите верьте, хотите нет) Вам навязывают качать все больше и больше, хранить наибольшее количество информации на своих дисках, в наиболее громоздком размере файла. Например, Современные BluRay форматы для видео. Я не спорю, если у вас гигантский экран, то Вы просто должны использовать этот формат, но если Вы используете обычные мониторы, до 22", то скажите к чему Вам смотреть фильмы в формате, изображение картинки которых больше, чем Ваш монитор?

А как на счет LOSSLESS?

Ребят, поймите же наконец, что этот формат создан для специального использования в тех местах, где это действительно необходимо. Для обычного прослушивания через плеер на компьютере ОН НЕ НУЖЕН ! Lossless - это без полезная трата дискового пространства. На слух человек не может воспринять разницу между качественным AAC и Lossless. Поэтому рекомендую Вам этот формат. Конечно Вы сразу отнесетесь с недоверием, но... Я советовал бы Вам попробовать это. И Вы поймете сами, что лучшего не найти!

Какие недостатки AAC?

Я понял достоинства данного формата, но как же мне перекодировать мою музыку?

Советовал бы Вам использовать MediaCoder . Это отличный кодировщик для Ваших медиа файлов. Поддерживает огромное количество форматов, является без платным.

Как именно кодировать?

2. Устанавливаете в пару кликов, нажимайте Next>...

3. Открываете папку с Вашей музыкой, закидываете в MediaCoder и выбираете формат.

В данной статье предлагаю рассмотреть эффективный метод сжатия аудио файлов. Это вторая часть из серии по оптимизации контента для мобильных телефонов, первая, напомню, была посвящена .

Аудио файлы в , как правило, занимают больше всего , порой размер каждой композиции в среднем доходит до 3-5 Мегабайт. Такие объемы для хранения в памяти мобильного телефона - расточительство.

Наиболее популярным форматом до сих пор остается mp3, но по "эффективности" кодирования он далек от идеала. Одной из альтернатив является AAC , по сравнению с mp3, он способен выдавать более высокое качество, при аналогичном размере файла.

На практике это позволяет сжимать аудио файлы в среднем до размера 1,5-2 Mb, которые по звучанию незначительно отличается от оригинала. В данной статье приведено руководство по конвертированию аудио файлов в формат AAC с помощью программы foobar2000.

Advanced Audio Coding (AAC)

Это широкополосный алгоритм кодирования аудио, который обеспечивает поддержку от 1 до 48 каналов при частоте дискретизации от 8 до 96 kHz. AAC работает с битрейтами от 8 kbps для монофонического речевого сигнала до немыслимых 160 kbps на канал для высококачественного кодирования, использующего несколько циклов кодирования / декодирования.

Формат разработан совместно несколькими компаниями: AT&T Bell Laboratories, Fraunhofer IIS, Dolby Laboratories, Sony Corporation and Nokia. Формат AAC активно продвигается держателями патентов. В первую очередь благодаря мобильным устройствам, которые имеют аппаратную подержку данного формата. Можно вспомнить позиционирование телефонов Sony Ericsson серии Walkman, как модели, созданные для людей, которые придают важное значению качеству звучания аппарата. Данный формат также используется в Интернет-магазине iTunes и во многих других сферах, связанных с мультимедиа.

Основные преимущества AAC

До 48 звуковых каналов;
Бо льшая эффективность кодирования как при постоянном, так и при переменном битрейте;
Частоты дискретизации от 8 Гц до 96 кГц (MP3: 8 Гц — 48 кГц);
Более гибкий режим Joint stereo.

Кодирование в AAC

Для этого воспользуемся программой

Foobar2000 обладает минималистичным интерфейсом с возможностью расширения и включает в себя множество функций для поддержки метаданных и высококачественного воспроизведения аудио. Существуют как официальные компоненты, так и
компоненты сторонних разработчиков с большим ассортиментом дополнительных функций.

Основные возможности foobar 2000

Поддерживаемые аудио форматы: MP3, MP4, AAC, Vorbis, FLAC, WAV, Audio CD и др.;
Полная поддержка юникода;
Выравнивание громкости (ReplayGain);
Легко настраиваемый дизайн интерфейса;
Расширенные возможности для работы с тегами (tags);
Поддержка для копирования Audio CD, а также транскодирования всех поддерживаемых аудио форматов, используя конвертер компонента;
Полная поддержка ReplayGain;
Открытая архитектура, позволяющая сторонним разработчикам расширять функциональность плеера.

Операционная система
Windows XP - SP2 или выше, Vista, Seven.

Для работы нужно скачать свежую стабильную версию foobar 2000 с оф. сайта. Там же можно загрузить дополнительные компоненты, плагины. Для того, чтобы foobar2000 мог кодировать аудио файлы в формат AAC, требуется скачать этот бесплатный кодек и поместить его в папку, где расположены файлы самой программы.

Скачать кодек можно с оф. сайтов разработчиков. Существуют две популярных альтернативы - кодек AAC от компании Nero , либо QuickTime AAC от Apple.

На профессиональных форумах давно идут жаркие дискуссии от том какой же кодек AAC лучше, часто сходятся на том, что психоакустические алгоритмы в колеке Nero реализованы лучше. Для данной статьи выбран кодек от Nero (neroAacEnc.exe), после освоения технологии кодирования, вы сможете испытать и QT AAC (qaac.exe).

Запускаем foobar2000, открываем файл, который нужно переконвертировать (File - Open...). Выделяем строку, из выпадающего списка выбираем пункт convert.

Нас интересует пункт Output format.

Откроется следующее окно

Меню Convert Setup

Переходим к пунтку AAC (Nero) и нажимаем Edit, чтобы запустить полуавтоматический режим настроек.

В этом меню можно задать параметры для кодировщика AAC (Encoder) - режим кодирования (Mode) и битрейт (Quality). Наиболее эффективный режим с переменным битрейтом - VBR, который и рекомендует нам foobar2000. Quality позволяет нам определить качество выходящего файла - чем выше будет значения битрейта, измеряется он в килобит/с, тем выше будет качество итогового аудио файла и его размер.
Здесь нужно найти компромисс между качеством и размером. Это можно определить только экспериментальным путем. По своему опыту, могу сказать, что
для мобильного телефона для многих музыкальных файлов вполне хватит q в пределах от 23 до 30. Все зависит от сложности музыкальной композиции.

Выходим из настроек - нажимаем ОК, затем Back и, наконец, Convert. Появится окно с предупреждением, что осуществляется кодирование в формат с потерей качества (lossy).

Так как в дальнейшем этот aac-файл планируется воспроизводить на мобильном телефоне, то определенное снижение качества неизбежный процесс. Соглашаемся на запуск кодирования.

Через несколько минут, если все было сделано правильно, будет создан файл с расширением m4a - aac в контейнере. Этот файл должен без проблем воспроиводится в телефоне, но если ваша модель откажется воспроизводить файл, можно попробовать просто изменить расширение с .m4a на .aac .

Также существуют дополнительные команды, так называемые ключи, которые позволяют произвести более тонкую настройку кодека.

Рассмотрим наиболее важные при кодировании в режиме VBR

-ignorelength - игнорировать продолжительность файла, желательно, использовать.

-q - задает качество звучания, 0 - минимальное качество, 1 - максимальное. Определить соответствующее значение битрейта можно используя рассмотренный уже имеющийся профиль AAC.

Остальные команды можно копировать из примера, который будет приведен ниже.

Для того, чтобы можно было вводить ключи, нужно создать в foobar2000 новый профиль. Для этого в меню Convert Setup нажимаем Add New и выставляем свои значения.

Ключи должны идти в определенной последовательности.

Пример корректной строки: -ignorelength -q 0.52 -if - -of %d

Существуют такие разновидности формата, как HE-AAC и HE-AACv2 - эти форматы означают, что кодек AAC использует специальные алгоритмы для сверх малых битрейтов. Дело в том, что кодек AAC сам выбирает оптимальный режим кодирования, поэтому использовать ключи -lc, -he и -hev2 нет необходимости.

Посмотреть полученные характеристики аудио файла можно в программе

На сегодняшний день AAC-формат все еще не достиг массового распространения на носителях звука, однако по ряду параметров он превосходит все существующие сегодня виды сжатия аудио, а значит, достоин нашего внимания.

Что это такое?

Начнем с определения: AAC является собственническим (патентованным) вариантом сжатия аудиофайла. При этом он имеет меньшие потери качества во время кодирования по сравнению с MP3 в условиях одинакового битрейта. Кроме того, AAC-формат представляет собой широкополосный алгоритм для кодирования аудио, использующий два главных принципа кодирования с целью значительного уменьшения числа данных, которые требуются для передачи качественного цифрового аудио. Данное решение признано одним из самых качественных, реализованных по технологии сжатия с потерями. Формат поддерживает большинство современного оборудования, даже портативного. Следует отметить, что рингтоны в формате AAC можно приобрести в iTunes Store, причем в данном магазине представлена музыка, сжатая исключительно при помощи указанного решения. Необходимо также сказать, что AAC-формат создавался изначально в качестве преемника MP3, который может предоставить улучшенное качество кодирования. Решение вышло в свет еще в 1997 году как новая, 7-я, часть семейства MPEG-2.

Принцип работы

При кодировании в данный формат выполняются следующие процессы: невоспринимаемые составляющие из сигнала удаляются, кодированный аудиосигнал очищается от избыточности. После этого данные обрабатываются в соответствии с методом МДКП согласно их сложности. На следующем этапе добавляются коды для коррекции различных внутренних ошибок. И наконец, сигнал передаётся или сохраняется.

Все подробности

Интересно, что AAC-формат обладает частотой дискретизации в пределах 8-96 кГц, а также количеством каналов в отрезке 1-48. MP3 использует гибридный набор фильтров. В свою очередь AAC обращается к Модифицированному Дискретному Косинусному Преобразованию при увеличенном размере «окна», который достигает 2048 пунктов.

Таким образом, AAC намного более подходит для того, чтобы кодировать аудио, имеющее поток сложных импульсов, а также прямоугольных сигналов, по сравнению с MP3. Формат получил способность динамического переключения в длинах блоков MDCT в пределах 2048-256 пунктов. В случае если происходит кратковременная или единственная смена, применяется малое «окно» на 256 пунктов с целью достижения лучшего разрешения. При этом по умолчанию применяется 2048-пунктовое большое «окно», чтобы максимально улучшить эффективность кодирования. AAC имеет ряд преимуществ по сравнению с привычным MP3. Среди них следует отметить: реализацию большого числа звуковых каналов (до 48), значительную эффективность кодирования в условиях постоянного и переменного битрейта, а также частоты дискретизации в пределах от 8 Гц до 96 кГц (у MP3 этот показатель составляет от 8 Гц до 48 кГц) и более гибкий особый режим под названием Joint stereo. Что касается решения «ААС+» — это кодек, который ориентирован на работу с низким битрейтом. Является комбинацией SBR и AAC LC, благодаря чему достигается хорошее звучание уже в диапазоне 32-48 кбит/с.

Недавно я получил следующее письмо:

Привет, сайт, MP3 является самым популярным аудиоформатом, но есть так много других, таких как AAC, FLAC, OGG и WMA, что я не совсем уверен, какой из них я должен использовать. В чем разница между ними, и какой из них мне следует использовать, чтобы хранить мою музыку?

Вопрос достаточно популярный, попробую ответить на него просто, но понятно.

Мы уже говорили о различии между lossless и lossy, но если кратко, есть два типа качества звука:

без потерь: FLAC, ALAC, WAV;
с потерями: MP3, AAC, OGG, WMA.

Lossless формат сохраняет полное качество звука, в большинстве случаев, это уровень CD, в то время как формат с потерями сжимает файлы для экономии места (конечно, качество звука ухудшается).

Форматы хранения данных без сжатия: FLAC, ALAC, WAV и другие

WAV и AIFF : Оба WAV и AIFF хранят звук без сжатия, что означает, что они являются точными копиями исходного аудио. Эти два формата по существу имеют одинаковое качество; Они просто хранят данные немного по-другому. AIFF сделан Apple, поэтому вы можете увидеть его чаще в продуктах Apple, а WAV в значительной степени универсален. Однако, поскольку они несжаты, они занимают много ненужного пространства. Если вы не редактируете аудио, вам не нужно хранить аудио в этих форматах.
FLAC : Free Lossless Audio Codec (FLAC) — самый популярный формат хранения звука без потерь, что делает его хорошим выбором. В отличие от WAV и AIFF, он немного сжимает данные, поэтому занимает меньше места. Тем не менее, он считается форматом, который хранит звук без потерь, качество музыки остается таким же, как и у оригинального источника, поэтому эффективнее использовать его, чем WAV и AIFF. Он бесплатный, с открытым исходным кодом.
Apple Lossless : Также известный как ALAC, Apple Lossless похож на FLAC. Это формат с лёгкой компрессией, тем не менее, музыка сохраниться без потерь качества. Его сжатие не так эффективно, как FLAC, поэтому ваши файлы могут быть немного больше, но они полностью поддерживаются iTunes и iOS (в то время как FLAC — нет). Таким образом, если вы используете iTunes и iOS в качестве основного программного обеспечения для прослушивания музыки, вам придется использовать именно этот формат.
APE : APE — имеет самый агрессивный алгоритм сжатия, для хранения музыки без потерь, то есть вы получите максимальную экономию места. Его качество звука такое же, как у FLAC, ALAC, однако часто возникают проблемы с совместимостью. Кроме того, проигрывание этого формата гораздо сильнее нагружает процессор для его декодирования, так как данные сильно сжаты. Вообще, я бы не рекомендовал использовать этот формат, если только вы не ограничены в свободной памяти и не имеете проблем совместимости с программным обеспечением.

Форматы хранения звука с сжатием: MP3, AAC, OGG и другие

Если вы просто хотите послушать музыку здесь и сейчас, скорее всего, вы будете использовать формат с потерями. Они экономят массу памяти, оставляя вам больше места для песен на вашем портативном плеере, и, если будет достаточно высоким, они будут неотличимы от исходного источника. Вот форматы, с которыми вы, вероятно, столкнетесь:

MP3 : MPEG Audio Layer III, или MP3, является наиболее распространенным форматом хранения звука с потерями. Настолько, что он стал синонимом загружаемой музыки. MP3 — не самый эффективный формат из всех, но, безусловно, наиболее хорошо поддерживаемый, что делает его лучшим выбором для хранения аудио с сжатием.
AAC : Advanced Audio Coding, также известный как AAC, похож на MP3, хотя он немного эффективнее. Это означает, что вы можете иметь файлы, занимающие меньше места, но с тем же качеством звука, что и MP3. Лучшим евангелистом этого формата сегодня является iTunes от Apple, сделавший AAC настолько популярным, что он стал почти так же широко известен, как MP3. За очень долгое время у меня было только одно устройство, которое не могло играть AAC, и это было несколько лет назад, так что вы можете смело использовать этот формат для хранения своей музыки.
Ogg Vorbis : формат Vorbis, известный как Ogg Vorbis из-за использования контейнера Ogg, является бесплатной альтернативой MP3 и AAC. Его главная черта состоит в том, что он не ограничен патентами, но на вас, как на конечного пользователя, это совершенно не влияет. Фактически, несмотря на его открытость и сходное качество, он гораздо менее популярен, чем MP3 и AAC, это значит, что меньшее количество программ его поддерживают. Таким образом, мы не рекомендуем его использовать, чтобы избежать проблем с совместимостью программного обеспечения.
WMA : Windows Media Audio — собственный фирменный формат Microsoft, похожий на MP3 или AAC. Он не дает никаких преимуществ перед другими форматами, и также не очень хорошо поддерживается за пределами платформы Windows. Мы не рекомендуем вам копировать компакт-диски в этот формат, если только вы не будете точно знать, что всю музыку будут слушать на платформе Windows, или на совместимых с этим форматом проигрывателях.

Так что вы должны использовать?

Теперь, когда вы понимаете разницу между каждым форматом, что вы должны использовать для копирования или загрузки музыки? В общем, мы рекомендуем использовать MP3 или AAC. Они совместимы почти с каждым проигрывателем, и оба они неотличимы от исходного, если . Если у вас нет особых потребностей, которые предполагают иное, MP3 и AAC — это лучший выбор.

Однако есть кое-что, что можно сказать о том, чтобы хранить свою музыку в формате без потерь, таком как FLAC. В то время как вы, вероятно, не заметите более высокого качества, lossless отлично подходит для хранения музыки, если вы планируете впоследствии ее преобразовывать в другие форматы , поскольку преобразование формата с потерями в другой формат с потерями (например, AAC в MP3) приведет к появлению файлов заметно более низкое качество. Поэтому для архивных целей мы рекомендуем FLAC . Однако вы можете использовать любой формат без потерь, так как вы можете конвертировать между форматами без потерь, не изменяя качество файла.

2009-09-30T20:52

Audiophile"s Software

Первые идеи об использовании психоакустической маскировки для компрессии аудиоданных относятся к 1979 году. Однако соответствующие аудиокодеры начали получать широкое распространение лишь с середины 90-х годов, когда вычислительных мощностей персональных компьютеров стало хватать для воспроизведения сжатого аудио в реальном времени и появился стандарт MPEG-1 Audio Layer 3, более известный как МР3. Аудиоформаты с компрессией стали незаменимыми при передаче звука через интернет, обеспечивая «практически прозрачное» качество стереозвука (то есть кодированный сигнал для большинства слушателей неотличим от оригинала) при битрейтах выше 128 кбит/с. С основными принципами формата МР3 можно познакомиться в статьях К. Гласмана (2…8/2005)

Развитие методов сжатия данных и психоакустики постепенно приводило к тому, что стандарт МР3 стал «тесным» для реализации новых идей в кодировании аудио. В результате, к 1997 году институтом Фраунгофера (Fraunhofer IIS), который в начале 90-х создал МР3, а также компаниями Dolby, AT&T, Sony и Nokia - был разработан новый метод компрессии аудио - Advanced Audio Coding (AAC), вошедший в стандарты MPEG-2 и MPEG-4. Основными отличиями от стандарта МР3 стали:

поддержка более широкого набора форматов (вплоть до 48 каналов) и частот дискретизации звука (от 8 кГц до 96 кГц);
более эффективный и простой банк фильтров: гибридный банк фильтров МР3 был заменен обычным MDCT (модифицированным дискретным косинусным преобразованием);
более широкие пределы варьирования частотно-временного разрешения в банке фильтров - в восемь раз (в МР3 - в три раза) - привели к улучшению кодирования транзиентов (переходных процессов) и стационарных участков аудиосигнала;
более качественное кодирование частот выше 16 кГц;
более гибкий режим кодирования стереосигналов, позволяющий переключаться в режим M/S («joint stereo») независимо в различных частотных полосах;
дополнительные возможности стандарта, повышающие эффективность компрессии: технология формирования шума во временной области (TNS), предсказание MDCT-коэффициентов по времени (long term prediction), режим параметрического кодирования стереосигнала (parametric stereo), синтез шумов (perceptual noise substitution), технология восстановления высоких частот (SBR).

Благодаря этим особенностям, стандарт AAC способен достигать более гибкого и эффективного, а значит - и более качественного кодирования звука. В результате широкого распространения формата МР3, стандарт AAC до сих пор не приобрел сравнимой с МР3 популярности. Тем не менее AAC является основным форматом в популярном интернет-магазине iTunes Store, плеерах iPod, iTunes, телефоне iPhone, игровых приставках PlayStation 3, Nintendo Wii и в цифровом радиовещании DAB+/DRM.

Рассмотрим основные особенности AAC подробнее.

Банк фильтров

Как и другие психоакустические аудиокодеры, AAC работает по следующей схеме. Входной сигнал пропускается через банк фильтров - преобразование, переводящее сигнал из временной области в частотно-временную область (аналогично построению спектрограммы). Параллельно с этим психоакустическая модель анализирует сигнал и определяет пороги психоакустической маскировки. Далее спектральные коэффициенты сигнала на выходе банка фильтров квантуются так, чтобы спектр шума по возможности (если позволяет битрейт) оказался ниже порогов маскировки и не был слышен. Квантованные коэффициенты сжимаются без потерь в выходной файл формата AAC. Таким образом, сам банк фильтров не сжимает сигнал, он лишь переводит его в форму, более пригодную для сжатия.

Особенностью каждого банка фильтров является его частотное разрешение, то есть число частотных полос, на которые он делит спектр сигнала. В большинстве банков фильтров, используемых для сжатия звука, число полос составляет несколько сотен. Это означает, что в силу соотношения неопределенностей такие банки фильтров имеют временное разрешение порядка нескольких десятков миллисекунд. Когда спектральные коэффициенты сигнала квантуются, то вносимая ошибка квантования при декодировании сигнала распространяется по времени на всю длину окна банка фильтров. В некоторых случаях это приводит к нежелательному эффекту, называемому пред-эхом (pre-echo). Он проявляется, когда ошибка квантования от транзиента (резкого всплеска энергии в сигнале) распространяется по времени на предшествующий транзиенту участок времени и становится слышна (рис. 1). Чтобы уменьшить этот эффект, применяют банки фильтров с переменным частотно-временным разрешением. Например, в МР3 используется переключение временного разрешения банка фильтров между 26 и 9 мс. Для стационарных сигналов используются окна длиной 26 мс, дающие хорошее частотное разрешение, а для транзиентов используются окна длиной 9 мс, уменьшающие эффект пред-эха (см. рис. 1).

В алгоритме AAC также используется переключение размера окон MDCT. При этом разница в размере окон восьмикратная: 6 и 48 мс (256 и 2048 отсчетов). Благодаря этому алгоритм способен адаптироваться к более широкому диапазону сигналов и достигать лучшей степени компрессии.

Технология TNS - формирование амплитудной огибающей шума

Одной из проблем современных психоакустических кодеров аудиосигнала является работа с транзиентами (переходными процессами в аудиосигнале). Для обеспечения прозрачного кодирования нужно обеспечить попадание шума квантования под порог маскировки, зависящий от времени. Однако на практике этому требованию трудно удовлетворить вблизи переходных процессов, т.к. шум квантования, возникший при кодировании, распространяется по времени при декодировании на всю длину окна MDCT. Это может приводить к значительным превышениям шумом квантования порогов временной маскировки.

Технология TNS (temporal noise shaping, формирование шума во временной области) в стандарте AAC позволяет управлять распространением шума квантования по времени в пределах каждого окна MDCT. Технология TNS основана на подобии (частотно-временном дуализме) амплитудной огибающей сигнала и огибающей его спектра, а также на использовании линейного предсказания (LPC) по частоте при квантовании спектра.

Хорошо известно, что для сигналов со спектром, сильно отличающимся от белого (например, тональных сигналов), использование линейного предсказания (LPC) во временной области позволяет эффективно «отбеливать» спектр и кодировать такие сигналы путем их разложения на коэффициенты предсказания и сравнительно небольшую по амплитуде ошибку предсказания (residual). При декодировании фильтр линейного предсказания формирует спектр ошибки согласно спектру исходного сигнала.

В кодере AAC линейное предсказание используется противоположным образом: для предсказания отсчетов спектра в частотной области. Разность исходных и предсказанных коэффициентов MDCT квантуется согласно порогам маскировки (в традиционных кодерах квантуются исходные коэффициенты MDCT). Коэффициенты линейного предсказания также записываются в выходной файл. При декодировании сигнала фильтр линейного предсказания, применяемый к разностному сигналу в частотной области (включающему ошибку квантования), формирует амплитудную огибающую исходного сигнала (и ошибки квантования) во временной области. Таким образом, амплитудная огибающая ошибок квантования становится близкой к амплитудной огибающей исходного сигнала (рис. 2).

Технология TNS снижает эффект пред-эха и заметность ошибок квантования на некоторых гармонических сигналах с импульсным характером звукоизвлечения (речь, некоторые духовые и струнно-смычковые инструменты). На рис. 2 сравниваются ошибки квантования, вносимые в вокальный сигнал алгоритмами AAC и МР3 с одинаковыми битрейтами. Вместе с общим понижением ошибки квантования (в силу большей эффективности AAC) наблюдается формирование амплитудной огибающей ошибки квантования по времени согласно огибающей исходного сигнала.

В стандарте AAC технология TNS может применяться к отдельным частотным полосам спектра независимо или отключаться совсем.

Технология SBR - восстановление высоких частот

Достоверная передача широкого частотного диапазона - важное требование для качественного кодирования. Однако передача каждой следующей октавы звукового диапазона в полтора-два раза повышает требования к битрейту для традиционного аудиокодера. Чтобы снизить битрейт и при этом сохранить высокие частоты в кодируемом материале, была создана технология искусственного синтеза высоких частот SBR (spectral band replication).

Технология основывается на том, что наш слух анализирует высокие частоты с меньшей точностью, чем средние и низкие. Для создания эффекта присутствия высоких частот необязательно математически точно реконструировать форму волны, а достаточно лишь восстановить некоторые существенные психоакустические параметры сигнала на высоких частотах. Ктаким существенным параметрам относятся частотно-временное распределение (огибающая) энергии сигнала и степень его тональности/зашумленности.

Идея алгоритма такова. При кодировании осуществляется анализ высоких частот в исходном аудиосигнале и извлекаются их параметры: в первую очередь - амплитудная огибающая в нескольких (обычно в восьми) частотных полосах. Далее высокие частоты из записи удаляются и кодируются только оставшиеся низкие и средние частоты. При этом в выходной файл также добавляется сравнительно небольшой поток информации о параметрах утерянных высоких частот.

При воспроизведении сначала декодируется сигнал низких и средних частот. Далее (в случае его наличия в плеере) начинает работу декодер SBR. Первым шагом он осуществляет синтез высокочастотного сигнала путем транспонирования (точнее - частотного сдвига) имеющихся средних частот. Поскольку степень тональности/зашумленности спектра на средних и высоких частотах примерно равна, то в результате этого шага получается высокочастотный сигнал с правдоподобной структурой спектра. На втором шаге декодер SBR использует дополнительную сохраненную информацию о высоких частотах для придания им нужной амплитудной огибающей в каждой частотной полосе. В результате получается сигнал, у которого высокие частоты полностью синтезированы из средних, но при этом сохраняют звучание исходных высоких частот.

Технология SBR может быть пристроена ко многим существующим методам кодирования аудио. Например, SBR в сочетании с МР3 называется МР3 PRO, а SBR в сочетании с AAC называется HE-AAC (high efficiency AAC). В основном, SBR используется при кодировании с относительно низкими битрейтами: 64 кбит/с и ниже. Технология позволяет значительно расширить частотный диапазон аудиосигнала с минимальным увеличением битрейта (несколько кбит/с).

Технология Parametric stereo

Передача стереосигнала обычно требует от кодера почти в 2 раза большего битрейта, чем передача монофонического сигнала. При этом стереоканалы можно кодировать как независимо, так и после M/S преобразования. В последнем случае на S-канал зачастую тратится меньший битрейт, чем на M-канал. Этот режим кодирования также называется joint stereo. В стандарте AAC этот режим может включаться и отключаться кодером независимо для каждой частотной полосы.

Для более эффективного кодирования стереосигналов на совсем низких битрейтах (16…32 кбит/с) была разработана технология параметрического кодирования стереопанорамы (parametric stereo). Она заключается в том, что стереосигнал перед кодированим сводится к моно, но в выходной файл добавляется небольшой поток (2…3 кбит/с), содержащий информацию о стереопанораме исходного стереофайла. Этот поток содержит (в сжатом виде) своеобразную «карту панорамы» для частотно-временной плоскости.

На стадии декодирования к полученному монофоническому сигналу применяется частотно-зависимое панорамирование. Это можно производить одновременно с декодированием, применяя к изначально равным коэффициентам MDCT левого и правого каналов соответствующие амплитудные множители.

Технология Parametric stereo дает хорошее впечатление об исходной стереопанораме звука ценой лишь небольшого увеличения битрейта по сравнению с кодированием моносигнала. Однако она не позволяет добиться полностью прозрачного звучания, так как неспособна учесть все нюансы стереопанорамы, например фазовые сдвиги между стереоканалами.

Технология Parametric stereo была включена в стандарт HE-AAC v2.

Технология PNS - генерация шумов

Для дополнительного увеличения эффективности кодирования шумовых сигналов в стандарте AAC предусмотрена технология PNS (perceptual noise substitution) для синтеза шумов. Известно, что наше ухо более чувствительно к амплитудному спектру сигнала, чем к фазовому. Поэтому вместо кодирования MDCT-коэффициентов исходного сигнала в шумовых областях можно лишь передавать параметры шума: его мощность в зависимости от частоты и времени.

Так и работает технология PNS. При кодировании идентифицируются участки спектра, представляющие собой шум, и соответствующие группы MDCT-коэффициентов исключаются из процесса кодирования. Частотная полоса помечается как шумовая, и для нее запоминается общая энергия шума.

При декодировании в частотные полосы, помеченные как шумовые, подставляются псевдослучайные MDCT-коэффициенты с требуемой общей мощностью. В результате в указанных частотных диапазонах синтезируется шум, близкий по звучанию к исходному шуму.

Технология Long term prediction - предсказание по времени

Психоакустическое кодирование тональных сигналов требует более высокого локального отношения сигнал/шум, чем кодирование шумовых сигналов (например, 20 дБ и 6 дБ соответственно). А это, в свою очередь, требует повышенного битрейта. Однако MDCT-коэффициенты тональных сигналов являются предсказуемыми по времени. Это обстоятельство позволяет эксплуатировать их зависимость по времени для уменьшения битрейта.

В стандарте AAC предусмотрен режим Long term prediction, в котором MDCT-коэффициенты дополнительно кодируются по времени с помощью линейного предсказания. Термин «long term» означает, что предсказание осуществляется не по соседним отсчетам, а по отсчетам, отстоящим на наиболее вероятный период тона на данной частоте.

Квантование и сжатие MDCT-коэффициентов

Аналогично стандарту МР3, в AAC используется нелинейное квантование MDCT-коэффициентов и сжатие их методом Хаффмана. Коэффициенты MDCT квантуются после возведения в степень 0,75, что позволяет увеличивать ошибку квантования для мощных сигналов и уменьшать ее для слабых сигналов в пределах каждой частотной полосы. Таким образом осуществляется дополнительное неявное формирование спектра шума.

После квантования MDCT-коэффициенты сжимаются с помощью набора фиксированных таблиц Хаффмана. В стандарте AAC этих таблиц больше, чем в МР3, и шире возможности по группировке коэффициентов. Это приводит к дополнительному увеличению сжатия.

Качество звучания

При оценке качества звучания аудиокодеров обычно используются субъективные тесты. Слушателям представляются фрагменты сжатых разными кодерами записей, и они оценивают чистоту звучания каждого фрагмента по шкале от 1 до 5. Лучшим кодеком считается тот, который способен достичь более высокого качества звучания по сравнению с конкурентами при заданном битрейте.

Достаточно авторитетным интернет-источником, где приведены результаты таких тестов, является сайт http://www.rjamorim.com/test/ На нем представлены тестирования различных кодеков на множестве битрейтов. Приведенные результаты в целом хорошо согласуются с другими источниками. Приведем несколько результатов для кодеров МР3 и AAC, помогающих сравнить их качество.

Лучшим кодером МР3 является бесплатный Lame. Однако на большинстве битрейтов он уступает в качестве более новым стандартам сжатия. На высоких битрейтах (выше 128 кбит/с) это отставание невелико, и лидером является кодер Ogg Vorbis.

На битрейте 64 кбит/с преимущество AAC уже становится ощутимым. В варианте HE-AAC алгоритм зарабатывает оценку 3,68. Это примерно соответствует Lame с битрейтом 96 кбит/с и означает преимущество AAC над МР3 примерно в 1,5 раза. Оценка Lame с битрейтом 128 кбит/с - 4,29.

На битрейте 32 кбит/с кодер AAC от компании Nero серьезно выигрывает в качестве по сравнению с МР3: оценки 3,23 и 1,72 соответственно. Однако AAC лишь ненамного опережает формат МР3PRO, получивший оценку 3,08. Это указывает, что технология SBR действительно значительно улучшает качество при низких битрейтах.

Выводы

Благодаря примененным в стандарте AAC новым технологиям, данный формат имеет заметное преимущество перед MPEG-1 Layer 3 (MP3), позволяя достигать лучшего качества звука при таких же битрейтах. Особенно сильный выигрыш наблюдается в области низких битрейтов: 96 кбит/с и ниже. Это подтверждает перспективность формата AAC для цифрового радиовещания.

Популярность AAC для распространения музыки в интернете на сегодняшний день остается низкой по сравнению с форматом MP3. Пользователи продолжают предпочитать лучшую переносимость MP3 более сильному сжатию AAC. Значительная часть музыкальных архивов на сайтах, распространяющих музыку, уже изначально находится в формате MP3, и доступа к несжатым записям у провайдеров не имеется. Это значит, что перекодировать такие записи в формат AAC большого смысла не имеет - качество зачастую уже потеряно. Однако новые карманные плееры и некоторые онлайн-магазины уже поддерживают формат AAC, часто - с верификацией легальности контента (что также отпугивает пользователей, предпочитающих не ограничивать себя в копировании музыки).

Будучи весьма перспективным, формат AAC не является единственным наиболее качественным форматом компрессии звука. На высоких битрейтах (выше 128 кбит/с) AAC часто уступает в качестве кодерам форматов Ogg Vorbis и Musepack. На самых низких битрейтах (менее 32 кбит/с) AAC может уступать параметрическим кодерам звука, в том числе - специализированным кодерам для сжатия речи. Однако в диапазоне средне-низких битрейтов AAC на данный момент сохраняет пальму первенства.

Алексей Лукин
Журнал «Звукорежиссер» 2008 #1

Формат HE-AAC, его версии и их отличия. Сравнение звуковых форматов AAC и МР3 Что это такое

В чем преимущества данного формата AAC над другими, например над mp3?