Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате |
Клуб Любителей АудиоКниг > Дележка опыта. Запись. Звук. Звучание > Аудиокниги. Качество VS размер |
Автор: no404error 28.06.2020 - 06:28:03 | ||
Хочется поднять вопрос об объективности использования битрейта/настроек наиболее популярного кодека для конечного пользователя в контексте занимаемого места. Наиболее популярные битрейты: 56/96/128. Исходник: OST Wiedzmin 3. Препроцессинг: Преобразование в моно для отдельных тестов. Инструменты: MP3 Lame Encoder 3.99.5 Clang, SoundSlimmer. Описание: Были последовательно перебраны все варианты по всем режимам со всеми настройками. В итоговом режиме представлены уникальные варианты. Результаты: ABR Mono:
Выводы: Для исходника в моно, лучший варианты - 56/q2, 96/q2, 128/q2. ABR Stereo:
Выводы: Для исходника в стерео, лучший варианты - 56/q0/mm, 96/q0/mm, 128/q2/mm. Это не абсолют, но просто показатель эффективности использования параметров. Разница заметная. Но, самая заметная разница наблюдается при сжатии fake-stereo. 50-60%. Как это выходит? Берем моно источник, делаем из него стерео, а фактически дублируем каналы. Потом передаем это Lame. Для полноты извращений еще и в режиме -md. "Громадный значит качественный" нефига не работает в современных реалиях. К примеру, ИГРКО сжимается гораздо хуже чем большинство современных релизов. P.S. Есть результаты и по всем другим режимам, просто решил излишне не грузить. |
Автор: Naina Kievna 28.06.2020 - 12:24:37 | ||
+100500 но все (многие) начинающие чтецы стараются свои опусы сохранить в максимально возможном битрейте, наивно полагая, что высокий битрейт хоть как-то компенсирует качество звучания фонограммы, записанной "на коленке" - т.е. вне специально оборудованной студии. |
Автор: f1rs1 28.06.2020 - 16:20:35 |
Стремиться нужно к лучшему, а всех под посредственность ровнять. |
Автор: Naina Kievna 28.06.2020 - 22:07:38 | ||
хм... высокий битрейт посредственную фонограмму (и по звуку и по качеству чтения) не вытянет. работать надо над собой ваше изречение даже не знаю как трактовать... |
Автор: Iudushka 29.06.2020 - 15:27:15 | ||
Не работает. Сейчас еще много вариантов слушать по BT - там дополнительная конверсия. И еще своя обработка в последнее время. С музыкой - странно работает, но для книг это позитив |
Автор: f1rs1 30.06.2020 - 01:27:38 | ||
Никто ведь не заставляет использовать подобные решения. Компромис. Выбор в сторону удобства, как противоположности качества в данном конкретном случае. |
Автор: Iudushka 30.06.2020 - 13:17:56 |
Нет же. Подавляющее количество аудиокниг не могут похвастаться качеством записи и обработки. Нет смысла в премиальных устройствах воспроизведения. Особенно мало смысла в устройствах имитирующих это качество (обычно через усиление басов). Более того, лучше брать что-то попроще, чтобы эта простота лимитировала ужас, остающийся в фонограмме.
При прочих равных в машине всегда лучше, BT всегда проще, а 360 kbps вообще не надо. |
Автор: Naina Kievna 30.06.2020 - 13:43:17 | ||
+100500 |
Автор: Алькон 30.06.2020 - 14:04:08 | ||
Бывает и обратная ситуация - как пример, динамики ноутбучные выдают треск, но в наушниках или колонках чуть получше это на самом деле "буумм" на низких. По сжатию согласен, 320 ничего не дают, это overkill - только лишнее про-во занимается. Для стерео делаю 128-192 с переменным битрейтом, в зависимости от того, что там за звуки и музыка в арранжировке. Этого более чем достаточно. |
Автор: saliri 30.06.2020 - 17:20:12 |
Основной посыл поста в том, чтобы доказать, что основной битрейт колеблется от 56 до 128 kbps или в том, чтобы указать на компактность режимов обработки каждого из битрейтов? |
Автор: f1rs1 30.06.2020 - 17:49:59 | ||
В статье цифры районе 60-80 и 128, как чуть ли не мифический потолок. Если бы все раздачи шли в 192 - иделально было бы. |
Автор: Iudushka 30.06.2020 - 22:08:39 | ||||
Проблемы с переменным битрейтом никуда не ушли, на части устройств, в том числе на смартах, возникают ошибки с закладками и временем воспроизведения
Это за гранью добра и зла ) Самое плохое что может быть - динамики НБ ))) |
Автор: vicky000000 1.07.2020 - 09:58:34 | ||
Зависит от НБ |
Автор: Naina Kievna 1.07.2020 - 20:11:36 | ||
хм.. 1. не все фонограммы достойны быть в 192. не все что Меня, например, битрейт выше 128 kbps сразу настораживает. Иду смотреть ЧХ. и вижу, что там 2. это где ж столько места взять? (я уже полгода не бэкаплю архивы на облака (места нет) и кое-что из исходников тут же летит в корзину (ибо слушать не буду...) 3. раньше я шипела на литресовские битрейты, а теперь я их понимаю.. |
Автор: Алькон 2.07.2020 - 14:05:04 | ||||||||
Верно, это старая как мир проблема c VBR - и она тянется с давних пор - и тянется, и будет тянуться, пока производители не перестанут втравлять устаревшее ПО в свои ус-ва. Я посмотрел точней, что я использую при кодировании. Так вот - не CBR, не VBR - а ABR, который есть что-то промежуточное между вторым и первым - и использует алгоритм сжатия первого. Когда выбирал, как кодировать, оказалось, что это оптимальный вариант - а почему - точно уже не помню, но вроде как поэтому: https://forum.ixbt.com/topic.cgi?id=12:50247
Да, слушают и на таком, но слушателей и их ус-ва не выбирают, и арранжировка дело тонкое - и все, конечно, не учтёшь. Мало ли что может быть - запись могут слушать в машине, в наушниках на улице или в метро, под стук колес и гул воздуха в вагоне метро. |
Автор: no404error 19.07.2020 - 10:45:47 | ||||
Самый яркий пример из последнего это "03. Стивен КИНГ - После выпускного.mp3" из "ID=40238". Original : 22 685 736 SoundSlimmer : 10 882 631 - 47,97% precomp 0.47 (для подтверждения) : 10 330 749 - 45,54% При этом, файлы порезанные, без потерь, на кусочки около 1 минуты и сжатые MPZ(SS)/PCF, воспроизводятся в foobar2000 без заметных задержек. Но в тесте никакие файлы никаким изменениям не подвергались. И воспроизведение этого файла требует 5-6 секунд задержки для NAS на J5005. P.S. precomp, как и донор (packMP3), сжимает только MPEG-1 Audio Layer III. Для всех отличных сжатие практически нулевое. packMP3 просто ругается и не сжимает вообще.
P.S.2. Преимущества precomp заключаются в том, что он сжимает не только данные mp3, но и jpeg. Но precomp использовать труднее, он медленее и, что самое важное, для 50-60% всех данных (аудиокниг в свободном доступе) он не даст никакого преимущества, поскольку они не соответствуют MPEG-1 Audio Layer III, что превращает 99% данных в тыкву.
В "статье" был взят нетипичный пример - постоянный непрерывный поток. Демонстрацией было низкое качество. Абсолютно неважно каким будет битрейт, важно качество, фактическое качество, которое, как заметили выше, зависит от множества факторов. Я хотел донести несколько пунктов: 1 - Для большинства релизов используемый битрейт - запределен. * Основываются на рекомендациях 10-15 летней давности. 2 - Для большинства релизов используемые настройки кодера - неверны. * Использовать -q 0 вместо -q 2 считается "пустой тратой времени", но математика демонстрирует что это не так. Возможно это не слышно, возможно это незаметно, но статистически это означает что вы тратите гигантские объемы на "пустое место". А флеш-память (я же не ошибусь, предположив что это основной источних хранения) критична не только к операциям типа "запись"/"чтение-запись"/"запись-чтение", но и к простому хранению. HDD 30-40 летней давности вполне работоспособны, максимум требуется заменить/обновить контроллер. Но флеш-память... 1-1.5 года и там... пустота. Для SLC, которую большинство и в глаза не видело, 5-10 лет уже потолок. |
Автор: f1rs1 20.07.2020 - 01:00:08 | ||
Есть банальные реалии жизни. Многие релизы в малом битрейте - плохи по качеству, а большинство в избыточном(в вашей терминологии) - хороши. Вы уж извините, все остальное на фоне этой банальной истины(по крайней мере на данный момент и вряд ли в обозримом будущем что-то изменится) - вода. Стена воды. Водопад ваших цифр. Хотите что-то там у себя фэншуйное внедрять - флаг в руки. Я же от себя хочу просто качественного варианта аудиокниг. "ВОт такой я человек"(с) |
Автор: Алькон 20.07.2020 - 22:51:44 | ||||||
Тут скорее речь не о самой аудиокниге, а ее представлении - формате ее сжатия - mp3. Может, mp3 скоро уйдет как стандарт и на спичках больше не будут экономить. Допустим, такое случится лет через 15 - и будет что-то еще для аудиокниг - другой формат. Но пока mp3 - и без вариантов. И верно, что за последние лет 15 для аудиокниг тоже кое-что поменялось - по mp3.
Жесткие диски пока никуда не делись - и лет 15 еще будут точно. А когда файл заливается куда-то в чужое облако-хранилище яндекс или гугла - потребителю сервиса не так важно, какие там носители. Для него это прозрачно. Другое дело - общий объем записей. Одно дело если у вас пара рассказиков на час времени, другое дело когда время аписи часов сорок. И когда таких записей не одна - возникают дополнительные раасходы, а это деньги - хранение денег стоит, и времени по переисыванию. Так что в этом случае оптимальное сжатие имеет значение. Вопрос тут только один - как определить
вот это 'фактическое качество'? На глазок? Основываясь на том, сколько в исходнике дорожек и стерео они или моно и что за звуки - их частотные диапазоны. Положим, есть у меня такая информация - и исходник несжатый есть. А если нет? На слух? Вот здесь это у меня уже ускользает. no404error, если будет время, посмотрите одну из последних записей, которую я жал в mp3. http://abook-club.ru/audiobook=58438/ Там исходники были хорошие - с оригинальной музыкой, написанной композиторами - и я не стал жать сильней, решил, что качество ухудшится. Но, может, можно и сильней сжать без значительных потерь? |
Автор: no404error 25.07.2020 - 17:34:04 | ||
Время нашлось Вывод: ~15%. Развернутый вывод: Не опираясь на качество исходной аудиозаписи, но используя исключительно математический подход... Это заметно ниже среднестатистического. Пояснение: Тут нет перерасхода битрейта и/или каких-то неверных параметров. Исходный источник (простите за тавтологию) был закодирован более-менее адекватно. p.S. Но, есть множество нюансов :/ p.p.S. Ребята/девчата. Простите. Очень много работы. Появляюсь эпизодически. Капаю на мозги своими правками. Простите. В данный период времени аудиокниги это хобби. |
Автор: Алькон 26.07.2020 - 10:45:23 | ||||||
Спасибо большое, no404error.
Ньюансы вот и интересны. Тут между Сциллой и Харбдой по каждой записи, они ж делаются не на месяцы, а на года, и, если повезет, даже десятилетия.
Да все понятно, оно тут у всех так. Будет время - пишите, интересны ваши заключения. |
Автор: no404error 27.07.2020 - 10:39:11 | ||
Чисто технологически. SoundSlimmer это "по-сути" "рекомпрессор", что, в данном случае, подразумевает оптимизацию сжатия для очень старого стандарта. 20-30 лет назад ADPCM был потолком качества. Соотношение размер/качество имело критическое значение. 99% компов того времени только его и воспринимали без хрюканья. Fraunhofer создали референсный кодер. Страшный и ужасный, но с запасом оптимизации. Вопрос в том, что он, как и большинство стандартов, был разработан с запасом на аппаратные реализации, их простоту и долговечность. MP3 нельзя сжать архиваторами. Это нормально. Архиватор рассматривает поток как есть. Рекомпрессор разбирает исходный файл на составляющие и рассматривает их отдельно. Для mp3 минимальной единицей хранения информации, которую можно изменить без потери исходных данных, является фрейм. Кодирование информации внутри "фрейма" просто, но неоптимально, даже на момент его создания. Просто представьте. Техинфо представлена следующим видом: Тип 1: 0 или 1, но на это потрачен целый байт. Тип 2: 0-255, тут ровно байт. Тип 3: 0-4, и снова целый байт. ... И так очень-очень много. Фактически (нереально, не встречал, но вполне возможно) потратить на фрейм можно более 512 килобайт, большинство будет мусорные данные. > Тут полное пространство для оптимизации/сжатия. Далее. Dual Stereo. Встречается сплошь и рядом для записей начла 200х. Это те самые варианты где SoundSlimmer сжимает вдвое и/или больше. Моно источник и/или незначительная часть стерео (как правило в начале) и, как результат - сжатие в 50%. Перерасход битрейта. MP3 кодирует "верх" исключительно исходя из математических предсказаний. В результате и для JointStereo работает "сжатие". А оно не "сжатие" вообще. "Верхи" это вообще почти эмпирическое значение. Для mp3 все что выше 12/14kHz это чистая "сахарная вата". Вкусно, но непонятно. Оно очень похоже для всех видов. Зная шаблон можно "сжать", а потом "восстановить" 1:1, то, чего и в природе не было, но хомячки будут рады. Вывод: 1. Оптимальные характеристики кодирования на 99.9% зависят от исходных данных. 2. Использование VBR приветствуется. 3. Использование VBR без максимальных настроек качества - не приветствуется вообще. 4. Использование JS/DS практически бесполезно. Кроме спектаклей. P.S. Интересующимся. Рекомпрессия/сжатие данных прошлых поколений это актуальная тема. Иногда нет возможности получить другие данные кроме имеемых. Лучше сохранить то что есть. К примеру MPEG-2 (TS) можно сжать до 50% от оригинала. |
Автор: Алькон 27.07.2020 - 19:32:50 | ||||||
Это забавно. А что вы скажете про вот это утверждение в Вики по поводу Joint Stereo:
Не знаю, что там они имеют в виду под "some early", однако интересно, что есть сейчас для последних версий lame - в этом плане. Ситуация, что в одном проекте может быть и дорожка с голосом моно, и дорожка стерео для заставки и концовки, не так уж редка. Так вот - сейчас тип каналов для такого варианта можно выбрать Auto, Jount Stereo, Forced Joint Stereo и Simple. Но что лучше - по качеству, а не по сжатию?
Спасибо, no404error, прочитал с интересом. А имеет ли какой-то смысл крутить параметры "Управление битрейтом" - устанавливать нижнюю границу и задавать "верх" поменьше, раз он всё равно эмпирически выбирается как угодно - так может, лучше задать ниже плато и сэкономить на все этом, раз оно не влияет? И имеет ли смысл выбирать рукми частоту сэмплинга - ставить ее поменьше, раз, как вы говорите, что всё, что выше 14Hz бесполезно. |
Автор: no404error 27.07.2020 - 20:42:48 |
Все остальные вы видимо проигнорировали... Типичный фрейм может быть сжат. |
Автор: f1rs1 27.07.2020 - 20:47:32 | ||
Алькон, кто вам мешает закодировать различные варианты и послушать самому на вашей же технике? Разница в верхах 96 и 192 слышна на музыке в lame и голосах с широкими возможностями. Если сравнивать 128 и 192 - зависит от материала. Включите оркестровую музыку и сами все услышите. Сбивается в кашу или нет. Мне лично этого достаточно. А как там алгоритм работает, что и почему делает и что думают некие спецы в интернетах - любопытно, конечно, но слушать же мне. Скажите: зачем вам мнение кого-то, если они слушать за вас не станут? Понимаю релизеры принимают решение - им просто раздавать, но вам зачем? |
Автор: no404error 27.07.2020 - 21:32:16 | ||
Разница будет 1:1. SoundSlimmer восстанавливает исходные данные в виде "bit-perfect", что означает что данныые будут востановлены бит-в-бит. Добавлено: [mergetime]1595878457[/mergetime]
Размер. 25-50% экономии объема. P.S. Лично я пытаюсь создать геноголоса. Я говорил об этом ранее, говорю и сейчас. Исаев, Клюквин, Заборовский. Я создал Заборовского и Клюквина где-то на 50%, Исаева почти на 90%. |
Автор: f1rs1 27.07.2020 - 22:40:49 |
Цифры - ясные и понятные. Почти рекламные. С качеством - увы не стыкуются. Про геноголоса - это к РЕН-ТВ. Технологии, конечно, не стоят на месте, но пока что-то кто-то где-то создаст(и то пока не факт в ближайшей перспективе уж точно) я хочу слушать книги в максимально возможном качестве. Такое ощущение, что я веду речь о каких-то барских замашках в то время, как все в едином порыве бросают все силы на постройку очередной утопии - тут не излишков! Как-то не вдохновляет. Мне кажется, если кому-то не купить пару жестких дисков для того чтобы дополнить коллекцию аудиокниг, а требуется 22 диска, то стоит задуматься, а по силам ли ему все это прослушать. Может быть речь идет о банальной жабке. Так если так - можно коллекционировать с тем же успехом цифровые текстовые книги. Ну, правда ни один супер-пупер mp3 кодек не сожмет так чтобы конкурировать с архивированием какого-нибудь fb2. А если первые не будут слушаться, а вторые читаться, то проблема нет - не все ли равно, чем диски забивать=)) |
Автор: Вася с Марса 29.07.2020 - 13:49:12 | ||
а? |
Автор: vicky000000 29.07.2020 - 14:08:27 |
Наверное, речь идет о голосах для синтезатора речи. |
Автор: Алькон 31.07.2020 - 16:18:24 | ||||||||
Видимо не понял. Да и сейчас тоже не очень понятно - вот типичный фрейм - чего? Типичный фрейм вообще при сжатии mp3, типичный фрейм большинства записей mp3 с несколькими дорожками JointStereo - или что? Не подумайте что придираюсь - мне просто не совсем ясно, о чем речь.
Конечно, кодирую, слушаю - это так. Но раз разговор зашел - а вот не всегда слышу разницу, хотя наушники вроде бы ничего. И вопрос здесь - а есть ли она на самом деле или это значения не имеет и мое воображение?
Как зачем - я ведь делаю, у меня - исходники, которые я жму - и здесь, понятно, можно и так и этак - и если надо ехать, так поеду - а не шашечки. А что вы говорите, что слышна разница в верхах 96 и 192 - так я согласен, слышна, но ровно также слышна разница между 96 и 110 - потому что здесь при преобразовании в mp3 происходит обрезание по частотам - с 44100 до 32000. А вот разница между 110 и 192 уже не так очевидна - потому как обрезания по частотам не происходит. И где на слух заканчивается мое воображение и действительно появляется разница - это мне и не очень понятно. Вот, сейчас новый рассказ делаю - Марк Твен "Людоеды на железнодорожном поезде", хотите послушать первые 4 минуты рассказа и оценить качество и варианты сжатия и записи?
В архиве 94 Mb - 5 вариантов mp3, плюс добавил туда исходник и три входящие в него дорожки, можете сами оценить качество каждой на вашем оборудовании. |
Автор: no404error 31.07.2020 - 20:31:59 | ||||
Вы правы. И это жесть как трудно. Я пока только календарь и часы осилил.
Да, любой "фрейм" mp3. Не большинства, в всех. Без вариантов. Просто вам, в догонку. Каждый "фрейм" содержит данные о всех характеристиках данных. Для 99.(9)% эти данные одинаковы для всего файла. Но до 16 байт на каждый фрейм тратятся на эти данные. Это имеет значение для потоковых данных, которые никогда не были реализованы. Но просто представьте экономию в 16 байт на каждый фрейм. "Фрейм" это 1152 "семпла", что составляет "1152 поделить на частоту дискредитации и умножить на 1000". Это в "железе" вообще очень зависимая характеристика, поскольку говорит о необходимом предбуфере. Например в APPSTORE это определяет максимальный размер M4B (как собственно любого файла в MP4 контейнере). |
Автор: vicky000000 31.07.2020 - 20:53:35 | ||
И это же делает формат очень робастным: можно всякий мусор добавить в виде каких угодно тэгов, можно играть с любого места. Нашел сигнатуру, и вперед! |
Автор: Алькон 2.08.2020 - 20:26:22 | ||||||
Спасибо, no404error. Эта информация полезная, нужная, но ее практическое применение лежит несколько в другом направлении, которое меня сейчас интересует. Но я уже понял, как решить эту задачу. На самом деле тут надо заходить с другой стороны - плясать не от того, с какими настройками преобразовывать в mp3, а идти от людей и их слуховых возможностей. Сперва важно понять, какие частоты действительно слышат подавляющее большинство слушателей, а затем, исходя из их ограничений, и подбирать параметры сжатия mp3. Тест слуховых возможностей, я нашел:
У меня полностью пропадает звук после 18 KHz, но этот порог еще привязан и к возрасту, чем человек старше, тем ниже верхний порог. А вот тест с привязкой частот к возрасту:
Можно бы начать подбирать оптимальные параметры mp3, но сперва неплохо посмотреть, что у нас с демографией в России и поискать статистические опросы - сколько людей в России слушает аудиокниги и каков их возраст? Никто про такие опросы не слышал? |
Автор: no404error 2.08.2020 - 23:25:34 | ||||
И это сделало возможным взлом плееров одного покойного производителя
Audible (который теперь Amazon принадлежит) проводил для англоязычных. На основе чего и сформировал свои ".aa" с потолком в 22kHz (11.050kHz). Но англоязычная-американская это очень узкий вариант опроса. Даже не беря русский сегмент, испанцы плюются. Исходя из моего опыта, оптимальным видится 32kHz (который, для которого большинство lossless, режет в районе от 13.5 до 14 kHz). Вероятно нужно искать где-то в этом диапазоне, вне зависимости от кодека. Это не означает что нужно "замучить" MP3 в попытке воспроизвести эти частоты. Скорее всего это приведет к перерасходу битрейта на пустоту. P.S. Для каждого конкретного кодека есть свои варианты. К примеру OPUS больше всего нравятся данные в 44.1, несмотря на то, что он считает стандартным выходным 48. |
Автор: f1rs1 3.08.2020 - 10:15:31 | ||
Про какую вы все пустоту говорите? Скажем Игорь Князев читает с упором в средние, а то и на высоких голосить начинает. Ладно, допустим, можно так подобрать и ужать по верхам, что не особо будет заметно, но как быть с музыкальными вставками перед и в конце глав. С заглавной темой перед книгой и завершающей? Или вы из тех, кто одобряет современную тенденцию пускать титры после фильма для галочки с адской скоростью, да еще и на половине экрана? Скажите, подушка безопасности для вас в авто - "пустота" или необходимый элемент, который при необходимости нельзя будем заменить? Прямо подход в стиле: деды терпели и вы терпите! Вот сколько читаю эту и аналогичные темы _никто не может внятно ответить "зачем". Кроме банального желания захапать себе все возможные аудиокниги. Есть лишь один ответ на этот вопрос из тех, что я нашел: решение для тех, кто слушает книги с увеличением скорости. Там уж действительно не до изысков. Плюс особенности данного режима прослушивание наоборот требуют парадоксального в чем-то некого ухудшения для конечного улучшения и четкого разбора звука. Помните Незнайку на Луне? Их когда на остров дураков собрались везти там многие коротышки заплакали: как же мы теперь "Сыты будем – как-нибудь проживем. Не надо отчаиваться! Ведь и на Дурацком острове коротышки живут "(с) И все успокоились... |
Автор: vicky000000 3.08.2020 - 11:13:51 |
Не очень понимая, о какой частоте вы все время говорите. Если сказано, что обрезаят на 14 KHz, это не значит, что вам не дадут насладиться ля шестой октавы, которой все равно нет, и Бог с ней. Это значит, что в Фурье образе сигнала обрезают старшие гармоники, меняя, тем самым, тембр звука. |
Автор: Алькон 3.08.2020 - 22:29:30 | ||||||||
vicky000000, no404error говорил про частоту дискретизации, а я про те частоты, которые большинство людей могут услышать. Понятно, что обрезаются, и понятно, что не получится насладиться. Но. Какие частоты режутся - и при каких настройках? Какие настройки будут оптимальные, чтобы сжимать и не менять тембр?
Меня, как раз, f1rs1, и интересует как лучше именно такие аудиокниги сжимать - с музыкальными вставками и шумами. И какие настройки по сжатию для таких книг оптимальны.
Нашел. "Исследование верхней границы слуха"
"Исследовались возможности слуха на частотах 13-23 кГц с шагом 1 кГц, и уровнями 90, 100 и 110 дБ. Исследовался слух студентов возрастом 20-21 год, как юношей, так и девушек. Всего было исследовано 34 человека". Выборка небольшая, но сделано исследование качественно и затрагивает те моменты, которые как раз и могут помочь выбрать оптимальные параметры по сжатию. Вы прочитайте статью целиком - вам будет интересно. Для моей же задачи - вот информация, которая имеет значение: Рис. 3. Распределение верхней границы слуха для различной громкости сигнала. По вертикальной оси – количество человек. Рис. 4. Обобщенное распределение верхней границы слуха в процентах от количества участников теста.
Т.е. оптимальными настройками будут те, при которых при кодировании будут резаться >16000 Гц. И даже немного меньше - потому что аудиокниги слушаются большинством на громкости, чуть меньшей 70 дБ, а также потому, что исследовался слух студентов, 20-21 год, а, значит, слух большинства слушателей будет еще чуть хуже. Значит, оптимальное значение обрезания частот лежит в районе где-то 15500 Гц - и это с запасом. |
Автор: vicky000000 3.08.2020 - 23:02:08 | ||
Так я про это и говорю: не может услышать чистую частоту =/= не может отличить разницу в тембре приходяшую от старших гармоник. Я не знаю точно, как работает ухо, но не уверен, что оно есть Фурье преобразователь в чистом виде. |
Автор: Iudushka 4.08.2020 - 16:55:36 | ||
Извините, оффтоп. А это нужно? Я большой поклонник синтезаторов, но в часах и календаре их использовать не вижу смысла. В часах родной самсунговский, в календаре гуглевский. Вообще неудобно. ИМХО. Добавлено: [mergetime]1596552950[/mergetime] Хотя я и голосовыми ассистентами не пользуюсь. И вообще синтез только для книг ( К слову характеристики звука при синтезе по умолчанию отвратительны |
Автор: Алькон 4.08.2020 - 22:31:49 | ||
Точно нет. Вместо преобразований Фурье у нас просто спираль, изогнутая и постепенно сужающаяся, и давление на тончайшие волоски, которые в этой спиральке в разных ее участках раздражает нервные импульсы. Добавлено: [mergetime]1596574403[/mergetime] На этом графике - несжатый исходник - спектр голос чтеца (моно, 44100 кГц) и еще две дорожки стерео - с шумовыми эффектами(гудки паровоза, шумы колес на стыках рельс, выпускание пара, свистки) и музыка(банджо). А теперь подробности по обрезанию частот при разных настройках качества mp3. Спектр после преобразования в mp3 320 kbps. Спектр после преобразования в mp3 277 kbps. Спектр после преобразования в mp3 236 kbps. Спектр после преобразования в mp3 236 kbps. Спектр после преобразования в mp3 205 kbps. Спектр после преобразования в mp3 173 kbps. Спектр после преобразования в mp3 142 kbps. Спектр после преобразования в mp3 117 kbps. Спектр после преобразования в mp3 107 kbps. Спектр после преобразования в mp3 107 kbps. Спектр после преобразования в mp3 91 kbps. Выводы. Учитывая, что для голоса и музыки при нормальной громкости большинство из нас не слышит частоты выше где-то 16 кГц, то для большинства аудиокниг с несколькими дорожками оптимально кодировать их в mp3 с потоком 128 Kbps. И это уже с большим запасом. Кодирование же любых, даже самых наилучших исходников с большим, чем 140 Kbps потоком, является избыточным и генерирует лишние мегабайты и гигабайты бесполезной нагрузки. |
Автор: f1rs1 5.08.2020 - 09:50:16 |
Вас не смущает, что (помимо отсечения частот) есть отличия в графиках? |
Автор: Алькон 5.08.2020 - 16:44:49 | ||
Если не учитывать то, что на некоторых графиках разный масштаб, - это может быть. Для анализа взяты первые 30 секунд в каждом из файлов - начало, где есть и голос, и шумы, и музыка. Ес-но, 30 секунд выделялись руками - и где-то выделялось чуть меньше, где-то чуть больше. Все варианты mp3 можете взять вот тут
и сами посмотреть, послушать и даже сжать (там и исходник плюс отдельно каждая дорожка). |
Автор: Алькон 6.08.2020 - 13:55:35 | ||||
Я поторопился с выводами. Посмотрев получившиеся файлы mp3 разными программами и их средствами анализа mp3, ясно, что для таких случаев, как несколько дорожек вместе, битрейта 128 будет недостаточно. Вот экран программы EncSpot Pro с теми же данными: Как видно на этой картинке, граница между средним и хорошим качеством пролегает где-то около 140 Kbps. А вот вывод mp3packer - для трех файлов в этом диапазоне:
|
Автор: f1rs1 6.08.2020 - 15:00:00 |
И вот мы снова вернулись к началу и уместно процитировать самого же себя: "Если бы все раздачи шли в 192 - идеально было бы." |
Автор: Алькон 6.08.2020 - 17:42:34 |
Верхи и в 320 kbps зарезаются, если сравнивать с wav. Отсечка идет по частотам такая: 142 abr - 17500 Гц 160 cbr - 17500 Гц 173 abr - 18600 Гц 192 cbr - 18600 Гц 205 abr - 19400 Гц 236 abr - 19700 Гц 277 abr - 20500 Гц 320 cbr - 20500 Гц. Здесь видно, что vbr(abr) эффективней, чем cbr. Потому, что поток перерапределятеся и кодируется для Jount Stereo эффективней. Но услышат верхи люди для mp3 192, 160 и 142? Вопрос. Я уже не ощущаю разницы между 142, 173 vbr(abr) и 192(cbr). |
Автор: Алькон 9.08.2020 - 16:34:14 | ||
Немного устрашавшая статья по mp3 Михаила М. Федотоваhttps://www.ixbt.com/multimedia/mp3_new.html Устаревшая по рассматриваемому ПО, но не по основам. Полезного я в ней вычитал вот что:
То, о чем автор говорит во-первых, не очень важно, так речь идет прослушивании музыки на высококачественном оборудовании, это оставлено цитате для понимания мысли. Интересно второе, в аудиокниге основное внимание идет на речь, а не музыку, следовательно, ситуация похожая - внимание тоже отвлечено. Похожая - не не совсем, потому как картинки и клавиатуры нет, человек только слушает и слышит одновременно и речь и музыку. А похожее в том, что основное внимание нацелено на то, чтобы понять, скажет диктор, всё же прочее - шумы и музыка на этом внимание меньше концентрируется. Поток 160 kbps и 192 kbps cbr - это приблизительно то же качество, что 142 kbps и 173 kbps abr. |
Автор: no404error 21.08.2020 - 14:18:33 | ||
"Как видно на этой картинке" соотношение между "ничем" и "чем-то" заслуживает чего-то в виде "зеленой полосочки". На hydrogenaudio, audiophilesoftware, soundexpert, encode_ru... И прочих я доказывал что это малозначимая величина. P.S. ENCSPOT объективно показывает изменения исключительно в рамках единственного кодека/кодера. Я демонстрировал это на Hydrogenaudio неоднократно. |
Автор: Алькон 25.08.2020 - 19:13:36 |
no404error, понятно, что "зелёная полосочка" это условный показатель условной хорошести. И хорошести для чего и кого? Есть старая статья на эту тему - "Рекомендации по использованию стандарта сжатия mp3 на практике", https://www.ixbt.com/multimedia/mp3comp-faq2.html а конкретно, что мне в ней показалось разумным, это пункт "Из каких соображений нужно исходить при выборе параметров сжатия?". Лучше и четче сформулировать ответы на эти вопросы сложно наверное. |
Автор: no404error 26.08.2020 - 17:50:33 | ||
Алькон
В идеале... В идеале есть ИСТОЧНИК-КОДЕР-ЦЕЛЬ и ЦЕЛЬ-ДЕКОДЕР-ИСТОЧНИК. Но, практически, всё подсемейство MPEG подразумевает возможность неполного декодирования, как на уровне контейнера (ошибки передачи), так и на уровне кодера/декодера (сложность). 1. Уровень контейнера. Он был, он есть и он будет. Его спользуют потоковые сервисы передачи данных. Самая примитивная "внешняя" реализация - MPEG-TS. До 50% пакетов тратятся на сохранение данных. 2. Уровень кодера/декодера. Это пришло изначально с MP1L1. Не знаю кто был этот конкретный человек, но он был определенно гений. Все форматы MPEG можно декодировать "не полностью" получая более-менее адекватный результат. Кстати, формат SVCD полностью основан на этом принципе. Люди из 90х использовавшие VCD/SVCD на компах, разве вы видели на своих экранах надписи вроде "Read Error!"? Нет. Именно потому, что для декодера это не имело значения. Ну зеленые квадраты покажем, вместо реальных макроблоков, и что? Xing Mpeg Decoder демонстрировал эту концепцию опцией "FAST" - неполное декодирование. 486 компы не могли тянуть MP3 в 128kbps 44.1kHz Stereo? Дадим им 22.05kHz Mono и... вуаля - реалтайм! Вы серьезно? Стандарт "MP3" о частоте говорит только в контексте количества семплов. Именно так я написал библиотеку ускоряющую и замедляющую воспроизведение без потери качества. Просто можно "отбрасывать" часть данных, для определенных случаев, а часть данных либо не учитывать, либо "изменять на лету" подменяя определенный бит. |
Автор: Алькон 27.08.2020 - 09:52:17 |
no404error, одно дело стандарт, другое дело реализация, т.е. определение что будем терять, а что нет, при заданной пользователем ширине потока. По частоте я глубоко детали не лез, но как отсекаются верхи, знаю в общих чертах - по алгоритму, называемый психокинетическим. В каждой реализации он свой, хотя алгоритм один и тот же - а вот его реализация разная для каждого кодера. Смена же частоты исходников при кодировании для lame слышна в обычных, даже не очень дорогих, наушниках. Т.е. если у вас частота исходников 44K, а вы при кодировании, сделаете 31k mp3, то вы на 100% услышите, как ухудшится качество. |
Автор: no404error 28.08.2020 - 18:38:02 | ||
Еще раз. Сам "стандарт" подразумевает возможность неполного декодирования исходных данных. Не 31kbps из 128kbps, а "частичное декодирование каждого семпла". Для всех вариаций mpeg1 потеря 40% не приводит к изменению передаваемого потока заметному до уровня искажения. DELL.Xn сжимает все данные практически "на лету". mp3packer/SoundSlimmer/MPZ и/или packmp3 делает аналогичные действия с меньшей эффективностью но доступно для всех. |
Автор: Алькон 28.08.2020 - 19:16:50 | ||
no404error, под 31к я имел в виду не ширину потока, а частоту дискретизации - 31000 Гц. |
Автор: Naina Kievna 1.11.2020 - 19:00:04 | ||
хм... повторюсь в который раз. если источник/оригинал имеет частотные характеристики соответствующие этому битрейту (зачастую - увы...) Но на многие книги, которые я раздаю, мне просто-напросто жалко места. Поэтому, раздав, я их с чистой совестью отправляю в корзину без шанса на восстановление. битрейт выше 160 kbps оправдан - если 1. запись произведена в студийной обстановке при использовании хорошего оборудовании (пульта и микрофона) 2. Фонограмма впоследствии украшается музыкальными и прочими шумовыми вставками 3. Для прослушивания используется высококлассная аппаратура, а не смартфон с ординарными наушниками BTS. Кроме того, замечено, что высокий битрейт обычно используют новички-любители, которым (наивные) кажется, что высокий битрейт добавит качества и звучанию и прочтению. Поэтому, увидев в ТХ высокий битрейт - открываю файл в audacity - смотрю частотную характеристику, и с прискорбием понимаю, что ЧХ не соответствуют величине битрейта |