Версия для печати темы
Нажмите сюда для просмотра этой темы в оригинальном формате
Клуб Любителей АудиоКниг > Дележка опыта. Запись. Звук. Звучание > Аудиокниги. Качество VS размер


Автор: no404error 28.06.2020 - 07:28:03
Хочется поднять вопрос об объективности использования битрейта/настроек наиболее популярного кодека для конечного пользователя в контексте занимаемого места.

Наиболее популярные битрейты: 56/96/128.
Исходник: OST Wiedzmin 3.
Препроцессинг: Преобразование в моно для отдельных тестов.
Инструменты: MP3 Lame Encoder 3.99.5 Clang, SoundSlimmer.
Описание: Были последовательно перебраны все варианты по всем режимам со всеми настройками. В итоговом режиме представлены уникальные варианты.

Результаты:

ABR Mono:

+ Показать

Выводы: Для исходника в моно, лучший варианты - 56/q2, 96/q2, 128/q2.

ABR Stereo:

+ Показать


Выводы: Для исходника в стерео, лучший варианты - 56/q0/mm, 96/q0/mm, 128/q2/mm.

Это не абсолют, но просто показатель эффективности использования параметров. Разница заметная.

Но, самая заметная разница наблюдается при сжатии fake-stereo. 50-60%. Как это выходит? Берем моно источник, делаем из него стерео, а фактически дублируем каналы. Потом передаем это Lame. Для полноты извращений еще и в режиме -md.

"Громадный значит качественный" нефига не работает в современных реалиях. К примеру, ИГРКО сжимается гораздо хуже чем большинство современных релизов.

P.S. Есть результаты и по всем другим режимам, просто решил излишне не грузить.

Автор: Naina Kievna 28.06.2020 - 13:24:37
Цитата (no404error @ 28.06.2020 - 07:28:03)

"Громадный значит качественный" нефига не работает в современных реалиях.

+100500
но все (многие) начинающие чтецы стараются свои опусы сохранить в максимально возможном битрейте, наивно полагая, что высокий битрейт хоть как-то компенсирует качество звучания фонограммы, записанной "на коленке" - т.е. вне специально оборудованной студии.

Автор: f1rs1 28.06.2020 - 17:20:35
Стремиться нужно к лучшему, а всех под посредственность ровнять.

Автор: Naina Kievna 28.06.2020 - 23:07:38
Цитата (f1rs1 @ 28.06.2020 - 17:20:35)

Стремиться нужно к лучшему, а всех под посредственность ровнять.

хм... высокий битрейт посредственную фонограмму (и по звуку и по качеству чтения) не вытянет. работать надо над собой

ваше изречение даже не знаю как трактовать...


Автор: Iudushka 29.06.2020 - 16:27:15
Цитата (f1rs1 @ 28.06.2020 - 17:20:35)

Стремиться нужно к лучшему, а всех под посредственность ровнять.

Не работает.

Сейчас еще много вариантов слушать по BT - там дополнительная конверсия. И еще своя обработка в последнее время.
С музыкой - странно работает, но для книг это позитив

Автор: f1rs1 30.06.2020 - 02:27:38
Цитата (Iudushka @ 29.06.2020 - 16:27:15)
Не работает.

Сейчас еще много вариантов слушать по BT - там дополнительная конверсия. И еще своя обработка в последнее время.

Никто ведь не заставляет использовать подобные решения. Компромис. Выбор в сторону удобства, как противоположности качества в данном конкретном случае.

Автор: Iudushka 30.06.2020 - 14:17:56
Нет же.
Подавляющее количество аудиокниг не могут похвастаться качеством записи и обработки. Нет смысла в премиальных устройствах воспроизведения. Особенно мало смысла в устройствах имитирующих это качество (обычно через усиление басов).
Более того, лучше брать что-то попроще, чтобы эта простота лимитировала ужас, остающийся в фонограмме.
  • Так моя плохая крошечная BT колонка Philips удобнее для аудиокниг, чем колонка Xiaomi, которая получше. Обе низкий сегмент цены и качества.
  • http://abook-club.ru/info=215/ лучше (и намного удобнее) проводных Сенхов
  • Простенький дк (5+1) LG лучше чем Аудио в машине (9+1). А вот книга по BT в машине лучше, чем с носителя.
Под лучше имею в виду комфортнее.

При прочих равных в машине всегда лучше, BT всегда проще, а 360 kbps вообще не надо.

Автор: Naina Kievna 30.06.2020 - 14:43:17
Цитата (Iudushka @ 30.06.2020 - 14:17:56)

а 360 kbps вообще не надо.

+100500

Автор: Алькон 30.06.2020 - 15:04:08
Цитата (Iudushka @ 30.06.2020 - 14:17:56)

Более того, лучше брать что-то попроще, чтобы эта простота лимитировала ужас, остающийся в фонограмме.
Так моя плохая крошечная BT колонка Philips удобнее для аудиокниг, чем колонка Xiaomi, которая получше. Обе низкий сегмент цены и качества.
Наушники TWS лучше (и намного удобнее) проводных Сенхов
Простенький дк (5+1) LG лучше чем Аудио в машине (9+1). А вот книга по BT в машине лучше, чем с носителя.
Под лучше имею в виду комфортнее.


Бывает и обратная ситуация - как пример, динамики ноутбучные выдают треск, но в наушниках или колонках чуть получше это на самом деле "буумм" на низких.

По сжатию согласен, 320 ничего не дают, это overkill - только лишнее про-во занимается.

Для стерео делаю 128-192 с переменным битрейтом, в зависимости от того, что там за звуки и музыка в арранжировке. Этого более чем достаточно.

Автор: saliri 30.06.2020 - 18:20:12
Основной посыл поста в том, чтобы доказать, что основной битрейт колеблется от 56 до 128 kbps или в том, чтобы указать на компактность режимов обработки каждого из битрейтов?

Автор: f1rs1 30.06.2020 - 18:49:59
Цитата (Алькон @ 30.06.2020 - 15:04:08)
Для стерео делаю 128-192 с переменным битрейтом, в зависимости от того, что там за звуки и музыка в арранжировке. Этого более чем достаточно.

В статье цифры районе 60-80 и 128, как чуть ли не мифический потолок.
Если бы все раздачи шли в 192 - иделально было бы.

Автор: Iudushka 30.06.2020 - 23:08:39
Цитата (Алькон @ 30.06.2020 - 15:04:08)

Для стерео делаю 128-192 с переменным битрейтом,

Проблемы с переменным битрейтом никуда не ушли, на части устройств, в том числе на смартах, возникают ошибки с закладками и временем воспроизведения
Цитата (Алькон @ 30.06.2020 - 15:04:08)

динамики ноутбучные

Это за гранью добра и зла ) Самое плохое что может быть - динамики НБ )))

Автор: vicky000000 1.07.2020 - 10:58:34
Цитата (Iudushka @ 30.06.2020 - 22:08:39)

Самое плохое что может быть - динамики НБ

Зависит от НБ )

Автор: Naina Kievna 1.07.2020 - 21:11:36
Цитата (f1rs1 @ 30.06.2020 - 18:49:59)

Если бы все раздачи шли в 192 - иделально было бы.

хм..
1. не все фонограммы достойны быть в 192. не все что блестит с высоким битрейтом - золото.
Меня, например, битрейт выше 128 kbps сразу настораживает. Иду смотреть ЧХ. и вижу, что там красная цена подходящий битрейт раза в 2 ниже.
2. это где ж столько места взять? (я уже полгода не бэкаплю архивы на облака (места нет) и кое-что из исходников тут же летит в корзину (ибо слушать не буду...)
3. раньше я шипела на литресовские битрейты, а теперь я их понимаю..


Автор: Алькон 2.07.2020 - 15:05:04
Цитата (Iudushka @ 30.06.2020 - 23:08:39)

Проблемы с переменным битрейтом никуда не ушли, на части устройств, в том числе на смартах, возникают ошибки с закладками и временем воспроизведения



Верно, это старая как мир проблема c VBR - и она тянется с давних пор - и тянется, и будет тянуться, пока производители не перестанут втравлять устаревшее ПО в свои ус-ва.

Я посмотрел точней, что я использую при кодировании. Так вот - не CBR, не VBR - а ABR, который есть что-то промежуточное между вторым и первым - и использует алгоритм сжатия первого.

Когда выбирал, как кодировать, оказалось, что это оптимальный вариант - а почему - точно уже не помню, но вроде как поэтому:

https://forum.ixbt.com/topic.cgi?id=12:50247
Цитата
Цитата
Повторю: 320 кбит/с - это максимальный битрейт для MP3. То есть, его можно достичь только в режиме CBR. ABR 320 кбит/с - по сути, не бывает.

CBR лучше, если мы говорим о качестве в первую очередь?

Если мы говорим о LAME, то у него есть несколько алгоритмов сжатия. Один используется в режимах CBR и ABR, другой - в режиме VBR. Причём последние несколько лет CBR/ABR алгоритм не менялся (т.е. не улучшался). Так что... вопрос неоднозначный.


Цитата (Iudushka @ 30.06.2020 - 23:08:39)

Это за гранью добра и зла ) Самое плохое что может быть - динамики НБ )))



Да, слушают и на таком, но слушателей и их ус-ва не выбирают, и арранжировка дело тонкое - и все, конечно, не учтёшь. Мало ли что может быть - запись могут слушать в машине, в наушниках на улице или в метро, под стук колес и гул воздуха в вагоне метро.

Автор: no404error 19.07.2020 - 11:45:47
Самый яркий пример из последнего это "03. Стивен КИНГ - После выпускного.mp3" из "ID=40238".

Original : 22 685 736
SoundSlimmer : 10 882 631 - 47,97%
precomp 0.47 (для подтверждения) : 10 330 749 - 45,54%

При этом, файлы порезанные, без потерь, на кусочки около 1 минуты и сжатые MPZ(SS)/PCF, воспроизводятся в foobar2000 без заметных задержек.

Но в тесте никакие файлы никаким изменениям не подвергались. И воспроизведение этого файла требует 5-6 секунд задержки для NAS на J5005.

P.S. precomp, как и донор (packMP3), сжимает только MPEG-1 Audio Layer III. Для всех отличных сжатие практически нулевое. packMP3 просто ругается и не сжимает вообще.

Код
MPEG-1   layer III sample frequencies (kHz):  32  48  44.1
bitrates (kbps): 32 40 48 56 64 80 96 112 128 160 192 224 256 320

MPEG-2   layer III sample frequencies (kHz):  16  24  22.05
bitrates (kbps):  8 16 24 32 40 48 56 64 80 96 112 128 144 160

MPEG-2.5 layer III sample frequencies (kHz):   8  12  11.025
bitrates (kbps):  8 16 24 32 40 48 56 64


P.S.2. Преимущества precomp заключаются в том, что он сжимает не только данные mp3, но и jpeg. Но precomp использовать труднее, он медленее и, что самое важное, для 50-60% всех данных (аудиокниг в свободном доступе) он не даст никакого преимущества, поскольку они не соответствуют MPEG-1 Audio Layer III, что превращает 99% данных в тыкву.

Цитата (f1rs1 @ 30.06.2020 - 18:49:59)

В статье цифры районе 60-80 и 128, как чуть ли не мифический потолок.
Если бы все раздачи шли в 192 - иделально было бы.

В "статье" был взят нетипичный пример - постоянный непрерывный поток. Демонстрацией было низкое качество.

Абсолютно неважно каким будет битрейт, важно качество, фактическое качество, которое, как заметили выше, зависит от множества факторов.

Я хотел донести несколько пунктов:
1 - Для большинства релизов используемый битрейт - запределен.
* Основываются на рекомендациях 10-15 летней давности.
2 - Для большинства релизов используемые настройки кодера - неверны.
* Использовать -q 0 вместо -q 2 считается "пустой тратой времени", но математика демонстрирует что это не так. Возможно это не слышно, возможно это незаметно, но статистически это означает что вы тратите гигантские объемы на "пустое место".
А флеш-память (я же не ошибусь, предположив что это основной источних хранения) критична не только к операциям типа "запись"/"чтение-запись"/"запись-чтение", но и к простому хранению. HDD 30-40 летней давности вполне работоспособны, максимум требуется заменить/обновить контроллер. Но флеш-память... 1-1.5 года и там... пустота. Для SLC, которую большинство и в глаза не видело, 5-10 лет уже потолок.

Автор: f1rs1 20.07.2020 - 02:00:08
Цитата (no404error @ 19.07.2020 - 11:45:47)
Я хотел донести несколько пунктов:
1 - Для большинства релизов используемый битрейт - запределен.
* Основываются на рекомендациях 10-15 летней давности.
2 - Для большинства релизов используемые настройки кодера - неверны.

Есть банальные реалии жизни. Многие релизы в малом битрейте - плохи по качеству, а большинство в избыточном(в вашей терминологии) - хороши.
Вы уж извините, все остальное на фоне этой банальной истины(по крайней мере на данный момент и вряд ли в обозримом будущем что-то изменится) - вода. Стена воды. Водопад ваших цифр. Хотите что-то там у себя фэншуйное внедрять - флаг в руки. Я же от себя хочу просто качественного варианта аудиокниг. "ВОт такой я человек"(с)

Автор: Алькон 20.07.2020 - 23:51:44
Цитата (f1rs1 @ 20.07.2020 - 02:00:08)

Вы уж извините, все остальное на фоне этой банальной истины(по крайней мере на данный момент и вряд ли в обозримом будущем что-то изменится) - вода. Стена воды. Водопад ваших цифр. Хотите что-то там у себя фэншуйное внедрять - флаг в руки. Я же от себя хочу просто качественного варианта аудиокниг.


Тут скорее речь не о самой аудиокниге, а ее представлении - формате ее сжатия - mp3.

Может, mp3 скоро уйдет как стандарт и на спичках больше не будут экономить. Допустим, такое случится лет через 15 - и будет что-то еще для аудиокниг - другой формат. Но пока mp3 - и без вариантов. И верно, что за последние лет 15 для аудиокниг тоже кое-что поменялось - по mp3.

Цитата (no404error @ 19.07.2020 - 11:45:47)

А флеш-память (я же не ошибусь, предположив что это основной источних хранения) критична не только к операциям типа "запись"/"чтение-запись"/"запись-чтение", но и к простому хранению. HDD 30-40 летней давности вполне работоспособны, максимум требуется заменить/обновить контроллер. Но флеш-память... 1-1.5 года и там... пустота. Для SLC, которую большинство и в глаза не видело, 5-10 лет уже потолок.


Жесткие диски пока никуда не делись - и лет 15 еще будут точно. А когда файл заливается куда-то в чужое облако-хранилище яндекс или гугла - потребителю сервиса не так важно, какие там носители. Для него это прозрачно.

Другое дело - общий объем записей.
Одно дело если у вас пара рассказиков на час времени, другое дело когда время аписи часов сорок. И когда таких записей не одна - возникают дополнительные раасходы, а это деньги - хранение денег стоит, и времени по переисыванию.

Так что в этом случае оптимальное сжатие имеет значение.

Вопрос тут только один - как определить
Цитата (no404error @ 19.07.2020 - 11:45:47)

Абсолютно неважно каким будет битрейт, важно качество, фактическое качество, которое, как заметили выше, зависит от множества факторов.



вот это 'фактическое качество'?

На глазок? Основываясь на том, сколько в исходнике дорожек и стерео они или моно и что за звуки - их частотные диапазоны. Положим, есть у меня такая информация - и исходник несжатый есть. А если нет? На слух? Вот здесь это у меня уже ускользает.

no404error, если будет время, посмотрите одну из последних записей, которую я жал в mp3. http://abook-club.ru/audiobook=58438/
Там исходники были хорошие - с оригинальной музыкой, написанной композиторами - и я не стал жать сильней, решил, что качество ухудшится.
Но, может, можно и сильней сжать без значительных потерь?

Автор: no404error 25.07.2020 - 18:34:04
Цитата (Алькон @ 20.07.2020 - 23:51:44)
если будет время

Время нашлось )

Вывод: ~15%.
Развернутый вывод: Не опираясь на качество исходной аудиозаписи, но используя исключительно математический подход... Это заметно ниже среднестатистического.

Пояснение: Тут нет перерасхода битрейта и/или каких-то неверных параметров. Исходный источник (простите за тавтологию) был закодирован более-менее адекватно.

p.S. Но, есть множество нюансов :/


p.p.S. Ребята/девчата. Простите. Очень много работы. Появляюсь эпизодически. Капаю на мозги своими правками. Простите. В данный период времени аудиокниги это хобби.

Автор: Алькон 26.07.2020 - 11:45:23
Цитата (no404error @ 25.07.2020 - 18:34:04)

Время нашлось



Спасибо большое, no404error.

Цитата (no404error @ 25.07.2020 - 18:34:04)

p.S. Но, есть множество нюансов :/


Ньюансы вот и интересны. Тут между Сциллой и Харбдой по каждой записи, они ж делаются не на месяцы, а на года, и, если повезет, даже десятилетия.

Цитата (no404error @ 25.07.2020 - 18:34:04)

Простите. В данный период времени аудиокниги это хобби.


Да все понятно, оно тут у всех так. Будет время - пишите, интересны ваши заключения.

Автор: no404error 27.07.2020 - 11:39:11
Цитата (Алькон @ 26.07.2020 - 11:45:23)

Ньюансы вот и интересны. Тут между Сциллой и Харбдой по каждой записи, они ж делаются не на месяцы, а на года, и, если повезет, даже десятилетия.

Чисто технологически. SoundSlimmer это "по-сути" "рекомпрессор", что, в данном случае, подразумевает оптимизацию сжатия для очень старого стандарта. 20-30 лет назад ADPCM был потолком качества. Соотношение размер/качество имело критическое значение. 99% компов того времени только его и воспринимали без хрюканья.

Fraunhofer создали референсный кодер. Страшный и ужасный, но с запасом оптимизации. Вопрос в том, что он, как и большинство стандартов, был разработан с запасом на аппаратные реализации, их простоту и долговечность.

MP3 нельзя сжать архиваторами. Это нормально. Архиватор рассматривает поток как есть. Рекомпрессор разбирает исходный файл на составляющие и рассматривает их отдельно.

Для mp3 минимальной единицей хранения информации, которую можно изменить без потери исходных данных, является фрейм. Кодирование информации внутри "фрейма" просто, но неоптимально, даже на момент его создания.


Просто представьте. Техинфо представлена следующим видом:
Тип 1: 0 или 1, но на это потрачен целый байт.
Тип 2: 0-255, тут ровно байт.
Тип 3: 0-4, и снова целый байт.
...
И так очень-очень много. Фактически (нереально, не встречал, но вполне возможно) потратить на фрейм можно более 512 килобайт, большинство будет мусорные данные.

> Тут полное пространство для оптимизации/сжатия.

Далее.

Dual Stereo. Встречается сплошь и рядом для записей начла 200х. Это те самые варианты где SoundSlimmer сжимает вдвое и/или больше. Моно источник и/или незначительная часть стерео (как правило в начале) и, как результат - сжатие в 50%.

Перерасход битрейта.
MP3 кодирует "верх" исключительно исходя из математических предсказаний. В результате и для JointStereo работает "сжатие". А оно не "сжатие" вообще. "Верхи" это вообще почти эмпирическое значение. Для mp3 все что выше 12/14kHz это чистая "сахарная вата". Вкусно, но непонятно. Оно очень похоже для всех видов. Зная шаблон можно "сжать", а потом "восстановить" 1:1, то, чего и в природе не было, но хомячки будут рады.

Вывод:
1. Оптимальные характеристики кодирования на 99.9% зависят от исходных данных.
2. Использование VBR приветствуется.
3. Использование VBR без максимальных настроек качества - не приветствуется вообще.
4. Использование JS/DS практически бесполезно. Кроме спектаклей.

P.S. Интересующимся. Рекомпрессия/сжатие данных прошлых поколений это актуальная тема. Иногда нет возможности получить другие данные кроме имеемых. Лучше сохранить то что есть. К примеру MPEG-2 (TS) можно сжать до 50% от оригинала.

Автор: Алькон 27.07.2020 - 20:32:50
Цитата (no404error @ 27.07.2020 - 11:39:11)

MP3 кодирует "верх" исключительно исходя из математических предсказаний. В результате и для JointStereo работает "сжатие". А оно не "сжатие" вообще. "Верхи" это вообще почти эмпирическое значение. Для mp3 все что выше 12/14kHz это чистая "сахарная вата". Вкусно, но непонятно. Оно очень похоже для всех видов. Зная шаблон можно "сжать", а потом "восстановить" 1:1, то, чего и в природе не было, но хомячки будут рады.


Это забавно. А что вы скажете про вот это утверждение в Вики по поводу Joint Stereo:

Цитата
Some early MP3 encoders didn't make ideal decisions about what mode to use from frame to frame in joint stereo files, or how much bandwidth to allocate to encoding the side channel. This led to a widespread but mistaken belief that an abundance of M/S frames, or the use of joint stereo in general, always negatively impacts channel separation and other measures of audio quality. This is not an issue with modern encoders. Modern, optimized encoders will switch between mid-side coding or simple stereo coding as necessary, depending on the correlation between the left and right channels, and will allocate channel bandwidth appropriately to ensure the best mode is used for each frame.


Не знаю, что там они имеют в виду под "some early", однако интересно, что есть сейчас для последних версий lame - в этом плане.

Ситуация, что в одном проекте может быть и дорожка с голосом моно, и дорожка стерео для заставки и концовки, не так уж редка. Так вот - сейчас тип каналов для такого варианта можно выбрать Auto, Jount Stereo, Forced Joint Stereo и Simple. Но что лучше - по качеству, а не по сжатию?

Цитата (no404error @ 27.07.2020 - 11:39:11)

Вывод:
1. Оптимальные характеристики кодирования на 99.9% зависят от исходных данных.
2. Использование VBR приветствуется.
3. Использование VBR без максимальных настроек качества - не приветствуется вообще.
4. Использование JS/DS практически бесполезно. Кроме спектаклей.



Спасибо, no404error, прочитал с интересом.

А имеет ли какой-то смысл крутить параметры "Управление битрейтом" - устанавливать нижнюю границу и задавать "верх" поменьше, раз он всё равно эмпирически выбирается как угодно - так может, лучше задать ниже плато и сэкономить на все этом, раз оно не влияет?

И имеет ли смысл выбирать рукми частоту сэмплинга - ставить ее поменьше, раз, как вы говорите, что всё, что выше 14Hz бесполезно.

Автор: no404error 27.07.2020 - 21:42:48
Все остальные вы видимо проигнорировали...

Типичный фрейм может быть сжат.

Автор: f1rs1 27.07.2020 - 21:47:32
Цитата (Алькон @ 27.07.2020 - 20:32:50)
И имеет ли смысл выбирать рукми частоту сэмплинга - ставить ее поменьше, раз, как вы говорите, что всё, что выше 14Hz бесполезно.

Алькон, кто вам мешает закодировать различные варианты и послушать самому на вашей же технике?

Разница в верхах 96 и 192 слышна на музыке в lame и голосах с широкими возможностями. Если сравнивать 128 и 192 - зависит от материала. Включите оркестровую музыку и сами все услышите. Сбивается в кашу или нет. Мне лично этого достаточно. А как там алгоритм работает, что и почему делает и что думают некие спецы в интернетах - любопытно, конечно, но слушать же мне. Скажите: зачем вам мнение кого-то, если они слушать за вас не станут?
Понимаю релизеры принимают решение - им просто раздавать, но вам зачем?

Автор: no404error 27.07.2020 - 22:32:16
Разница будет 1:1.

SoundSlimmer восстанавливает исходные данные в виде "bit-perfect", что означает что данныые будут востановлены бит-в-бит.
Добавлено: [mergetime]1595878457[/mergetime]
Цитата (f1rs1 @ 27.07.2020 - 21:47:32)

Скажите: зачем вам мнение кого-то, если они слушать за вас не станут?
Понимаю релизеры принимают решение - им просто раздавать, но вам зачем?

Размер. 25-50% экономии объема.

P.S. Лично я пытаюсь создать геноголоса. Я говорил об этом ранее, говорю и сейчас. Исаев, Клюквин, Заборовский.

Я создал Заборовского и Клюквина где-то на 50%, Исаева почти на 90%.

Автор: f1rs1 27.07.2020 - 23:40:49
Цифры - ясные и понятные. Почти рекламные. С качеством - увы не стыкуются.
Про геноголоса - это к РЕН-ТВ.
Технологии, конечно, не стоят на месте, но пока что-то кто-то где-то создаст(и то пока не факт в ближайшей перспективе уж точно) я хочу слушать книги в максимально возможном качестве.

Такое ощущение, что я веду речь о каких-то барских замашках в то время, как все в едином порыве бросают все силы на постройку очередной утопии - тут не излишков! Как-то не вдохновляет.

Мне кажется, если кому-то не купить пару жестких дисков для того чтобы дополнить коллекцию аудиокниг, а требуется 22 диска, то стоит задуматься, а по силам ли ему все это прослушать. Может быть речь идет о банальной жабке. Так если так - можно коллекционировать с тем же успехом цифровые текстовые книги. Ну, правда ни один супер-пупер mp3 кодек не сожмет так чтобы конкурировать с архивированием какого-нибудь fb2. А если первые не будут слушаться, а вторые читаться, то проблема нет - не все ли равно, чем диски забивать=))

Автор: Вася с Марса 29.07.2020 - 14:49:12
Цитата (no404error @ 27.07.2020 - 21:32:16)

Лично я пытаюсь создать геноголоса

а?

Автор: vicky000000 29.07.2020 - 15:08:27
Наверное, речь идет о голосах для синтезатора речи.

Автор: Алькон 31.07.2020 - 17:18:24
Цитата (no404error @ 27.07.2020 - 21:42:48)

Все остальные вы видимо проигнорировали...

Типичный фрейм может быть сжат.


Видимо не понял. Да и сейчас тоже не очень понятно - вот типичный фрейм - чего? Типичный фрейм вообще при сжатии mp3, типичный фрейм большинства записей mp3 с несколькими дорожками JointStereo - или что?

Не подумайте что придираюсь - мне просто не совсем ясно, о чем речь.

Цитата (f1rs1 @ 27.07.2020 - 21:47:32)

Алькон, кто вам мешает закодировать различные варианты и послушать самому на вашей же технике?


Конечно, кодирую, слушаю - это так. Но раз разговор зашел - а вот не всегда слышу разницу, хотя наушники вроде бы ничего. И вопрос здесь - а есть ли она на самом деле или это значения не имеет и мое воображение?

Цитата (f1rs1 @ 27.07.2020 - 21:47:32)

Разница в верхах 96 и 192 слышна на музыке в lame и голосах с широкими возможностями. Если сравнивать 128 и 192 - зависит от материала. Включите оркестровую музыку и сами все услышите. Сбивается в кашу или нет. Мне лично этого достаточно. А как там алгоритм работает, что и почему делает и что думают некие спецы в интернетах - любопытно, конечно, но слушать же мне. Скажите: зачем вам мнение кого-то, если они слушать за вас не станут?
Понимаю релизеры принимают решение - им просто раздавать, но вам зачем?


Как зачем - я ведь делаю, у меня - исходники, которые я жму - и здесь, понятно, можно и так и этак - и если надо ехать, так поеду - а не шашечки.

А что вы говорите, что слышна разница в верхах 96 и 192 - так я согласен, слышна, но ровно также слышна разница между 96 и 110 - потому что здесь при преобразовании в mp3 происходит обрезание по частотам - с 44100 до 32000.

А вот разница между 110 и 192 уже не так очевидна - потому как обрезания по частотам не происходит. И где на слух заканчивается мое воображение и действительно появляется разница - это мне и не очень понятно.

Вот, сейчас новый рассказ делаю - Марк Твен "Людоеды на железнодорожном поезде", хотите послушать первые 4 минуты рассказа и оценить качество и варианты сжатия и записи?

Код
https://yadi.sk/d/PVx5GrYSFbUuaw


В архиве 94 Mb - 5 вариантов mp3, плюс добавил туда исходник и три входящие в него дорожки, можете сами оценить качество каждой на вашем оборудовании.

Автор: no404error 31.07.2020 - 21:31:59
Цитата (vicky000000 @ 29.07.2020 - 15:08:27)
Наверное, речь идет о голосах для синтезатора речи.

Вы правы. И это жесть как трудно. Я пока только календарь и часы осилил.

Цитата (Алькон @ 31.07.2020 - 17:18:24)

Видимо не понял. Да и сейчас тоже не очень понятно - вот типичный фрейм - чего? Типичный фрейм вообще при сжатии mp3, типичный фрейм большинства записей mp3 с несколькими дорожками JointStereo - или что?

Да, любой "фрейм" mp3. Не большинства, в всех. Без вариантов.

Просто вам, в догонку. Каждый "фрейм" содержит данные о всех характеристиках данных. Для 99.(9)% эти данные одинаковы для всего файла. Но до 16 байт на каждый фрейм тратятся на эти данные. Это имеет значение для потоковых данных, которые никогда не были реализованы. Но просто представьте экономию в 16 байт на каждый фрейм.

"Фрейм" это 1152 "семпла", что составляет "1152 поделить на частоту дискредитации и умножить на 1000".

Это в "железе" вообще очень зависимая характеристика, поскольку говорит о необходимом предбуфере. Например в APPSTORE это определяет максимальный размер M4B (как собственно любого файла в MP4 контейнере).

Автор: vicky000000 31.07.2020 - 21:53:35
Цитата (no404error @ 31.07.2020 - 20:31:59)

Это имеет значение для потоковых данных, которые никогда не были реализованы

И это же делает формат очень робастным: можно всякий мусор добавить в виде каких угодно тэгов, можно играть с любого места. Нашел сигнатуру, и вперед!

Автор: Алькон 2.08.2020 - 21:26:22
Цитата (no404error @ 31.07.2020 - 21:31:59)

Да, любой "фрейм" mp3. Не большинства, в всех. Без вариантов.

Просто вам, в догонку. Каждый "фрейм" содержит данные о всех характеристиках данных. Для 99.(9)% эти данные одинаковы для всего файла. Но до 16 байт на каждый фрейм тратятся на эти данные. Это имеет значение для потоковых данных, которые никогда не были реализованы. Но просто представьте экономию в 16 байт на каждый фрейм.

"Фрейм" это 1152 "семпла", что составляет "1152 поделить на частоту дискредитации и умножить на 1000".


Спасибо, no404error. Эта информация полезная, нужная, но ее практическое применение лежит несколько в другом направлении, которое меня сейчас интересует.

Но я уже понял, как решить эту задачу.

На самом деле тут надо заходить с другой стороны - плясать не от того, с какими настройками преобразовывать в mp3, а идти от людей и их слуховых возможностей.

Сперва важно понять, какие частоты действительно слышат подавляющее большинство слушателей, а затем, исходя из их ограничений, и подбирать параметры сжатия mp3.

Тест слуховых возможностей, я нашел:
Код
https://www.youtube.com/watch?v=Dbvs8V-13BI


У меня полностью пропадает звук после 18 KHz, но этот порог еще привязан и к возрасту, чем человек старше, тем ниже верхний порог.

А вот тест с привязкой частот к возрасту:
Код
https://www.youtube.com/watch?v=-E1SDl9vLo8


Можно бы начать подбирать оптимальные параметры mp3, но сперва неплохо посмотреть, что у нас с демографией в России и поискать статистические опросы - сколько людей в России слушает аудиокниги и каков их возраст?

Никто про такие опросы не слышал?





Автор: no404error 3.08.2020 - 00:25:34
Цитата (vicky000000 @ 31.07.2020 - 21:53:35)

И это же делает формат очень робастным: можно всякий мусор добавить в виде каких угодно тэгов, можно играть с любого места. Нашел сигнатуру, и вперед!

И это сделало возможным взлом плееров одного покойного производителя ;)
Цитата (Алькон @ 2.08.2020 - 21:26:22)

Никто про такие опросы не слышал?

Audible (который теперь Amazon принадлежит) проводил для англоязычных. На основе чего и сформировал свои ".aa" с потолком в 22kHz (11.050kHz). Но англоязычная-американская это очень узкий вариант опроса. Даже не беря русский сегмент, испанцы плюются.

Исходя из моего опыта, оптимальным видится 32kHz (который, для которого большинство lossless, режет в районе от 13.5 до 14 kHz). Вероятно нужно искать где-то в этом диапазоне, вне зависимости от кодека.

Это не означает что нужно "замучить" MP3 в попытке воспроизвести эти частоты. Скорее всего это приведет к перерасходу битрейта на пустоту.

P.S. Для каждого конкретного кодека есть свои варианты. К примеру OPUS больше всего нравятся данные в 44.1, несмотря на то, что он считает стандартным выходным 48.

Автор: f1rs1 3.08.2020 - 11:15:31
Цитата (no404error @ 3.08.2020 - 00:25:34)
Это не означает что нужно "замучить" MP3 в попытке воспроизвести эти частоты. Скорее всего это приведет к перерасходу битрейта на пустоту.

Про какую вы все пустоту говорите?
Скажем Игорь Князев читает с упором в средние, а то и на высоких голосить начинает. Ладно, допустим, можно так подобрать и ужать по верхам, что не особо будет заметно, но как быть с музыкальными вставками перед и в конце глав. С заглавной темой перед книгой и завершающей? Или вы из тех, кто одобряет современную тенденцию пускать титры после фильма для галочки с адской скоростью, да еще и на половине экрана?

Скажите, подушка безопасности для вас в авто - "пустота" или необходимый элемент, который при необходимости нельзя будем заменить?

Прямо подход в стиле: деды терпели и вы терпите! Вот сколько читаю эту и аналогичные темы _никто не может внятно ответить "зачем". Кроме банального желания захапать себе все возможные аудиокниги.

Есть лишь один ответ на этот вопрос из тех, что я нашел: решение для тех, кто слушает книги с увеличением скорости. Там уж действительно не до изысков. Плюс особенности данного режима прослушивание наоборот требуют парадоксального в чем-то некого ухудшения для конечного улучшения и четкого разбора звука.
Помните Незнайку на Луне? Их когда на остров дураков собрались везти там многие коротышки заплакали: как же мы теперь аудио с вырезанными частотами слушать жить будем? А тут вылезает какой-то коротышка и бодро всех успокаивает:
"Сыты будем – как-нибудь проживем. Не надо отчаиваться! Ведь и на Дурацком острове коротышки живут "(с) И все успокоились...

Автор: vicky000000 3.08.2020 - 12:13:51
Не очень понимая, о какой частоте вы все время говорите. Если сказано, что обрезаят на 14 KHz, это не значит, что вам не дадут насладиться ля шестой октавы, которой все равно нет, и Бог с ней. Это значит, что в Фурье образе сигнала обрезают старшие гармоники, меняя, тем самым, тембр звука.

Автор: Алькон 3.08.2020 - 23:29:30
vicky000000, no404error говорил про частоту дискретизации, а я про те частоты, которые большинство людей могут услышать.

Понятно, что обрезаются, и понятно, что не получится насладиться.
Но. Какие частоты режутся - и при каких настройках? Какие настройки будут оптимальные, чтобы сжимать и не менять тембр?

Цитата (f1rs1 @ 3.08.2020 - 11:15:31)

Ладно, допустим, можно так подобрать и ужать по верхам, что не особо будет заметно, но как быть с музыкальными вставками перед и в конце глав. С заглавной темой перед книгой и завершающей?


Меня, как раз, f1rs1, и интересует как лучше именно такие аудиокниги сжимать - с музыкальными вставками и шумами. И какие настройки по сжатию для таких книг оптимальны.

Цитата (no404error @ 3.08.2020 - 00:25:34)

Audible (который теперь Amazon принадлежит) проводил для англоязычных. На основе чего и сформировал свои ".aa" с потолком в 22kHz (11.050kHz). Но англоязычная-американская это очень узкий вариант опроса. Даже не беря русский сегмент, испанцы плюются.


Нашел. "Исследование верхней границы слуха"
Код
https://electroclub.info/other/high-frequency-1/


"Исследовались возможности слуха на частотах 13-23 кГц с шагом 1 кГц, и уровнями 90, 100 и 110 дБ. Исследовался слух студентов возрастом 20-21 год, как юношей, так и девушек. Всего было исследовано 34 человека".

Выборка небольшая, но сделано исследование качественно и затрагивает те моменты, которые как раз и могут помочь выбрать оптимальные параметры по сжатию.

Вы прочитайте статью целиком - вам будет интересно.

Для моей же задачи - вот информация, которая имеет значение:

user posted image
Рис. 3. Распределение верхней границы слуха для различной громкости сигнала. По вертикальной оси – количество человек.


user posted image
Рис. 4. Обобщенное распределение верхней границы слуха в процентах от количества участников теста.


Цитата
Главное. Мало кто слышит сигнал частотой 20 кГц при уровне сигнала 90 дБ. В среднем частотная граница составляет 17…18 кГц. А теперь внимание! Тестовый уровень громкости 90 дБ – это уровень непосредственно высокочастотного сигнала. В реальности все не так. Мы слушаем музыку при уровне громкости 70…90 дБ (например, для меня уровень громкости 90 дБ – это громко, и так я слушаю редко, только такую музыку, которую хочется сделать погромче). То есть, уровень 90 дБ – это весь музыкальный сигнал, сумма всех составляющих его частот. Из них высокие частоты составляют лишь малую часть. То есть звуковое давление высокочастотных составляющих гораздо меньше, чем в проведенном эксперименте. И верхняя граница слышимости тоже находится гораздо ниже, чем в проведенных экспериментах (см. рис. 1). То есть в реальной музыке при нормальной громкости большинство из нас не слышит частоты выше где-то 16 кГц. Выходит, что частоты 18…20 кГц в реальном звуке мы скорее всего не слышим.



Т.е. оптимальными настройками будут те, при которых при кодировании будут резаться >16000 Гц.
И даже немного меньше - потому что аудиокниги слушаются большинством на громкости, чуть меньшей 70 дБ, а также потому, что исследовался слух студентов, 20-21 год, а, значит, слух большинства слушателей будет еще чуть хуже.

Значит, оптимальное значение обрезания частот лежит в районе где-то 15500 Гц - и это с запасом.

Автор: vicky000000 4.08.2020 - 00:02:08
Цитата (vicky000000 @ 3.08.2020 - 11:13:51)

которые большинство людей могут услышать.

Так я про это и говорю: не может услышать чистую частоту =/= не может отличить разницу в тембре приходяшую от старших гармоник. Я не знаю точно, как работает ухо, но не уверен, что оно есть Фурье преобразователь в чистом виде.

Автор: Iudushka 4.08.2020 - 17:55:36
Цитата (no404error @ 31.07.2020 - 21:31:59)

И это жесть как трудно. Я пока только календарь и часы осилил.

Извините, оффтоп. А это нужно?
Я большой поклонник синтезаторов, но в часах и календаре их использовать не вижу смысла. В часах родной самсунговский, в календаре гуглевский. Вообще неудобно. ИМХО.

Добавлено: [mergetime]1596552950[/mergetime]
Хотя я и голосовыми ассистентами не пользуюсь.
И вообще синтез только для книг (
К слову характеристики звука при синтезе по умолчанию отвратительны

Автор: Алькон 4.08.2020 - 23:31:49
Цитата (vicky000000 @ 4.08.2020 - 00:02:08)

Так я про это и говорю: не может услышать чистую частоту =/= не может отличить разницу в тембре приходяшую от старших гармоник. Я не знаю точно, как работает ухо, но не уверен, что оно есть Фурье преобразователь в чистом виде.


Точно нет. Вместо преобразований Фурье у нас просто спираль, изогнутая и постепенно сужающаяся, и давление на тончайшие волоски, которые в этой спиральке в разных ее участках раздражает нервные импульсы.


Добавлено: [mergetime]1596574403[/mergetime]
user posted image
На этом графике - несжатый исходник - спектр голос чтеца (моно, 44100 кГц) и еще две дорожки стерео - с шумовыми эффектами(гудки паровоза, шумы колес на стыках рельс, выпускание пара, свистки) и музыка(банджо).

А теперь подробности по обрезанию частот при разных настройках качества mp3.

user posted image
Спектр после преобразования в mp3 320 kbps.

user posted image
Спектр после преобразования в mp3 277 kbps.

user posted image
Спектр после преобразования в mp3 236 kbps.

user posted image
Спектр после преобразования в mp3 236 kbps.

user posted image
Спектр после преобразования в mp3 205 kbps.

user posted image
Спектр после преобразования в mp3 173 kbps.

user posted image
Спектр после преобразования в mp3 142 kbps.

user posted image
Спектр после преобразования в mp3 117 kbps.

user posted image
Спектр после преобразования в mp3 107 kbps.

user posted image
Спектр после преобразования в mp3 107 kbps.

user posted image
Спектр после преобразования в mp3 91 kbps.

Выводы.

Учитывая, что для голоса и музыки при нормальной громкости большинство из нас не слышит частоты выше где-то 16 кГц, то для большинства аудиокниг с несколькими дорожками оптимально кодировать их в mp3 с потоком 128 Kbps. И это уже с большим запасом.

Кодирование же любых, даже самых наилучших исходников с большим, чем 140 Kbps потоком, является избыточным и генерирует лишние мегабайты и гигабайты бесполезной нагрузки.

Автор: f1rs1 5.08.2020 - 10:50:16
Вас не смущает, что (помимо отсечения частот) есть отличия в графиках?

Автор: Алькон 5.08.2020 - 17:44:49
Если не учитывать то, что на некоторых графиках разный масштаб, - это может быть.

Для анализа взяты первые 30 секунд в каждом из файлов - начало, где есть и голос, и шумы, и музыка. Ес-но, 30 секунд выделялись руками - и где-то выделялось чуть меньше, где-то чуть больше.

Все варианты mp3 можете взять вот тут
Код
https://yadi.sk/d/NbZ5zxiXSfrXEA


и сами посмотреть, послушать и даже сжать (там и исходник плюс отдельно каждая дорожка).


Автор: Алькон 6.08.2020 - 14:55:35
Цитата

Учитывая, что для голоса и музыки при нормальной громкости большинство из нас не слышит частоты выше где-то 16 кГц, то для большинства аудиокниг с несколькими дорожками оптимально кодировать их в mp3 с потоком 128 Kbps. И это уже с большим запасом.

Кодирование же любых, даже самых наилучших исходников с большим, чем 140 Kbps потоком, является избыточным и генерирует лишние мегабайты и гигабайты бесполезной нагрузки.


Я поторопился с выводами. Посмотрев получившиеся файлы mp3 разными программами и их средствами анализа mp3, ясно, что для таких случаев, как несколько дорожек вместе, битрейта 128 будет недостаточно.

Вот экран программы EncSpot Pro с теми же данными:

user posted image

Как видно на этой картинке, граница между средним и хорошим качеством пролегает где-то около 140 Kbps.

А вот вывод mp3packer - для трех файлов в этом диапазоне:

Код
D:\Марк Твен - Людоеды на железнодорожном поезде>mp3packer -i "Марк Твен - Людоеды на железнодорожном поезде-117-кбит-с.mp3"

INFO:
MPEG1 layer 3
9426 frames
44100 Hz
38.281250 frames per second
246.230204 seconds
3623117 bytes in file (117.714787 kbps)
3622190 bytes in MP3 frames (117.684669 kbps) = current bitrate
26228826 bits of payload data (106.521562 kbps)
3282738 bytes of payload data (106.655900 kbps)
33078 bits wasted from partially-full bytes (0.134338 kbps)
3622074 bytes of MP3 data (117.680900 kbps) = minimum bitrate possible
116 bytes of padding (0.003769 kbps)
927 bytes outside MP3 frames (0.030118 kbps)
0 sync errors
Bitrate distribution:
  32: 1,0
  56: 1,0
  64: 7,0
  80: 203,0
  96: 2274,0
 112: 4558,0
 128: 1240,0
 160: 622,0
 192: 316,0
 224: 174,0
 256: 29,0
 320: 1,0
Largest frame uses 6550 bits = 819 bytes = 250.742188 kbps
Smallest bitrate for CBR is 192

D:\Марк Твен - Людоеды на железнодорожном поезде>mp3packer -i "Марк Твен - Людоеды на железнодорожном поезде-142-кбит-с.mp3"

INFO:
MPEG1 layer 3
9426 frames
44100 Hz
38.281250 frames per second
246.230204 seconds
4376137 bytes in file (142.180348 kbps)
4372992 bytes in MP3 frames (142.078167 kbps) = current bitrate
32235053 bits of payload data (130.914293 kbps)
4033550 bytes of payload data (131.049723 kbps)
33347 bits wasted from partially-full bytes (0.135430 kbps)
4372886 bytes of MP3 data (142.074723 kbps) = minimum bitrate possible
106 bytes of padding (0.003444 kbps)
3145 bytes outside MP3 frames (0.102181 kbps)
0 sync errors
Bitrate distribution:
  32: 1,0
  64: 1,0
  80: 14,0
  96: 217,0
 112: 2140,0
 128: 3427,0
 160: 2578,0
 192: 526,0
 224: 296,0
 256: 174,0
 320: 52,0
Largest frame uses 8155 bits = 1020 bytes = 312.183594 kbps
Smallest bitrate for CBR is 256

D:\Марк Твен - Людоеды на железнодорожном поезде>mp3packer -i "Марк Твен - Людоеды на железнодорожном поезде-173-кбит-с.mp3"

INFO:
MPEG1 layer 3
9426 frames
44100 Hz
38.281250 frames per second
246.230204 seconds
5336500 bytes in file (173.382466 kbps)
5333355 bytes in MP3 frames (173.280285 kbps) = current bitrate
39918337 bits of payload data (162.117954 kbps)
4993908 bytes of payload data (162.251679 kbps)
32927 bits wasted from partially-full bytes (0.133724 kbps)
5333244 bytes of MP3 data (173.276679 kbps) = minimum bitrate possible
111 bytes of padding (0.003606 kbps)
3145 bytes outside MP3 frames (0.102181 kbps)
0 sync errors
Bitrate distribution:
  32: 1,0
  80: 2,0
  96: 27,0
 112: 248,0
 128: 1137,0
 160: 4983,0
 192: 1853,0
 224: 524,0
 256: 307,0
 320: 344,0
Largest frame uses 8840 bits = 1105 bytes = 338.406250 kbps
Smallest bitrate for CBR is 320



Автор: f1rs1 6.08.2020 - 16:00:00
И вот мы снова вернулись к началу и уместно процитировать самого же себя:
"Если бы все раздачи шли в 192 - идеально было бы."

Автор: Алькон 6.08.2020 - 18:42:34
Верхи и в 320 kbps зарезаются, если сравнивать с wav.
Отсечка идет по частотам такая:

142 abr - 17500 Гц
160 cbr - 17500 Гц
173 abr - 18600 Гц
192 cbr - 18600 Гц
205 abr - 19400 Гц
236 abr - 19700 Гц
277 abr - 20500 Гц
320 cbr - 20500 Гц.

Здесь видно, что vbr(abr) эффективней, чем cbr. Потому, что поток перерапределятеся и кодируется для Jount Stereo эффективней.
Но услышат верхи люди для mp3 192, 160 и 142?
Вопрос.

Я уже не ощущаю разницы между 142, 173 vbr(abr) и 192(cbr).

Автор: Алькон 9.08.2020 - 17:34:14
Немного устрашавшая статья по mp3 Михаила М. Федотоваhttps://www.ixbt.com/multimedia/mp3_new.html
Устаревшая по рассматриваемому ПО, но не по основам.

Полезного я в ней вычитал вот что:

Цитата
В общем же из результатов всех известных мне тестов можно сделать следующие выводы. Во-первых, битрейт 256kbs для абсолютного большинства пользователей совершенно достаточен. Но для уверенности в качестве все же необходимо использовать 320kbs, что я сам и делаю. При этом получаем в четыре с половиной раза меньший файл, что приятно. Во-вторых, MP3 160kbs… 192kbs в большинстве случаев вполне достаточны для хранения вспомогательного аудио на компьютере, например, для использования в компьютерных играх. Иначе говоря, для случаев, когда внимание отвлечено.


То, о чем автор говорит во-первых, не очень важно, так речь идет прослушивании музыки на высококачественном оборудовании, это оставлено цитате для понимания мысли.

Интересно второе, в аудиокниге основное внимание идет на речь, а не музыку, следовательно, ситуация похожая - внимание тоже отвлечено.

Похожая - не не совсем, потому как картинки и клавиатуры нет, человек только слушает и слышит одновременно и речь и музыку.
А похожее в том, что основное внимание нацелено на то, чтобы понять, скажет диктор, всё же прочее - шумы и музыка на этом внимание меньше концентрируется.

Поток 160 kbps и 192 kbps cbr - это приблизительно то же качество, что 142 kbps и 173 kbps abr.

Автор: no404error 21.08.2020 - 15:18:33
Цитата
Как видно на этой картинке, граница между средним и хорошим качеством пролегает где-то около 140 Kbps.

"Как видно на этой картинке" соотношение между "ничем" и "чем-то" заслуживает чего-то в виде "зеленой полосочки".

На hydrogenaudio, audiophilesoftware, soundexpert, encode_ru... И прочих я доказывал что это малозначимая величина.

P.S. ENCSPOT объективно показывает изменения исключительно в рамках единственного кодека/кодера. Я демонстрировал это на Hydrogenaudio неоднократно.

Автор: Алькон 25.08.2020 - 20:13:36
no404error, понятно, что "зелёная полосочка" это условный показатель условной хорошести. И хорошести для чего и кого?

Есть старая статья на эту тему - "Рекомендации по использованию стандарта сжатия mp3 на практике",
https://www.ixbt.com/multimedia/mp3comp-faq2.html
а конкретно, что мне в ней показалось разумным, это пункт "Из каких соображений нужно исходить при выборе параметров сжатия?".

Лучше и четче сформулировать ответы на эти вопросы сложно наверное.

Автор: no404error 26.08.2020 - 18:50:33
Алькон
Цитата
Лучше и четче сформулировать ответы на эти вопросы сложно наверное.

В идеале...

В идеале есть ИСТОЧНИК-КОДЕР-ЦЕЛЬ и ЦЕЛЬ-ДЕКОДЕР-ИСТОЧНИК. Но, практически, всё подсемейство MPEG подразумевает возможность неполного декодирования, как на уровне контейнера (ошибки передачи), так и на уровне кодера/декодера (сложность).

1. Уровень контейнера. Он был, он есть и он будет. Его спользуют потоковые сервисы передачи данных. Самая примитивная "внешняя" реализация - MPEG-TS. До 50% пакетов тратятся на сохранение данных.
2. Уровень кодера/декодера. Это пришло изначально с MP1L1. Не знаю кто был этот конкретный человек, но он был определенно гений. Все форматы MPEG можно декодировать "не полностью" получая более-менее адекватный результат. Кстати, формат SVCD полностью основан на этом принципе.

Люди из 90х использовавшие VCD/SVCD на компах, разве вы видели на своих экранах надписи вроде "Read Error!"? Нет. Именно потому, что для декодера это не имело значения. Ну зеленые квадраты покажем, вместо реальных макроблоков, и что?

Xing Mpeg Decoder демонстрировал эту концепцию опцией "FAST" - неполное декодирование.

486 компы не могли тянуть MP3 в 128kbps 44.1kHz Stereo? Дадим им 22.05kHz Mono и... вуаля - реалтайм!

Вы серьезно? Стандарт "MP3" о частоте говорит только в контексте количества семплов. Именно так я написал библиотеку ускоряющую и замедляющую воспроизведение без потери качества. Просто можно "отбрасывать" часть данных, для определенных случаев, а часть данных либо не учитывать, либо "изменять на лету" подменяя определенный бит.

Автор: Алькон 27.08.2020 - 10:52:17
no404error, одно дело стандарт, другое дело реализация, т.е. определение что будем терять, а что нет, при заданной пользователем ширине потока.

По частоте я глубоко детали не лез, но как отсекаются верхи, знаю в общих чертах - по алгоритму, называемый психокинетическим. В каждой реализации он свой, хотя алгоритм один и тот же - а вот его реализация разная для каждого кодера.

Смена же частоты исходников при кодировании для lame слышна в обычных, даже не очень дорогих, наушниках. Т.е. если у вас частота исходников 44K, а вы при кодировании, сделаете 31k mp3, то вы на 100% услышите, как ухудшится качество.

Автор: no404error 28.08.2020 - 19:38:02
Цитата (Алькон @ 27.08.2020 - 10:52:17)

одно дело стандарт, другое дело реализация, т.е. определение что будем терять, а что нет, при заданной пользователем ширине потока.

По частоте я глубоко детали не лез, но как отсекаются верхи, знаю в общих чертах - по алгоритму, называемый психокинетическим. В каждой реализации он свой, хотя алгоритм один и тот же - а вот его реализация разная для каждого кодера.

Смена же частоты исходников при кодировании для lame слышна в обычных, даже не очень дорогих, наушниках. Т.е. если у вас частота исходников 44K, а вы при кодировании, сделаете 31k mp3, то вы на 100% услышите, как ухудшится качество.

Еще раз. Сам "стандарт" подразумевает возможность неполного декодирования исходных данных. Не 31kbps из 128kbps, а "частичное декодирование каждого семпла". Для всех вариаций mpeg1 потеря 40% не приводит к изменению передаваемого потока заметному до уровня искажения.

DELL.Xn сжимает все данные практически "на лету". mp3packer/SoundSlimmer/MPZ и/или packmp3 делает аналогичные действия с меньшей эффективностью но доступно для всех.

Автор: Алькон 28.08.2020 - 20:16:50
Цитата (no404error @ 28.08.2020 - 19:38:02)

Еще раз. Сам "стандарт" подразумевает возможность неполного декодирования исходных данных. Не 31kbps из 128kbps


no404error, под 31к я имел в виду не ширину потока, а частоту дискретизации - 31000 Гц.

Автор: Naina Kievna 1.11.2020 - 20:00:04
Цитата (f1rs1 @ 6.08.2020 - 16:00:00)

"Если бы все раздачи шли в 192 - идеально было бы."

хм... повторюсь в который раз.
если источник/оригинал имеет частотные характеристики соответствующие этому битрейту (зачастую - увы...)

Но на многие книги, которые я раздаю, мне просто-напросто жалко места. Поэтому, раздав, я их с чистой совестью отправляю в корзину без шанса на восстановление.
битрейт выше 160 kbps оправдан - если
1. запись произведена в студийной обстановке при использовании хорошего оборудовании (пульта и микрофона)
2. Фонограмма впоследствии украшается музыкальными и прочими шумовыми вставками
3. Для прослушивания используется высококлассная аппаратура, а не смартфон с ординарными наушниками BTS.


Кроме того, замечено, что высокий битрейт обычно используют новички-любители, которым (наивные) кажется, что высокий битрейт добавит качества и звучанию и прочтению.
Поэтому, увидев в ТХ высокий битрейт - открываю файл в audacity - смотрю частотную характеристику, и с прискорбием понимаю, что ЧХ не соответствуют величине битрейта

Powered by Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)