Является ли скрытая аудиозапись недопустимым доказательством? Аудио. Цифровое и аналоговое аудио

Для того, чтобы перейти к обсуждению вопросов внедрения информации в аудиосигналы, необходимо определить требования, которые могут быть предъявлены к стегосистемам, применяемым для встраивания информации в аудиосигналы:

    скрываемая информация должна быть стойкой к наличию различных окрашенных шумов, сжатию с потерями, фильтрованию, аналогово-цифровому и цифро-аналоговому преобразованиям;

    скрываемая информация не должна вносить в сигнал искажения, воспринимаемые системой слуха человека;

    попытка удаления скрываемой информации должна приводить к заметному повреждению контейнера (для ЦВЗ);

    скрываемая информация не должна вносить заметных изменений в статистику контейнера;

Для внедрения скрываемой информации в аудиосигналы можно использовать методы, применимые в других видах стеганографии. Например, можно внедрять информацию, замещая наименее значимые биты (все или некоторые). Или можно строить стегосистемы, основываясь на особенностях аудиосигналов и системы слуха человека.

Систему слуха человека можно представить, как анализатор частотного спектра, который может обнаруживать и распознавать сигналы в диапазоне 10 – 20000 Гц. Систему слуха человека можно смоделировать, как 26 пропускающих фильтров, полоса пропускания, которых увеличивается с увеличением частоты. Система слуха человека различает изменения фазы сигнала слабее, нежели изменения амплитуды или частоты.

Аудиосигналы можно разделить на три класса:

    разговор телефонного качества, диапазон 300 – 3400 Гц;

    широкополосная речь 50 – 7000 Гц;

    широкополосные аудиосигналы 20 – 20000 Гц.

Практически все аудиосигналы имеют характерную особенность. Любой из них представляет собой достаточно большой объем данных, для того, чтобы использовать статистические методы внедрения информации. Первый из описываемых методов, рассчитанный на эту особенность аудиосигналов, работает во временной области.

7.1. Методы кодирования с расширением спектра

Алгоритм, предложенный в работе , удовлетворяет большинству из предъявляемых требований, изложенных выше. ЦВЗ внедряется в аудиосигналы (последовательность 8- или 16-битных отсчетов) путем незначительного изменения амплитуды каждого отсчета. Для обнаружения ЦВЗ не требуется исходного аудиосигнала.

Пусть аудиосигнал состоит из N отсчетов x (i ), i = 1, …, N , где значение N не меньше 88200 (соответственно 1 секунда для стереоаудиосигнала, дискретизированного на частоте 44,1 кГц). Для того чтобы встроить ЦВЗ, используется функция f (x (i ), w (i )), где w (i ) - отсчет ЦВЗ, изменяющийся в пределах - ; , - некоторая константа. Функция f должна принимать во внимание особенности системы слуха человека во избежание ощутимых искажений исходного сигнала. Отсчет результирующего сигнала получается следующим образом:

y(i) = x(i) + f(x(i),w(i)) (7.1)

Отношение сигнал-шум в этом случае вычисляется как

SNR = 10 log 10 (7.2)

Важно отметить, что применяемый в схеме генератор случайных чисел должен иметь равномерное распределение. Стойкость ЦВЗ, в общем случае, повышается с увеличением энергии ЦВЗ, но это увеличение ограничивается сверху допустимым отношением сигнал-шум.

Обнаружение ЦВЗ происходит следующим образом. Обозначим через S следующую сумму:

. (7.3)

Комбинируя (7.1) и (7.3), получаем

. (7.4)

Первая сумма в (7.4) равна нулю, если числа на выходе ГСЧ распределены равномерно и математическое ожидание значения сигнала равно нулю. В большинстве же случаев наблюдается некоторое отличие, обозначаемое
, которое необходимо также учитывать.

Следовательно, (7.4) принимает вид

Сумма
, как показано выше, приблизительно равна нулю. Если в аудиосигнал не был внедрен ЦВЗ, то S будет приблизительно равна
. С другой стороны, если в аудиосигнал был внедрен ЦВЗ, то S будет приблизительно равна
. Однако,
- это исходный сигнал, который по условию не может быть использован в процессе обнаружения ЦВЗ. Сигнал
можно заменить на
, это приведет к замене
на
, ошибка при этом будет незначительной.

Следовательно, вычитая величину
из S , и деля результат на
, получим результат r , нормированный к 1. Детектор ЦВЗ, используемый в этом методе, вычисляет величину r, задаваемую формулой

. (7.6)

Пороговая величина обнаружения теоретически лежит между 0 и 1, с учетом аппроксимации этот интервал сводится к 0 - ; 1 + . Опытным путем установлено, что для того чтобы определить действительно ли определенный ЦВЗ находится в сигнале, пороговое значение ЦВЗ должно быть выше 0,7. Если требуется большая достоверность в определении наличия ЦВЗ в сигнале, пороговое значение необходимо увеличить. Работа кодера и декодера представлены на рис.7.1.

На рис. 7.2 показана эмпирическая функция плотности вероятности для аудиосигнала с ЦВЗ и без ЦВЗ. Эмпирическая функция плотности вероятности аудиосигнала без ЦВЗ показана непрерывной кривой, пунктирная кривая описывает эмпирическую функцию плотности вероятности аудиосигнала с встроенным ЦВЗ. Оба распределения были вычислены с использованием 1000 различных значений ЦВЗ при отношении сигнал-шум 26 дб.

Исходный Стегокодированный

сигнал сигнал

Мультипликативный

оператор

Учет статистики

Сумматор

Сумматор

Мультипликативный

оператор

Делитель

Пороговое устройство

Решение о наличии ЦВЗ

Рис.7.1. Блок-схема стегокодера и стегодекодера

Пороговое устройство

Рис. 7.2. Функция плотности распределения величины обнаружения для сигналов с ЦВЗ и без ЦВЗ

Внедрение в один аудиосигнал большого количества различных ЦВЗ приводит к увеличению слышимости искажений. Максимальное число ЦВЗ ограничено энергией каждого из них. Декодер способен правильно восстановить каждый ЦВЗ при условии использования кодером уникальных ключей. На рис.7.3 показан пример обнаружения ЦВЗ с использованием 1000 различных ключей, из которых только один – верный .

Рис. 7.3. Распознавание заданного ключа встраивания ЦВЗ

В работе проверялась стойкость рассматриваемого метода внедрения информации к сжатию MPEG до скоростей 80 кб/с и до 48 кб/с. После восстановления при сжатии до скорости 80 кб/с можно наблюдать незначительное уменьшение пороговой величины обнаружения в аудиосигналах с ЦВЗ (рис. 7.4). При сжатии аудиосигнала до 48 кб/с появляются звуковые эффекты, ощутимо снижающие качество сигналов с ЦВЗ.

Стойкость алгоритма встраивания ЦВЗ к фильтрации проверена применением к нему скользящего фильтра средних частот и фильтра нижних частот. Аудиофайлы с внедренным ЦВЗ профильтрованы скользящим фильтром средних частот длины 20, который вносит в аудиоинформацию значительные искажения.

Рис.7.4. Влияние сжатия данных на ЦВЗ

Рис.7.5. Влияние на ЦВЗ применения к аудиосигналу скользящего фильтра средних частот

На рис.7.5 показано, как изменяется пороговая величина обнаружения при применении вышеописанного фильтра. В общем, порог обнаружения увеличивается в отфильтрованных сигналах. Это происходит по причине того, что функция плотности распределения сигналов после фильтрации сдвигается вправо по сравнению с относительной функцией распределения сигналов, не подвергавшихся фильтрации.

ЦВЗ сохраняется и при применении к аудиосигналу фильтра нижних частот. Однако при фильтрации аудисигналов с ЦВЗ фильтром нижних частот Хэмминга 25-го порядка с частотой среза 2205 Гц имело место уменьшение вероятности обнаружения наличия ЦВЗ.

Для проверки стойкости ЦВЗ к передискретизации Р. Бассиа и И. Питасом аудиосигналы были передискретизированы на частоты 22050 Гц и 11025 Гц и назад на начальную частоту. ЦВЗ сохранялся.

При переквантовании аудиосигнала из 16-битного в 8-битный и обратно внедренный ЦВЗ сохраняется, несмотря на частичную потерю информации. На рис.7.6 показано насколько хорошо ЦВЗ сохраняется в 1000 аудиосигналах при их переквантовании в 8-битные отсчеты и обратно в 16-битные.

Рис.7.6. Влияние переквантования сигнала на ЦВЗ

Девиация функции плотности распределения переквантованного сигнала увеличивается, как и в случае применения фильтра нижних частот, следовательно, имеет место уменьшение эффективности обнаружения.

7.3. Внедрение информации модификацией фазы аудиосигнала

Метод, предлагающий использовать слабую чувствительность системы слуха человека к незначительным изменениям фазы сигнала, был предложен В. Бендером, Н. Моримото и др.

Внедрение информации модификацией фазы аудиосигнала – это метод, при котором фаза начального сегмента аудиосигнала модифицируется в зависимости от внедряемых данных. Фаза последующих сегментов согласовывается с ним для сохранения разности фаз. Это необходимо потому, что к разности фаз человеческое ухо более чувствительно. Фазовое кодирование, когда оно может быть применено, является одним из наиболее эффективных способов кодирования по критерию отношения сигнал-шум.

Процедура фазового кодирования состоит в следующем:



(7.8)

    Стегокодированный сигнал получается путем применения обратного дискретного преобразования Фурье, к исходной матрице амлитуд и модифицированной матрице фаз. (рис. 7.7(ж) и 7.7(з)).

Рис.7.7. Блок-схема фазового кодирования

Получателю должны быть известны: длина сегмента, и точки ДПФ. Перед декодированием последовательность должна быть синхронизирована.

Недостатком этой схемы является ее низкая пропускная способность. В экспериментах В. Бендера и Н. Моримото пропускная способность канала варьировалась от 8 до 32 бит в секунду.


Иногда ошибки SpeechRuntime.exe и другие системные ошибки EXE могут быть связаны с проблемами в реестре Windows. Несколько программ может использовать файл SpeechRuntime.exe, но когда эти программы удалены или изменены, иногда остаются "осиротевшие" (ошибочные) записи реестра EXE.

В принципе, это означает, что в то время как фактическая путь к файлу мог быть изменен, его неправильное бывшее расположение до сих пор записано в реестре Windows. Когда Windows пытается найти файл по этой некорректной ссылке (на расположение файлов на вашем компьютере), может возникнуть ошибка SpeechRuntime.exe. Кроме того, заражение вредоносным ПО могло повредить записи реестра, связанные с Windows 10 Operating System. Таким образом, эти поврежденные записи реестра EXE необходимо исправить, чтобы устранить проблему в корне.

Редактирование реестра Windows вручную с целью удаления содержащих ошибки ключей SpeechRuntime.exe не рекомендуется, если вы не являетесь специалистом по обслуживанию ПК. Ошибки, допущенные при редактировании реестра, могут привести к неработоспособности вашего ПК и нанести непоправимый ущерб вашей операционной системе. На самом деле, даже одна запятая, поставленная не в том месте, может воспрепятствовать загрузке компьютера!

В связи с подобным риском мы настоятельно рекомендуем использовать надежные инструменты очистки реестра, такие как %%product%% (разработанный Microsoft Gold Certified Partner), чтобы просканировать и исправить любые проблемы, связанные с SpeechRuntime.exe. Используя очистку реестра , вы сможете автоматизировать процесс поиска поврежденных записей реестра, ссылок на отсутствующие файлы (например, вызывающих ошибку SpeechRuntime.exe) и нерабочих ссылок внутри реестра. Перед каждым сканированием автоматически создается резервная копия, позволяющая отменить любые изменения одним кликом и защищающая вас от возможного повреждения компьютера. Самое приятное, что устранение ошибок реестра может резко повысить скорость и производительность системы.


Предупреждение: Если вы не являетесь опытным пользователем ПК, мы НЕ рекомендуем редактирование реестра Windows вручную. Некорректное использование Редактора реестра может привести к серьезным проблемам и потребовать переустановки Windows. Мы не гарантируем, что неполадки, являющиеся результатом неправильного использования Редактора реестра, могут быть устранены. Вы пользуетесь Редактором реестра на свой страх и риск.

Перед тем, как вручную восстанавливать реестр Windows, необходимо создать резервную копию, экспортировав часть реестра, связанную с SpeechRuntime.exe (например, Windows 10 Operating System):

  1. Нажмите на кнопку Начать .
  2. Введите "command " в строке поиска... ПОКА НЕ НАЖИМАЙТЕ ENTER !
  3. Удерживая клавиши CTRL-Shift на клавиатуре, нажмите ENTER .
  4. Будет выведено диалоговое окно для доступа.
  5. Нажмите Да .
  6. Черный ящик открывается мигающим курсором.
  7. Введите "regedit " и нажмите ENTER .
  8. В Редакторе реестра выберите ключ, связанный с SpeechRuntime.exe (например, Windows 10 Operating System), для которого требуется создать резервную копию.
  9. В меню Файл выберите Экспорт .
  10. В списке Сохранить в выберите папку, в которую вы хотите сохранить резервную копию ключа Windows 10 Operating System.
  11. В поле Имя файла введите название файла резервной копии, например "Windows 10 Operating System резервная копия".
  12. Убедитесь, что в поле Диапазон экспорта выбрано значение Выбранная ветвь .
  13. Нажмите Сохранить .
  14. Файл будет сохранен с расширением.reg .
  15. Теперь у вас есть резервная копия записи реестра, связанной с SpeechRuntime.exe.

Следующие шаги при ручном редактировании реестра не будут описаны в данной статье, так как с большой вероятностью могут привести к повреждению вашей системы. Если вы хотите получить больше информации о редактировании реестра вручную, пожалуйста, ознакомьтесь со ссылками ниже.

Несмотря на то, что большую часть внешней информации мы усваиваем с помощью зрения, звуковые образы для нас ничуть не менее важны, а часто даже и более. Попробуйте посмотреть кино с выключенным звуком – через 2-3 минуты вы потеряете нить сюжета и интерес к происходящему, каким бы большим ни был экран и качественным изображение! Поэтому в немом кино за кадром играл тапер. Если же убрать изображение и оставить звук, кино вполне можно «слушать» как увлекательную радиопостановку.

Слух доносит до нас информацию о том, чего мы не видим, поскольку сектор визуального восприятия ограничен, а ухо улавливает звуки, доносящиеся со всех сторон, дополняя зрительные образы

Слух доносит до нас информацию о том, чего мы не видим, поскольку сектор визуального восприятия ограничен, а ухо улавливает звуки, доносящиеся со всех сторон, дополняя зрительные образы. При этом наш слух с большой точностью может локализовать невидимый источник звука по направлению, расстоянию, скорости перемещения.

Звук научились преобразовать в электрические колебания задолго до изображения. Этому предшествовала механическая запись звуковых колебаний, история которой началась еще в 19 веке.

Ускоренный прогресс, включая возможность передачи звука на расстояние, стал возможен благодаря электричеству, с появлением усилительной техники, акустоэлектрических и электроакустических и преобразователей – микрофонов, звукоснимателей, динамических головок и прочих излучателей. Сегодня звуковые сигналы передаются не только по проводам и через эфир, но и по оптоволоконным линиям связи, в основном в цифровом виде.

Акустические колебания преобразуются в электрический сигнал обычно с помощью микрофонов. Любой микрофон имеет в своем составе подвижный элемент, колебания которого порождают ток или напряжение определенной формы. Наиболее распространенный тип микрофона – динамический, представляющий собой «динамик наоборот». Колебания воздуха приводят в движение мембрану, жестко связанную со звуковой катушкой, находящейся в магнитном поле. Конденсаторный микрофон, по сути, и есть конденсатор, одна из обкладок которого колеблется в такт со звуком, а вместе с ней изменяется емкость между обкладками. В ленточных микрофонах используется тот же принцип, только одна из пластин свободно подвешена. Схож с конденсаторным электретный микрофон, пластины которого в процессе колебаний сами вырабатывают электрический заряд, пропорциональный амплитуде колебаний. Многие модели микрофонов имеют встроенный усилитель (уровень сигнала непосредственно с акусто-электрического преобразователя очень мал). В отличие от микрофона, звукосниматель электромузыкального инструмента регистрирует колебания не воздуха, а твердого тела: струны или деки инструмента. Головка звукоснимателя считывает канавку грампластинки с помощью иглы, механически соединенной с подвижными катушками, находящимися в магнитном поле, либо магнитами, если катушки неподвижны. Либо колебания иглы передаются на пьезоэлемент, который при механических воздействиях вырабатывает электрический заряд. В магнитной записи звуковой сигнал записывается на магнитную ленту, а затем считывается специальной головкой. Наконец, в кинематографе традиционно была принята оптическая запись: с краю пленки наносилась непрозрачная звуковая дорожка, ширина которой менялась в такт со сигналом, и при протягивании пленки через проекционный аппарат электрический сигнал снимался с помощью фотосенсора.

В синтезаторах звук рожается непосредственно в виде электрических колебаний, здесь отсутствует первичное преобразование акустических волн в электрический сигнал.

Современные источники звука осень разнообразны, и все большее распространение получают цифровые носители: компакт-диски, DVD, хотя сохраняются еще и виниловые пластинки. Мы продолжаем слушать радио, как эфирное, так и кабельное (радио-точки). Звук сопровождает телепередачи и кинофильмы, не говоря уже о таком привычном явлении, как телефония. Все больший удельный вес в мире аудио получает компьютер, позволяющий с удобством архивировать, комбинировать и обрабатывать звуковые программы в виде файлов. В век цифровых технологий оцифрованная речь и музыка передается по цифровым каналам, включая сеть Интернет, без серьезных потерь на транспортировку. Это обеспечивается цифровым кодированием, и потери возникают исключительно из-за сжатия, которое чаще всего при этом используется. Однако на цифровых носителях его либо нет вовсе (CD, SACD), либо применяются алгоритмы сжатия звука без потерь (DVD Audio, DVD Video). В остальных случаях степень сжатия определяется требуемым уровнем качества фонограммы (файлы MP3, цифровая телефония, цифровое телевидение, некоторые типы носителей).

Рис. 1. Преобразование акустических звуковых колебаний в электрический сигнал

Обратное преобразование из электрических колебаний в акустические осуществляются с помощью громкоговорителей, встроенных в радиоприемники и телевизоры, а также отдельных акустических систем, головных телефонов.

Звуком называют акустические колебания в диапазоне частот от 16 Гц до 20 000 Гц

Звуком называют акустические колебания в диапазоне частот от 16 Гц до 20 000 Гц. Ниже (инфразвук) и выше (ультразвук) человеческое ухо не слышит, да и в пределах звукового диапазона чувствительность слуха весьма неравномерна, ее максимум приходится на частоту 4 кГц. Чтобы слышать звуки всех частот одинаково громко, нужно воспроизводить их с разным уровнем. Такой прием, называемый тонкомпенсацией, часто реализуется в бытовой аппаратуре, хотя результат его нельзя признать однозначно положительным.


Рис. 2. Кривые равной громкости
(Нажмите на изображение для увеличения)

Физические свойства звука обычно представляются не в линейных, а в относительных логарифмических величинах – децибелах (дБ), поскольку это гораздо нагляднее в цифрах и компактнее на графиках (в противном случае пришлось бы оперировать с величинами, имеющими множество нулей до запятой и после, и вторые с легкостью потерялись бы на фоне первых). Отношение двух уровней A и B в дБ (скажем, напряжения или тока) определяется как:

С u [дБ] = 20 lg A/B. Если же речь идет о мощностях, то С p [дБ] = 10 lg A/B.

Кроме частотного диапазона, определяющего чувствительность человеческого слуха к высоте звука, существует также понятие диапазона громкостей, который показывает чувствительность уха к уровню громкости и охватывает интервал от самого тихого звука, различимого слухом (порог чувствительности), до самого громкого, за которым лежит болевой порог. Порог чувствительности принят как звуковое давление в 2 х 10 -5 Па (Паскаль), а болевой порог – давление, в 10 миллионов раз большее. Иными словами, диапазон слышимости, или отношение давления самого громкого звука, к самому тихому, составляет 140 дБ, что заметно превосходит возможности любой аудио аппаратуры ввиду ее собственных шумов. Только цифровые форматы высокого разрешения (SACD, DVD Audio) подбираются к теоретическому пределу динамического диапазона (отношение самого громкого звука, воспроизводимого аппаратурой, к уровню шума) 120 дБ, компакт-диск обеспечивает 90 дБ, виниловая пластинка – порядка 60 дБ.


Рис. 3. Диапазон чувствительности слуха

Только цифровые форматы высокого разрешения (SACD, DVD Audio) подбираются к теоретическому пределу динамического диапазона

Шумы всегда присутствуют в звуковом тракте. Это как собственные шумы усилительных элементов, так и внешние наводки. Искажения сигнала делятся на линейные (амплитудные, фазовые) и нелинейные, или гармонические. В случае линейных искажений спектр сигнала не обогащается новыми компонентами (гармониками), изменяются лишь уровень или фаза уже существующих. Амплитудные искажения, нарушающие изначальные соотношения уровней на разных частотах, приводят к слышимым искажениям тембра. Долгое время считалось, что фазовые искажения некритичны для слуха, однако на сегодня доказано обратное: и тембр, и локализация звука в значительной мере зависимы от фазовых соотношений частотных компонентов сигнала.

Любой усилительный тракт нелинеен

Любой усилительный тракт нелинеен, поэтому всегда возникают гармонические искажения: новые частотные компоненты, отстоящие по частоте в 3, 5, 7 и т.д. от порождающего их тона (нечетные гармоники) или в 2, 4, 6 и т.д. раз (четные). Порог заметности гармонических искажений сильно варьирует: от нескольких десятых и даже сотых долей процента до 3-7%, в зависимости от состава гармоник. Четные гармоники менее заметны, поскольку находятся в консонансе с основным тоном (разница по частоте в два раза соответствует октаве).

Помимо гармонических, имеют место интермодуляционные искажения, представляющие собой разностные продукты частот спектра сигнала и их гармоник. Например, на выходе усилителя, на вход которого подано две частоты 8 и 9 Гц (при достаточно нелинейной его характеристике) появится третья (1 кГц), а также целый ряд других: 2 кГц (как разность вторых гармоник основных частот) и т.д. Интермодуляционные искажения особенно неприятны на слух, поскольку порождают множество новых звуков, включая диссонансные по отношению к основным.

То, что сможет услышать аудиофил и не только услышать, но и объяснить звукорежиссер, может оказаться совершенно незаметным для обычного слушателя

Шумы и искажения в значительной степени маскируются сигналом, однако они и сами маскируют сигналы малого уровня, которые исчезают или теряют отчетливость. Поэтому чем выше отношение сигнал/шум, тем лучше. Фактическая чувствительность к шумам и искажениям зависит от индивидуальных особенностей слуха и его натренированности. Уровень шумов и искажений, не влияющий на передачу речи, может быть абсолютно неприемлемым для музыки. То, что сможет услышать аудиофил и не только услышать, но и объяснить звукорежиссер, может оказаться совершенно незаметным для обычного слушателя.

ПЕРЕДАЧА АНАЛОГОВОГО АУДИО

Традиционно аудио сигналы передавались по проводам, а также эфиру (радио).

Различают небалансную линию передачи (классическая проводная) и балансную. Небалансная имеет в своем составе два провода: сигнальный (прямой) и обратный (земля). Такая линия весьма чувствительна к внешним помехам, поэтому для передачи сигнала на большие расстояния не подходит. Часто реализуется с помощью экранированного провода, экран при этом соединяется с землей.


Рис. 4. Небалансная экранированная линия

Балансная линия предполагает три провода: два сигнальных, по которым течет один и тот же сигнал, но в противофазе, и землю. На приемной стороне синфазные помехи (наведенные на оба сигнальных провода) взаимно вычитаются и полностью исчезают, а уровень полезного сигнала удваивается.


Рис. 5. Балансная экранированная линия

Небалансные линии обычно применяются внутри приборов и при небольших расстояниях, в основном в пользовательских трактах. В профессиональной же сфере господствует балансная.

На рисунках точки подключения экрана показаны условно, поскольку их приходится каждый раз подбирать «по месту» для достижения наилучших результатов. Чаще всего экран подключается только на стороне приемника сигнала.

Небалансные линии обычно применяются внутри приборов и при небольших расстояниях, в основном в пользовательских трактах. В профессиональной же сфере господствует балансная

Аудиосигналы нормируются по уровню действующего напряжения (0,707 от амплитудного значения):

  • микрофонный 1-10 мВ (для микрофонов без встроенного усилителя),
  • линейный 0,25-1 В, обычно 0,7 В.

На выходе усилителя мощности, с которого сигнал поступает на громкоговорители, его уровень гораздо выше и может достигать (в зависимости от громкости) 20-50 В при токах до 10‑20 А. Иногда – до сотен вольт, для трансляционных линий и озвучивания открытых пространств.

Используемые кабели и разъемы:

  • для балансных линий и микрофонов – экранированная пара (часто витая), 3-контактные разъемы XLR или клеммы, винтовые или зажимные;


Рис. 6. Разъемы для балансных линий: клеммы и XLR

  • для небалансных линий – экранированный кабель, разъемы RCA («тюльпан»), реже DIN (а также ГОСТ), а также различные штекеры;


Рис. 7. Разъемы для небалансных линий: RCA, 3,5-мм и 6,25-мм штекеры

  • для мощных сигналов для громкоговорителей – неэкранированные (за редким исключением) акустические кабели большого сечения, клеммы или зажимы, разъемы типа «банан» или «игла»


Рис. 8. Разъемы акустических кабелей

Качество разъемов и кабелей играет ощутимую роль, особенно в высококачественных аудио системах

Качество разъемов и кабелей играет ощутимую роль, особенно в высококачественных аудио системах. Имеют значение материалы проводника и диэлектрика, сечение, геометрия кабеля. В самых дорогих моделях межблочных и акустических кабелей применяется сверхчистая медь и даже цельное серебро, а также тефлоновая изоляция, отличающаяся минимальным уровнем диэлектрической абсорбции, увеличивающей потери сигнала, причем неравномерно по полосе частот. Рынок кабельной продукции очень разнообразен, часто разные модели одинакового качества отличаются друг от друга лишь ценой, причем во много раз.

Любые кабели характеризуются потерями аналогового сигнала, которые растут с ростом частоты и расстояния передачи. Потери определяются омическим сопротивлением проводника и контактов в разъемах, а также распределенными реактивными составляющими: индуктивностью и емкостью. По сути, кабель представляет собой фильтр низких частот (режет высокие).

Помимо передачи на разные расстояния, сигналы часто приходится разветвлять и коммутировать. Коммутаторы (селекторы входов) являются неотъемлемой частью многих компонентов аудиотракта, как профессионального, так и пользовательского. Существуют и специализированные усилители-распределители, разветвляющие сигнал и обеспечивающие согласование с линией передачи и другими компонентами по уровню и импедансам (а также часто компенсирующих спад на высоких частотах) и коммутаторы, обычные (несколько входов и один выход) и матричные (множество входов и выходов).

ОБРАБОТКА АНАЛОГОВОГО АУДИО

Любая обработка аналогового аудиосигнала сопровождается определенными потерями его качества (возникают частотные, фазовые, нелинейные искажения), однако она необходима. Основные виды обработки следующие:

  • усиление сигнала до уровня, нужного для передачи, записи или воспроизведения громкоговорителем: подав сигнал с микрофона на динамик, мы ничего не услышим: требуется предварительно усилить его по уровню и мощности, обеспечив при этом возможность регулировки громкости.


Рис. 9

  • фильтрация по частотам: от полезного звукового диапазона (20 Гц – 20 кГц) отсекают инфразвук, который на определенных частотах вреден для здоровья, и ультразвук. Во многих случаях диапазон намеренно сужают (речевой телефонный канал имеет полосу от 300 Гц – 3400 Гц, существенно ограничена полоса частот метровых радиостанций). Для акустических систем, имеющих как правило 2-3 полосы, также необходимо разделение, которое осуществляется обычно в фильтрах кроссоверов уже на уровне усиленного (мощного) сигнала.


Рис. 10. Схема кроссовера для трехполосной акустической системы


Рис. 11. Пример прибора-эквалайзера

  • подавление шумов: существуют специальные схемы динамического шумопонижения, которые анализируют сигнал и сужают полосу пропорционально уровню и частоте ВЧ-составляющих («денойзеры», «дехиссеры»). При этом шум, находящийся выше полосы сигнала, отрезается, а оставшийся более или менее маскируется самим сигналом. Подобные схемы всегда приводят к весьма заметной на слух деградации сигнала, но в отдельных случаях их применение уместно (например, при работе с записанной речью или в переговорных радиостанциях). Для аналоговой звукозаписывающей техники также используются шумоподавители на основе компрессоров/экспандеров («компандерные», например, системы Dolby B, dbx), работа которых на слух менее заметна.
  • воздействие на динамический диапазон: для того чтобы воспроизведение музыкальных программ на обычных бытовых системах, включая автомобильные магнитолы, было достаточно сочным и выразительным, динамический диапазон сжимают, делая звучание тихих звуков более громким. В противном случае, не считая отдельных всплесков фортиссимо (на классической музыке), придется слушать тишину из динамиков, особенно с учетом шумной окружающей обстановки. Для этой цели служат приборы, называемые компрессорами. В некоторых случаях, наоборот, требуется расширить динамический диапазон, тогда применяются экспандеры. А чтобы исключить превышение максимального уровня, которое приведет к клиппированию (ограничение сигнала сверху, сопровождаемое очень высокими нелинейными искажениями, воспринимаемыми как хрип), в студиях используются лимитеры. Они как правило обеспечивают «мягкое» ограничение, а не просто срезают верхушки сигнала;

Рис. 12. Пример студийного процессора динамической обработки звука

  • спецэффекты для студий, ЭМИ и пр.: в распоряжении звукорежиссеров и музыкантов имеется большое количество спец-техники для придания звучанию нужной окраски или получения определенного эффекта. Это различные дистортеры (звук электрогитары становится хриплым, зернистым), приставки вау-вау (модуляция по амплитуде, вызывающая характерный «квакающий» эффект), энхенсеры и эксайтеры (приборы, влияющие на окраску звука, в частности, могущие придавать звучанию «ламповый» оттенок); фленжеры, хорусы и т.д.


Рис. 13. Примеры процессоров и приставок для электрогитар

  • смешивание звуков, эхо/реверберация: запись на студиях обычно ведется в многоканальном виде, затем с помощью микшеров фонограмма сводится в нужное количество каналов (чаще всего 2 или 6). При этом звукорежиссер может «выдвинуть вперед» тот или иной солирующий инструмент, записанный на отдельной дорожке, изменить соотношение громкостей разных дорожек. Иногда на сигнал накладываются многократные копии меньшего уровня с определенным сдвигом по времени, тем самым имитируется естественная реверберация (эхо). В настоящее время подобные и прочие эффекты достигаются в основном с помощью сигнальных процессоров, обрабатывающих цифровой сигнал.


Рис. 14. Современный микшерный пульт

ЗАПИСЬ АНАЛОГОВОГО АУДИО

Считается, что механическая запись звука была впервые реализована Эдисоном в 1877 году, когда он изобрел фонограф – валик, покрытый слоем мягкой станиоли, на который иглой, передающей колебания воздуха, наносился след (впоследствии вместо станиоли использовался воск, а сам метод стали называть глубинной записью, поскольку дорожка модулировалась по глубине). Однако в том же году француз Шарль Кро подал заявку в Академию наук по поводу своего изобретения – звук записывался на плоском стеклянном диске, покрытым сажей, с помощью соединенной с мембраной иглы, получалась поперечная дорожка, затем диск предполагалось просвечивать и снимать с него фотокопии для тиражирования (сам способ еще предстояло разработать). В конце концов поперечная запись, которая оказалась намного совершеннее глубинной, дала начало грамзаписи. В мире появились три компании, серийно выпускавших пластинки (CBS в Америке, JVC в Японии, Odeon в Германии – эта компания подарила миру двустороннюю пластинку) и аппараты для их воспроизведения. От Дойче Граммофон (Германия) произошло название «граммофон», от Пате (Франция) – патефон. Затем начали производить портативные патефоны с раструбом на шарнире, с электрическим двигателем вместо ручного привода, позже – с электромагнитными адаптерами. Пластинки становились все совершеннее, вмещали больше материала по времени звучания, расширялся диапазон частот, первоначально ограниченный 4 кГц. На смену хрупкому шеллаку пришел винилит, а недолговечные стальные иглы уступили место сапфировым, затем и алмазным. Началась эпоха стерео: в одной канавке нарезались две дорожки под углом в 45°. К началу 80-х годов прошлого века, когда наметилась глобальный переход к цифровому формату звука, виниловая пластинка подошла в апогее своего развития.


Рис. 15. Граммофон, патефон, электропроигрыватель

Магнитная запись более совершенна и издавна применялась в студиях. Первый аппарат для магнитной записи – телеграфон – создал Вальдемар Паульсен (Дания) в 1878 году, причем запись велась на стальную проволоку (струну от фортепьяно). В 20-х годах 20 века появились магнитофоны, использовавшие магнитную ленту. Массовое производство магнитофонов началось в 40-х. Сначала появились магнитные ленты на целлюлозной, а затем на лавсановой основе. Запись аудиосигналов производится на продольные дорожки с помощью пишущей (или универсальной) головки с магнитным зазором. Лента протягивается вплотную к зазору головки, и на ней образуется дорожка остаточного намагничивания. Нелинейная часть характеристики «размывается» с помощью высокочастотного тока подмагничивания (обычно порядка 100 кГц), на который накладывается полезный сигнал. Студийные аналоговые магнитофоны наряду с цифровыми до сих пор применяются для первичной записи фонограмм. Бытовые бывают двух- и трехголовочными (отдельно записывающая, воспроизводящая и стирающая головки либо стирающая и универсальная). Иногда присутствуют две воспроизводящие головки, если предусмотрен реверс.

Даже при очень бережном отношении магнитная лента со временем начинает осыпаться

Магнитная лента обладает шумами, которые уменьшаются (частично выводятся за пределы слышимого диапазона) с ростом скорости протяжки. Поэтому студийные магнитофоны имеют скорость 38, в то время как бытовые катушечные – 19 и 9,5 см/с. Для бытовых кассетных магнитофонов была принята скорость 4,76 см/с. Шумы ленты эффективно подавляются с помощью компандерной системы Dolby B: при записи уровень высокочастотной части для слабых сигналов поднимается на 10 дБ, а при воспроизведении на столько же опускается.

Профессиональная аналоговая магнитная запись на высокой скорости обеспечивает очень высокое качество. Именно на магнитных мастер-лентах долгое время архивировались музыкальные записи, и с них фонограмма переносилась на виниловые пластинки с некоторой потерей качества. Однако даже при очень бережном отношении магнитная лента со временем начинает осыпаться, ей свойственно постепенное размагничивание, деформация, копир-эффект (соседние слои в рулоне взаимно намагничиваются), она подвержена влиянию внешних магнитных полей. Затруднен также быстрый поиск нужного фрагмента (хотя это неудобство относится скорее к бытовой сфере). Поэтому с появлением цифровых форматов компания Sony, владелец огромного архива записей CBS/Columbia, озаботившись проблемой сохранности бесценных оригиналов записей второй половины 20 века, разработала метод записи в формате дискретной широтно-импульсной модуляции (поток DSD – Direct Stream Digital, который в дальнейшем дал начало пользовательскому формату Super Audio CD). Если аналоговая магнитная запись обеспечивает сохранность фонограммы в несколько десятилетий при постепенно увеличивающихся потерях, то цифровые архивы вечны и выдерживают неограниченное количество копирований без какой-либо деградации. По этой, как и по многим другим причинам (сервисные преимущества, универсальность, огромные возможности обработки) все большее распространение нынче получают цифровые форматы аудио.

ПОЛУЧЕНИЕ ЦИФРОВОГО АУДИОСИГНАЛА

По теореме Котельникова-Шенона дискретный сигнал может быть впоследствии полностью восстановлен при условии, что частота дискретизации как минимум вдвое превосходит верхнюю частоту спектра сигнала

Цифровой сигнал получают из аналогового или синтезируют непосредственно в цифре (в электромузыкальных инструментах). Аналого-цифровое преобразование предполагает две основные операции: дискретизацию и квантование. Дискретизация – замена непрерывного сигнала на ряд отсчетов его мгновенных значений, взятых через равные промежутки времени. По теореме Котельникова-Шенона дискретный сигнал может быть впоследствии полностью восстановлен при условии, что частота дискретизации как минимум вдвое превосходит верхнюю частоту спектра сигнала. Затем отсчеты квантуются по уровню: каждому из них присваивается дискретное значение, ближайшее к реальному. Точность квантования определяется разрядностью двоичного представления. Чем выше разрядность, тем больше уровней квантования (2N, где N – число разрядов) и ниже шумы квантования – погрешности из-за округления до ближайшего дискретного уровня.


Рис. 16. Оцифровка аналогового сигнала и получение цифровых отсчетов

Формат CD предполагает частоту дискретизации 44,1 кГц и разрядность 16 бит. То есть получается 44 тысячи отсчетов в секунду, каждый из которых может принимать один из 2 16 = 65536 уровней (для каждого из стереоканалов).

Наиболее совершенными пользовательскими форматами аудио являются DVD Audio и Super Audio CD (SACD)

Помимо формата 44,1 кГц / 16 бит в цифровой записи применяются и другие. Студийная запись обычно производится с разрядностью 20-24 бит. Затем данные переводятся в стандартный CD-формат путем пересчета. Лишние биты затем отбрасываются либо (лучше) округляются, иногда подмешивается псевдослучайный шум для уменьшения шумов квантования (dither).

Наиболее совершенными пользовательскими форматами аудио являются DVD Audio и Super Audio CD (SACD). В DVD Audio принят алгоритм сжатия данных без потерь MLP, разработанный компанией Meridian. А SACD, в отличие от других форматов, использует не импульсно-кодовую модуляцию (ИКМ, или PCM), а однобитовое кодирование DSD-потока (дискретная широтно-импульсная модуляция). Диски SACD бывают однослойными и двухслойными (гибридными), с обычным CD-слоем.

Наиболее популярным аудио носителем на сегодня остается компакт-диск, несмотря на определенные ограничения по качеству звучания, отмечаемые аудиофилами. Причина их – в низкой частоте дискретизации: для точного восстановления сигналов, близких к верхней границе звукового диапазона, необходим фильтр, не реализуемый физически (его импульсная реакция захватывает область отрицательного времени). Это в определенной степени компенсируется с помощью цифровой фильтрации с повышением частоты дискретизации и разрядности. Для обеспечения бесперебойного воспроизведения в реальном времени данные на диске записываются с избыточным кодированием (код Рида-Соломона).

Цифровые носители, чатоты дискретизации и разрядности кодирования

Носитель Авторство Размеры Время звучания,
мин.
Кол. каналов Fs, кГц Разрядн., бит
CD-DA Sony,
Philips
120, 90 мм до 90 2 44,1 16
S-DAT кассета, лента 3,81 мм 2 32, 44,1, 48 16
R-DAT кассета, лента 3,81 мм 2, 4 44,1 12, 16
DASH лента 6,3, 12,7 мм 2…48 44,056,
44,1, 48
12, 16
DAT Alesis кассета
S-VHS
60 8 44,1, 48 16, 20
DСС Philips кассета 2, 4 32, 44,1,
48
16, 18
MiniDisk Sony 64 мм 74 2, 4 44,1 16
DVD
Audio
120 мм 5.1 192 24
SACD Sony,
Philips
120 мм 2, 5 2800 1

Для передачи цифрового звука нужна широкополосная линия связи, особенно для несжатого многоканального потока высокого разрешения.

ПЕРЕДАЧА ЦИФРОВОГО АУДИО

Линиями связи для передачи цифрового аудио могут служить кабели, оптические линии и радиоэфир.

Для передачи ИКМ-сигналов по проводным линиям разработаны интерфейсы AES/EBU (балансный, коаксиальный), S/PDIF (небалансный коаксиальный), обеспечивающие передачу нескольких сигналов (тактовую частоту, частоту следования цифровых слов, данные каналов) по одному проводу. Внутри аппаратов эти сигналы передаются по отдельности, на выходе транспортного механизма кодируются, а на входе цифро-аналогового преобразователя (в двухблочных системах) вновь разделяются в цифровом приемнике.

Как правило, для передачи цифрового аудио используется высококачественный коаксиальный кабель. Существуют также преобразователи S/PDIF для оптоволоконных линий: AT&T ST и Toslink (последний является стандартным для бытовой аппаратуры). А также – для использования витых пар в составе кабельных сетей Ethernet. Средой распространения сжатого аудио в виде архивированных файлов является и сеть Интернет.


Рис. 17. Оптический кабель с разъемом Toslink

Как любой цифровой сигнал, оцифрованное аудио распределяют и коммутируют с помощью специальных устройств – усилителей-распределителей, обычных и матричных коммутаторов.

Имеется фактор, отрицательно влияющий на цифровые сигналы и часто сводящий на нет практически все преимущества цифрового аудио перед аналоговым, в числе которых возможность многократного копирования, передачи и архивирования программ без потерь качества - речь идет о джиттере. Джиттер представляет собой дрожание фазы, или неопределенность момента перехода из 0 в 1 и наоборот. Происходит это из-за постепенной деформации прямоугольных импульсов с практически идеальными фронтами, которые становятся все более пологими из-за реактивных элементов кабелей, что и приводит к неопределенности момента перепада, хотя крутизна фронтов в каждом последующем цифровом устройстве полностью восстанавливается. С джиттером все современные цифровые устройства успешно борются с помощью блоков перетактирования (reclocking). Подробнее см. брошюру «Коммутация и управление сигналами».


Рис.18. Распределение и коммутация

Для передачи и записи на различные цифровые носители применяются сжатые форматы аудио: Dolby Digital (AC-3) и DTS. Это позволяет разместить на диске DVD Video емкостью 4,7 Гб полнометражный фильм с многоканальным звуковым сопровождением, а также разного рода дополнительные материалы. Формат Dolby Digital предлагает 5 независимых каналов: 2 фронтальных, 2 тыловых и 1 сабвуферный для спец-эффектов. Сжатие производится с помощью адаптивного алгоритма MPEG Audio, основанного на психоакустических особенностях восприятия звука и обеспечивающего минимальную заметность сжатия. Все это позволяет воссоздать полноценную трехмерную звуковую панораму. Однако для качественного воспроизведения музыки Dolby Digital подходит гораздо меньше, чем CD, обладая меньшим разрешением. Скорость потока в режиме Dolby Digital (отсчеты по каждому каналу передаются друг за другом) составляет 384-640 кбит/с, в то время как в обычном двухканальном формате CD – 1411,2 кбит/с. Формат Dolby Digital 5.1 неоднократно совершенствовался, в основном в направлении наращивания количества каналов. Сейчас доступен вариант DD 7.1, предполагающий 2 фронтальных, 2 боковых и 2 тыловых канала, не считая канала спецэффектов (известна также модификация DD 6.1 с одним тыловым каналом).

Формат DTS имеет меньшую степень сжатия и большую скорость потока данных – 1536 кбит/с. Поэтому он используется не только для кодирования многоканальных саундтреков на DVD Video, но для многоканальных аудиодисков. Формат DTS, помимо традиционного DTS 5.1, известен в модификациях DTS ES Discrete 6.1, а также нескольких матричных вариантах, в которых, как и в Dolby Pro Logic II, задействован принцип матрицирования дополнительных каналов, которые синтезируются на основе дополнительной информации, содержащейся в основных.

В компьютерной сфере и мультимедиа (на уровне пользователя) требуется компактность данных, поэтому здесь находят широкое применение сжатые форматы звука. Например, MP-3, Windows Media Audio, OGG Vorbis. Благодаря сжатию становится возможным быстро скачивать музыкальные файлы из сети Интернет, организовывать потоковый аудио сервис (WMA, Real Audio, Winamp).

ОБРАБОТКА ЦИФРОВОГО АУДИО

Обработка производится с помощью мощных DSP (сигнальных) процессоров, например Shark производства Analog Devices. Благодаря высокому быстродействию многие операции удается реализовать в реальном времени: например, изменение разрядности и тактовой частоты с интерполяцией, регулировка тембрального баланса, эквализация, подавление шумов, компрессия, экспандирование или ограничение динамического диапазона, спец-эффекты (эхо, разные типы звучания, например «стадион», «концертный зал» и пр.), микширование нескольких дорожек. Обычно сигнальные процессоры работают при высокой разрядности сигнала (например, 32 бита с плавающей децимальной точкой), что уменьшает набег ошибки в процессе сложных математических вычислений, которые производятся на основе быстрого преобразования Фурье, вычисления набора соответствующих коэффициентов и последующего перемножения.

Сигнальные процессоры по мере их распространения дешевеют, на сегодня их можно обнаружить любом ресивере или Surround-процессоре, где они выполняют самые разнообразные функции, включая декодирование форматов объемного звука, эквализацию и управление басом, калибровка каналов по амплитуде и фазе и т.д.

Сигнальные процессоры по мере их распространения дешевеют, на сегодня их можно обнаружить любом ресивере или Surround-процессоре

Но, как обычно, программные технологии обработки сигнала развиваются еще стремительнее, чем аппаратные. Все, что может сделать DSP-процессор, доступно с помощью специальных компьютерных приложений, причем в данном случае пользователь получает более широкий простор деятельности и гибкость самой программы, которая периодически обновляется и дополняется (хотя и программное обеспечение специализированных устройств в наше время чаще всего можно обновлять, скажем, через порт USB с компьютера или даже прямо из сети Интернет, с сайта производителя оборудования. Но такое обновление, конечно, возможно только в пределах одного поколения «железа», по мере устаревания которого приходится заменять модуль или весь аппарат). Компьютерных программ для глубокой обработки цифрового звука достаточно как для пользовательских, так и профессиональных целей (например, Adobe Audition). Основная часть студийной обработки производится на компьютере. Это очень удобно и эффективно, а, главное, позволяет не привязываться к реальному времени, делая доступными операции любой степени сложности без особых требований по быстродействию. Например, можно вручную вычистить фонограмму (скажем, снятую с реликтового винилового носителя) от щелчков или подвергнуть ее «интеллектуальной» обработке по избавлению от шумов, спектральный состав которых заранее определяется в паузах и на тихих фрагментах.

Сжатие цифрового аудио основано на психоакустических особенностях слуха и использует эффект маскировки более тихих звуков более громкими

Наконец, сжатие с целью уменьшения скорости потока данных или перенос на другую тактовую частоту с возможным изменением разрядности тоже производится как аппаратно, так и программно, на компьютере.

Существует несколько стандартных компьютерных форматов аудио, как без сжатия, так и с ним.

Наиболее распространенный несжатый формат – Microsoft Riff/Wave (расширение «.wav»). Данные кодируются 8 или 16 битами. Во втором (приемлемом для качественного аудио) случае и при частоте дискретизации 44,1 кГц одна минуты музыки занимает 5,3 МБ дискового пространства. Помимо самих данных, файл.wav содержит заголовок, описывающий общие параметры файла, и один или более фрагментов с дополнительной информацией о режимах и порядке воспроизведения, пометками, названиями и координатами различных участков сигнала.

В отличие от Riff/Wave, файлы RAW представляют собой данные, как они есть – без вспомогательной информации. Которая присутствует в стандартных для платформы Macintosh файлах Apple AIFF, схожих с WAV.

Сжатие цифрового аудио основано на психоакустических особенностях слуха и использует эффект маскировки более тихих звуков более громкими, при этом тихие просто отбрасываются, а «порог актуальности» маскируемых звуков определяется их удаленностью по частоте от маскирующих, а также другими параметрами.

Из форматов, предполагающих сжатие с потерями, самым популярным является MP3 (MPEG 1/2/2.5 Layer 3). Позволяет применять множество различных способов сжатия, стандартным является лишь способ кодирования уже сжатых данных. Возможен вариант с постоянным битрейтом, определяемым исходя из требуемых размеров файлов или уровня качества, или с переменным, когда битрейт меняется на разных фрагментах музыки, поддерживая уровень качества постоянным. В целом MP3 характеризуется весьма удовлетворительным звучанием на средних и высоких битрейтах, но на низких уступает другим форматам. Исключение составляет новая версия MP3 Pro, ориентированная именно на низкий битрейт и в связи с этим весьма затребованная в сетях Интернет.

WMA, или Windows Media Audio, успешно конкурируют с MP3 на низких битрейтах (например, музыка при 64 кбит/с в WMA субъективно звучит не хуже, чем в MP3 с битрейтом 128 кбит/с. Кроме этого, данный формат обеспечивает защитную кодировку от несанкционированного копирования.

Ogg Vorbis в целом схож с WMA и MP3, но отличается математическим аппаратом обработки и ориентирован на частоту дискретизации 48 кГц. К тому же может поддерживать не 2, а до 255 каналов звука. Битрейт до 512 кбит/с, при сжатии, на 20-5-% более эффективном, чем в MP3, музыка субъективно звучит лучше. Серьезный конкурент MP3 и WMA, хотя и в неравной борьбе с фирмами-гигантами.

AAC (Advanced Audio Coding) разработан на основе MP3 (и той же компанией – Институтом Фраунгофера), но отличается расширенными возможностями: поддерживает частоту дискретизации 96 кГц, до 48 каналов. Более высокое качество звука «оплачивается» относительно более медленной процедурой кодировки и повышенными требованиями к «железу» по быстродействию при воспроизведении. Одна из последних версий AAC под названием Liquid Audio, допускающая включение в поток данных не только «водяных знаков», как AAC, но и другой информации (об исполнителях, правообладании и пр.), в какой-то момент явилась серьезным претендентом на преемственность MP3.

Во многом похож на AAC японский формат VQF (SoundVQ), который скорее всего в скором времени исчезнет из поля зрения, хотя и поддерживается компанией Yamaha.

Цифровой звук можно записывать на различные носители. В основном оптические диски, хотя по логике вещей рано ли поздно на арене останется одна лишь флэш-память, для которой не требуется никаких приводов с моторчиками.

Магнитная цифровая запись на сегодня в основном остается в профессиональной сфере и все увереннее покидает бытовую

Тиражируют компакт-диски, как и прочие похожие носители (DVD, SACD), путем штамповки поликарбонатных заготовок с алюминиевых матриц, на которые наносятся питы – углубления. Кроме этого, при наличии обычного компьютера с пишущим CD (DVD) приводом музыкальные файлы различных форматов можно записывать на матрицы CD-R, CD-RW и т.д. Файлы также хранят на жестком диске компьютера или специального аудиосервера, в котором может быть создана обширная фонотека, причем степень сжатия файлов (от нуля) выбирается пользователем.

Магнитная цифровая запись на сегодня в основном остается в профессиональной сфере и все увереннее покидает бытовую. Оптический диск боле привлекателен для потребителя, чем кассета, даже притом, что она имеет небольшие размеры. Кроме этого, их массовой востребованности не способствовали сложные отношения с обладателями прав на музыкальный контент (как, впрочем, и в случае с DVD Audio и SACD). DAT-магнитофоны записывают цифровой звук без сжатия с высоким 3качеством. Существует несколько типов цифровых магнитофонов: со стационарными головками (S-DAT) и с вращающимися (R-DAT), записывающих сигнал на кассету; бобинный DASH, DAT, использующий кассеты S-VHS и поперечно-наклонную запись. Формат DCC (запись с сжатием в PASC) в настоящее время признан неперспективным. Магнитооптические диски MiniDisc используют запись с алгоритмом сжатия ATRAC.

ВОСПРОИЗВЕДЕНИЕ ЗВУКА

В конце любого аудиотракта присутствуют аналоговые электроакустические преобразователи – громкоговорители или наушники. Цифровые излучатели пока что находятся на стадии ранних идей. Усилители мощности также в основном аналоговые, хотя постепенно пробивают себе дорогу и цифровые (точнее, импульсные, работающие по принципу широтно-импульсной модуляции). Этот класс усилителей – D – обеспечивает небывало высокий по сравнению с аналоговыми КПД (порядка 90%), малые размеры и вес, отсутствие тепловыделения. Чтобы за усилителями класса D закрепилось прочное положение лидеров, необходимо, тем не менее, решить многие важные проблемы, и в первую очередь проблему фильтрации высокочастотных компонентов модулированного сигнала, уровень которых на выходе очень высок. Кроме этого, практически отсутствуют усилители класса D с цифровым входом: аналоговый сигнал подается на встроенный АЦП. Это, пожалуй, и есть основной фактор, тормозящий развитие данного направления: ведь основная ценность самой идеи не в высоком КПД, а в возможности организовать полностью цифровой аудиотракт без лишних преобразований и аналоговых линий передач. Тем более цифровой выход на проигрывателях DVD не редкость. В последнее время в данной области стали появляться новые разработки. Компания Tripath выпустила специальный процессор, управляющий параметрами импульсного усиления на основании анализа входного сигнала, который (в цифровой форме) на некоторое время задерживается в буфере. В частности, в зависимости от текущего спектра сигнала подбирается оптимальная с точки зрения последующей фильтрации тактовая частота. Такие усилители (их называют «интеллектуальными») дали начало новой категории – усилители класса T. Подробнее см. брошюру «Усиление сигналов».

На смену традиционным стерео- и моно- усилителям все чаще приходят многоканальные, чаще всего строенные в AV-ресиверы, где имеется также все необходимое для глубокой обработки многоканальных сигналов, декодирования и преобразования из одного формата в другой. Многоканальный звук становится все популярнее, причем не только в качестве сопровождения к кино, но и сам по себе.

«Лаборатория Касперского» запатентовала технологию защиты от подслушивания, которая уже реализована в Kaspersky Internet Security. Об этом 4 июля сообщается в блоге компании.

«Здоровая паранойя - штука заразная. Сначала одни люди смеются над другими людьми, заклеивающими веб-камеру, а потом почитают новости - и начинают заклеивать ее сами. Или пользоваться соответствующей функцией в Kaspersky Internet Security, которая блокирует несанкционированный доступ к веб-камере.

Но есть еще микрофон - и его толком не заклеишь: через изоленту все равно слышно. К тому же особо упорные злоумышленники при желании могут подслушивать через колонки - они тоже могут работать микрофоном, поскольку устроены, в сущности, так же. Программно выключить микрофон тоже не вариант - какое-нибудь приложение может включить его обратно.

И тут на помощь опять приходит Kaspersky Internet Security с запатентованой технологией, которая не разрешает прослушку на системном уровне. Сейчас мы расскажем, как она работает.

Начнем с того, что такая технология должна уметь. В идеале хотелось бы, чтобы хорошие, легитимные приложения могли без проблем получать доступ к микрофону, а всякие потенциально опасные - не могли. Получается, есть задача - обнаружить, что какое-то приложение хочет получать доступ к микрофону, понять, хорошее оно или плохое, и в зависимости от этого дать или не дать доступ.

Реализуется это примерно следующим образом. Звуки, как известно, может издавать сразу несколько приложений - вы наверняка сталкивались с тем, когда вы пытаетесь посмотреть кино, и тут вдруг какая-нибудь забытая вкладка в браузере ка-а-ак что-нибудь закричит. Но иногда это действительно полезно, скажем, для всяких уведомлений от работающих в фоне программ.

Чтобы обеспечить возможность такого одновременного воспроизведения, в операционной системе есть понятие аудиопотока, и есть некий компонент, который эти аудиопотоки контролирует. Хочет приложение что-то делать со звуком - создает свой аудиопоток. Их может быть сколько угодно.

Аудиопотоки могут быть завязаны на разные конечные устройства - на динамики или на микрофон. То есть для микрофона тоже может существовать несколько одновременных аудиопотоков, получающих от него данные.

Но микрофон-то не может для разных приложений генерировать разные потоки - он штука простая, что услышал - то и записал. Для всех одно и то же. А на уровне ОС нет никакой защиты от неавторизованного доступа к микрофону: приложение может создать аудиопоток, подключиться к микрофону и получать все, что он слышит.

Что делать? Правильно, отслеживать создание новых аудиопотоков. Именно это и делает Kaspersky Internet Security (да и Total Security тоже, конечно же). Компонент Защита приватности, который в том числе позволяет блокировать доступ к веб-камере, отслеживает и создание новых аудиопотоков. И среди прочего смотрит, а что за приложение этот новый поток создает.

Если приложение доверенное - от известного разработчика, с хорошей репутацией и не засветившееся в антивирусных базах - то не надо мешать ему создавать аудиопотоки. А вот если что-то с приложением не так - разработчик сомнительный, репутация подмоченная или, того хуже, за ним замечены откровенно зловредные действия, то Privacy Protection отследит запрос на создание аудиопотока и попросту уничтожит его.

Эта технология уже реализована в Kaspersky Internet Security 2017, а недавно мы наконец получили на нее патент. Так что тех, кто использует наши продукты, не подслушивают. Специально идти в настройки и активировать эту технологию вручную не надо - она включена по умолчанию.»


Владельцы патента RU 2643443:

Изобретение относится к режимам и/или инструментам выполняющейся прикладной программы, визуально представляемым в графическом пользовательском интерфейсе (ГИП), обеспечивающим взаимодействие с пользователем. Техническим результатом является упрощение и ускорение нахождения режима/инструмента, представляющего интерес для пользователя во время его работы, за счет инициирования программного вызова только в ответ на аудиосигнал, соответствующий программному вызову. Способ для инициирования программного вызова содержит этапы, на которых: визуально представляют список отображений пары речевого фрагмента в программный вызов; принимают аудиосигнал на вычислительном средстве; определяют, посредством вычислительного средства, соответствует ли аудиосигнал заранее определенному отображению между речевым фрагментом и программным вызовом прикладной программы, выполняющейся на вычислительном средстве, в списке отображений пары речевого фрагмента в программный вызов; и инициируют программный вызов только в ответ на аудиосигнал, соответствующий программному вызову, причем инициированный программный вызов по меньшей мере активирует и/или деактивирует, по меньшей мере, один из режима или инструмента выполняющейся прикладной программы. 2 н. и 12 з.п. ф-лы, 5 ил.

Нижеследующее описание, в целом, относится к режимам и/или инструментам выполняющейся прикладной программы, визуально представляемым в графическом пользовательском интерфейсе (ГИП), обеспечивающим взаимодействие с пользователем, и, в частности, к активации (и деактивации) режима и/или инструмента посредством аудиокоманды.

Данные формирования изображения в электронном формате визуально представляются в ГИП, обеспечивающим взаимодействие с пользователем, выполняющегося прикладного программного обеспечения, отображаемом посредством монитора. Прикладное программное обеспечение, которое позволяет манипулировать данными формирования изображения, например, сегментировать данные формирования изображения, включает в себя органы управления выбором режима и активацией инструмента, отображаемые в меню, палитре и т.п. и доступные посредством контекстных/выпадающих меню, вкладок и пр. К сожалению, многие из этих органов управления могут быть глубоко вложены в меню и/или, в целом, скрыты, в связи с чем, пользователю приходится перемещаться по структуре меню с использованием нескольких щелчков мыши, чтобы найти и активировать нужный режим и/или инструмент. Таким образом, программное управление для активации режима или инструмента может визуально не представляться интуитивным образом, что позволяет легко найти и активировать нужный режим или инструмент с использованием мыши.

Ниже рассмотрены попытки представить такие органы управления интуитивно понятным образом. В одном случае использовались контекстно-чувствительные фильтры на существующих палитрах инструментов, благодаря чему только инструменты, считающиеся более релевантными, отображаются на панели инструментов для пользователя. Некоторые палитры инструментов позволяют пользователю добавлять и/или удалять инструменты из палитры, оставляя другие, менее используемые инструменты скрытыми, чтобы не перегружать палитру. Другие палитры инструментов обучаются по мере использования инструментов и автоматически добавляют и/или удаляют инструменты. Другие палитры инструментов являются плавучими в том смысле, что пользователь может кликать, перетаскивать и помещать палитру инструментов в нужное место в окне просмотра. Однако все эти попытки требуют, чтобы пользователь выходил из текущего режима работы и/или инструмента и искал режим/инструмент, представляющий интерес для входа/активации посредством мыши и/или клавиатуры.

К сожалению, вышеупомянутые и/или другие действия выхода из текущего режима работы и/или инструмента для поиска режима/инструмента с использованием мыши и/или клавиатуры могут выводить пользователя из текущего режима мышления и могут требовать чрезмерной продолжительности времени для нахождения режима/инструмента, представляющего интерес. Таким образом, остается необходимость в других подходах к нахождению и/или активации/деактивации режима/инструмента, представляющего интерес в интерактивном ГИП выполняющейся прикладной программы.

Описанные здесь аспекты относятся к решению вышеупомянутых и других проблем.

В одном аспекте способ включает в себя прием аудиосигнала на вычислительном средстве, определение, посредством вычислительного средства, соответствует ли аудиосигнал заранее определенному соответствию между речевым фрагментом и программным вызовом прикладной программы, выполняющейся на вычислительном средстве, и инициирование программного вызова только в ответ на аудиосигнал, соответствующий программному вызову, причем инициированный программный вызов по меньшей мере активирует и/или деактивирует, по меньшей мере, один из режима или инструмента выполняющейся прикладной программы.

В другом аспекте вычислительное средство включает в себя детектор аудиосигнала который регистрирует аудиосигнал, память, где хранится, по меньшей мере, прикладное программное обеспечение, и главный процессор, который выполняет прикладное программное обеспечение. Выполняющееся прикладное программное обеспечение определяет, соответствует ли зарегистрированный аудиосигнал заранее определенному соответствию между речевым фрагментом и программным вызовом прикладной программы, выполняющейся на вычислительном средстве, и инициирует программный вызов только в ответ на аудиосигнал, соответствующий программному вызову.

В другом аспекте компьютерно-считываемый носитель данных, закодированный одной или более компьютерно-исполнимыми инструкциями, которые, при выполнении процессором вычислительной системы, предписывают процессору: принимать аудиосигнал, определять, соответствует ли аудиосигнал заранее определенному соответствию между речевым фрагментом и программным вызовом прикладной программы, выполняющейся на вычислительном средстве, и инициировать программный вызов только в ответ на аудиосигнал, соответствующий программному вызову, причем инициированный программный вызов по меньшей мере активирует и/или деактивирует, по меньшей мере, один из режима или инструмента выполняющейся прикладной программы.

Изобретение может быть реализовано в виде различных компонентов и компоновок компонентов и в виде различных этапов и компоновок этапов. Чертежи приведены только в целях иллюстрации предпочтительных вариантов осуществления и не призваны ограничивать изобретение.

Фиг. 1 схематически демонстрирует вычислительную систему с прикладным программным обеспечением, которое включает в себя признак распознавания аудиосигнала, который позволяет пользователю выбирать режим и/или инструмент с использованием аудиокоманды вместо команд, подаваемых с помощью мыши и/или клавиатуры.

Фиг. 3 изображает традиционный графический пользовательский интерфейс, в котором для активации инструмента используется мышь.

Фиг. 4 изображает традиционный графический пользовательский интерфейс, показанный на Фиг. 3, в котором мышь используется для активации подинструмента, представленного в плавающем меню.

Фиг. 5 изображает традиционный графический пользовательский интерфейс, показанный на Фиг. 3, в котором мышь используется для переключения между режимами.

Ниже описаны система и/или способ, в которых заранее определенный поднабор режимов/инструментов выполняющегося прикладного программного обеспечения в интерактивном ГИП можно выбирать для активации и/или деактивации посредством аудиокоманд (и/или мыши/клавиатуры). Аудиокоманды (например, голосовые) позволяют пользователю выбирать и активировать режим и/или инструмент, представляющий интерес, без необходимости выходить из текущего режима или инструмента, искать режим и/или инструмент, представляющий интерес, и вручную выбирать его посредством мыши или клавиатуры, нарушая свою концентрацию и/или наблюдая визуально представляемые данные формирования изображения и т.д. Затем мышь и/или клавиатура применяются для использования режима и/или инструмента. Каждому режиму и/или инструменту назначае(ю)тся слово и/или слова, которое(ые) активирует(ют) и/или деактивирует(ют) его (где слово и/или слова могут быть общими для многих пользователей и/или специфическими для отдельного пользователя), и когда прикладное программное обеспечение идентифицирует назначенное(ые) слово(а), оно активирует и/или деактивирует режим и/или инструмент. Этот признак может активироваться и/или деактивироваться по требованию пользователем и/или иным образом.

Фиг. 1 схематически демонстрирует вычислительную систему 102. Вычислительная система 102 включает в себя вычислительное средство 104, например, компьютер общего назначения, рабочую станцию, портативный компьютер, планшетный компьютер, консоль системы формирования изображений и/или другое вычислительное средство 104. Вычислительное средство 104 включает в себя разъем 106 ввода/вывода (I/O), выполненный с возможностью электрически сообщаться с одним или более устройствами 108 ввода (например, микрофоном 110, мышью 112, клавиатурой 114, …, и/или другим устройством 116 ввода) и одним или более устройствами 118 вывода (например, дисплеем 120, проектором и/или другим устройством вывода).

Сетевой интерфейс 122 выполнен с возможностью электрически сообщаться с одним или более устройствами формирования изображения, хранения данных, вычисления и/или другими устройствами. В проиллюстрированном варианте осуществления вычислительное средство 104 получает, по меньшей мере, данные формирования изображения через сетевой интерфейс 122. Данные формирования изображения и/или другие данные также могут храниться на жестком диске и/или других запоминающих средствах 104. Данные формирования изображения могут генерироваться одним или более из компьютерно-томографического (CT), магнитно-резонансного (MR), позитрон-эмиссионно-томографического (PET), однофотонно-эмиссионно-компьютерно-томографического (SPECT), ультразвукового (US), рентгеновского, их комбинации и/или другого устройства формирования изображения, и хранилищем данных может быть система архивации и передачи изображений (PACS), радиологическая информационная система (RIS), больничная информационная система (HIS), память компьютерного средства и/или другое хранилище.

Детектор 124 аудиосигнала выполнен с возможностью регистрации входного аудиосигнала и генерации электрического сигнала, указывающего его. Например, когда входным аудиосигналом является голос пользователя, детектор 124 аудиосигнала регистрирует голос и генерирует электрический сигнал, указывающий голосовой ввод. Графический(е) процессор(ы) 126 выполнен(ы) с возможностью переноса видеосигнала, через I/O 106, на дисплей 120 для визуального представления изображения. В проиллюстрированном варианте осуществления, в одном случае, видеосигнал визуализирует интерактивный графический пользовательский интерфейс (ГИП) с одной или более областями представления изображения или окнами просмотра для визуализации изображений, например, данных изображения, одной или более областями с органами программного управления для инициирования одного или более режимов и/или одного или более инструментов для манипулирования, анализа, проекции, хранения и т.д. визуализируемого изображения.

Главный процессор 128 (например, микропроцессор, контроллер и т.п.) управляет I/O 106, сетевым интерфейсом 122, детектором 124 аудиосигнала, графическим(и) процессором(ами) 126 и/или одним или более другими компонентами вычислительного средства 104. Главный процессор 128 может включать в себя один или более процессоров, которые выполняют одну или более компьютерно-считываемых инструкций, закодированных, внедренных, сохраненных и т.д. в компьютерно-считываемой среде хранения, например, физической памяти 130 и/или другой нетранзиторной памяти. В проиллюстрированном варианте осуществления память 130 включает в себя, по меньшей мере, прикладное программное обеспечение 132 и операционную систему 134. Главный процессор 128 также может выполнять компьютерно-считываемые инструкции, переносимые сигналом, несущей волной и/или другой транзиторной средой.

В другом варианте осуществления один или более из вышеперечисленных компонентов могут составлять часть или также могут составлять часть внешней машины, например, в части клиентско-серверного режима графического процессора и/или части вычислительных компонентов, которые располагаются на сервере, а остальные компоненты на клиенте.

В проиллюстрированном варианте осуществления прикладное программное обеспечение 132 включает в себя код 136 приложения, например, для приложения просмотра, манипуляции и/или анализа данных формирования изображения, которое включает в себя различные режимы (например, последовательность просмотра, сегмент, фильм и т.д.) и инструменты (например, масштабирование, панорамирование, перенос и т.д.). Прикладное программное обеспечение 132 дополнительно включает в себя программное обеспечение 138 распознавания голоса, которое сравнивает сигнал регистрации от детектора 124 аудиосигнала с сигналами для одного или более заранее определенных авторизованных пользователей 140 с использованием известных и/или других алгоритмов распознавания голоса и генерирует сигнал распознавания, который указывает, поступает ли аудиосигнал от пользователя, авторизованного использовать прикладное программное обеспечение 132, и, если да, в необязательном порядке, идентификацию авторизованного пользователя.

В разновидности, компоненты 138 и 140 исключены. В таком примере журнал в информации можно использовать для идентификации отображения команды в режим/инструмент для пользователя. Когда компоненты 138 и 140 включены, вычислительное средство 104 может инициироваться для запуска обучающегося кода приложения для кода 136 приложения или другого кода приложения, в котором разные пользователи системы обучают прикладное программное обеспечение 132 для изучения и/или распознавания их голоса и связывания их голоса с соответствующим отображением команды в режим/инструмент. В этом примере прикладное программное обеспечение 132 может сначала определять, авторизован ли пользователь использовать признак аудиокоманды. Если нет, признак не активируется, а если да, прикладное программное обеспечение 132 будет активировать признак и знать, какое отображение команды в режим/инструмент использовать.

Проиллюстрированное прикладное программное обеспечение 132 также включает в себя преобразователь 142 аудиосигнала в команду, который генерирует командный сигнал на основании сигнала регистрации. Например, преобразователь 142 аудиосигнала в команду может генерировать командный сигнал для термина “сегментация”, где преобразователь 142 аудиосигнала в команду определяет сигнал регистрации, соответствует произнесенному слову “сегментация”. Прикладное программное обеспечение 132 может повторять термин и/или визуально представлять термин и ожидать подтверждения пользователя. Очевидно, что можно использовать бессмысленные или искусственные слова (слово(а), не принадлежащие естественному языку пользователя), произносимые звуки и/или звуковые шаблоны, непроиносимые звуки и/или звуковые шаблоны (например, нажатие на инструмент и т.д.) и/или, альтернативно, можно использовать другие звуки.

Идентификатор 144 режима/инструмента отображает командный сигнал в программный вызов, который активирует и/или деактивирует режим и/или инструмент на основании заранее определенного отображения 146 команды в режим/инструмент. Заранее определенное отображение 146 команды в режим/инструмент может включать в себя универсальное установление соответствия термина программному вызову для всех пользователей и/или заданное пользователем установление соответствия термина программному вызову, созданное конкретным пользователем.

Отображение команды в режим/инструмент из отображений 146 для конкретного пользователя может предоставляться вычислительному средству 104 как файл через сетевой интерфейс 122 и/или I/O 106, например, через порт USB (например, из портативной памяти), привод CD, привод DVD и/или другие устройства ввода I/O. Дополнительно или альтернативно, прикладное программное обеспечение 132 позволяет пользователю вручную вводить пару слово(а)/программный вызов с использованием клавиатуры 114 и/или микрофона 110 и детектора 124 аудиосигнала. В последнем примере пользователь может произнести слово и программный вызов. Затем код 136 приложения может повторять речевые фрагменты и просить подтверждение. Ручной и/или звуковой ввод также можно использовать для изменения и/или удаления отображения.

В ходе создания/редактирования отображения и/или применения прикладного программного обеспечения 132 для просмотра, манипулирования и/или анализа данных формирования изображения отображение 146 для пользователя может наглядно представляться, что позволяет пользователю видеть отображение. Представление отображения также может переключаться на основании звуковой и/или ручной команды. Таким образом, пользователь может визуально устанавливать визуальное отображение отображения по требованию, например, когда пользователь не может вспомнить аудиокоманду, хочет подтвердить аудиокоманду до ее произнесения, хочет изменить аудиокоманду, хочет удалить аудиокоманду и/или иным образом хочет наглядно представлять отображение.

Проиллюстрированное прикладное программное обеспечение 132 дополнительно включает в себя инициатор 148 режима/инструмента, который инициирует режим и/или инструмент (для активации или деактивации режима или инструмента) на основании программного вызова. Например, когда программный вызов соответствует режиму “сегментация” и другой режим представляется в данный момент на дисплее 120, инициатор 148 режима/инструмента предписывает коду 136 приложения переключаться в режим сегментации. Когда программный вызов соответствует режиму “сегментация” и режим сегментации представляется в данный момент на дисплее 120, либо не предпринимается никакого действия, либо инициатор 148 режима/инструмента предписывает коду 136 приложения переключаться из режима сегментации, например, в предыдущий режим и/или режим по умолчанию. Таким образом, входной аудиосигнал используется для переключения между режимом и одним или более другими режимами. Аналогичным образом может осуществляться программный вызов инструмента.

Согласно вышесказанному прикладное программное обеспечение 132 позволяет пользователю средства 104 активировать и/или деактивировать режим и/или инструмент без необходимости вручную искать и/или вручную выбирать режим и/или инструмент с помощью мыши и/или клавиатуры посредством последовательности контекстного, выпадающего и т.д. меню ГИП, представляемого на дисплее. Напротив, пользователю, находящемуся в определенном умонастроении и просматривающему конкретные данные изображения, необходимо только произнести “речевой фрагмент”, отображенный в программный вызов, представляющий интерес, для переключения на и/или установления конкретного инструмента. Это облегчает усовершенствование работы за счет облегчения и сокращения времени активации режима и/или инструмента, представляющего интерес.

Пригодные приложения системы 102 включают в себя, но без ограничения, просмотр данных формирования изображения в связи с центром формирования изображения, врач первичной медико-санитарной помощи, кабинетом обработки рентгенограмм, операционной и т.д. Система 102 хорошо подходит для операционных, интервенционных комплектов и/или других стерильных условий, поскольку функциональные возможности могут активироваться и/или деактивироваться посредством голоса вместо физического контакта между клиницистом и оборудованием вычислительной системы.

Примеры пригодных режимов и/или пригодных инструментов, которые могут инициироваться посредством аудиосигнала, включают в себя, но без ограничения, режим мыши, режим масштабирования, режим панорамирования, создание графики, инструменты сегментации, инструменты сохранения, конфигурация экрана – сравнение + конфигурации, выбор объема, открытие диалога, переключатель стадий, активация приложений, изменения органов управления окном просмотра, фильм, открытое плавающее меню, навигацию по изображению, инструменты создания изображения и/или протоколы представления изображения. Аудиокоманды также могут перемещать мышь, например, в конкретном направлении, с заранее определенным или заданным пользователем приращением и т.д., конкретные режимы и/или инструменты могут быть заданными по умолчанию, заданными пользователем, заданными при изготовлении и/или заданными иным образом.

Фиг. 2 демонстрирует иллюстративный способ, который позволяет пользователю выбирать режим и/или инструмент посредством аудиокоманды вместо команд, подаваемых с помощью мыши и/или клавиатуры.

Очевидно, что порядок действий не ограничен. Таким образом, здесь допустимы другие порядки. Кроме того, одно или более действий могут быть опущены и/или могут быть включены одно или более дополнительных действий.

На этапе 202 прикладное программное обеспечение для просмотра, манипулирования и/или анализа данных формирования изображения выполняется посредством вычислительной системы.

На этапе 204 ГИП, включающий в себя области (или окна просмотра) представления изображения данных формирования изображения и области выбора режимов и/или инструментов, визуально представляется на дисплее вычислительной системы.

На этапе 206 вычислительная система активирует признак аудиокоманды выполняющегося приложения.

В одном случае признак аудиокоманды активируется/деактивируется пользователем посредством устройства ввода, например, мыши или клавиатуры в связи с управлением признаком аудиокоманды, наглядно представляемым в связи с реализацией прикладного программного обеспечения. В этом примере признак аудиокоманды составляет часть прикладного программного обеспечения 132, а не операционной системы 134. В другом примере, признак аудиокоманды активируется просто в ответ на выполнение прикладного программного обеспечения. Опять же в этом примере признак звуковой или голосовой команды составляет часть прикладного программного обеспечения 132, а не операционной системы 134.

В разновидности, признак аудиокоманды активируется в ответ на ручную или звуковую активацию признака аудиокоманды посредством операционной системы 134 до, одновременно и/или после выполнения прикладного программного обеспечения. В этом примере полный признак аудиокоманды может активироваться, или признак аудиокоманды в прикладном программном обеспечении 132 может выполняться в режиме, в котором оно будет обнаруживать только команду для активации/деактивации других признаков и, в соответствии с этим, активации или деактивации других признаков.

На этапе 208 активированный признак аудиокоманды прослушивает речевые фрагменты.

На этапе 210 в необязательном порядке, если речевой фрагмент регистрируется, речевой фрагмент используется для определения, авторизован ли пользователь использовать систему и/или идентификацию пользователя.

Иным образом, на этапе 212, производится определение, отображается ли речевой фрагмент в программный вызов для режима и/или инструмента.

Если определено, что речевой фрагмент не отображается в программный вызов, действие 208 повторяется.

Иным образом, на этапе 214, речевой фрагмент отображается в программный вызов для режима и/или инструмента.

На этапе 216 программный вызов инициирует активацию и/или деактивацию режима и/или инструмента в зависимости от текущего состояния выполняющегося приложения, и действие 208 повторяется.

Признак аудиокоманды может временно блокироваться, например, чтобы не вызываться другой программой распознавания голоса. Альтернативно, можно заранее назначать приоритет для одновременно выполняющихся программ распознавания аудиосигнала. В другом примере особый физический и/или программный переключатель можно использовать для включения или отключения признака аудиокоманды.

В необязательном порядке речевой фрагмент может инициировать команду в конкретном режиме и/или инструменте. Например, речевой фрагмент можно использовать для выбора или переключения между видом (например, осевым, сагиттальным, корональным, наклонным и т.д.), выбора или переключения визуализации (например, MIP, mIP, искривленный MPR и т.д.), выбора или переключения между 2D и 3D и т.д. Речевой фрагмент также можно использовать для изменения точки обзора, типа данных, типа изображения и т.д.

Как рассмотрено здесь, вышеизложенное позволяет пользователю активировать и/или деактивировать режимы и/или инструменты без необходимости вручную искать и/или вручную выбирать режим и/или инструмент с помощью мыши и/или клавиатуры посредством последовательности контекстного, выпадающего и т.д. меню ГИП, наглядно представляемого на дисплее, что может облегчать усовершенствование работы за счет облегчения и сокращения времени активации режима и/или инструмента, представляющего интерес.

Вышеописанные способы можно реализовать посредством компьютерно-считываемых инструкций, закодированных или внедренных в компьютерно-считываемой среде хранения, которые, при выполнении компьютерным(и) процессором(ами), предписывают процессору(ам) осуществлять описанные действия. Дополнительно или альтернативно, по меньшей мере, одна из компьютерно-считываемых инструкций переносится сигналом, несущей волной или другой транзиторной средой.

Фиг. 3 и 4 и Фиг. 5 соответственно демонстрируют традиционные подходы к использованию инструментов и переключению между режимами. На обеих фигурах ГИП 302 включает в себя область 304 представления данных формирования изображения, которая включает в себя MxN (где M и N – целые числа) окон 306, 308, 310 и 312 просмотра, и панель 314 режимов/инструментов с вкладкой 316 выбора режима и палитрой 318 инструментов. В этом примере, существует четное число окон просмотра, и окна просмотра имеют одинаковую геометрию. Однако здесь также допустимо нечетное число окон просмотра и/или окна просмотра разного размера. Кроме того, конкретные последовательности, рассмотренные ниже, представляют поднабор возможных действий, и в разных ГИП режимы и/или инструменты могут размещаться в разных местах и/или предусматривать разные действия для их инициирования.

Согласно Фиг. 3 режим 320 уже выбран, и J×K (где J и K – целые числа) соответствующие инструменты 322, 324, 326 и 328 наполняют палитру 318. В целом, чтобы пользователь активировал инструмент 322, просматривая данные формирования изображения в окне 308 просмотра, например, пользователь, посредством мыши и т.п., перемещает графический указатель на инструмент 322, водит графическим указателем по инструменту 322 и кликает один или более раз по инструменту 322. Таким образом, пользователь также переводит взгляд и отвлекается от данных формирования изображения в окне 308 просмотра. Затем пользователь, посредством мыши и т.п. перемещает графический указатель обратно в окно 308 просмотра, водит графическим указателем по окну 308 просмотра и кликает один или более раз по окну 308 просмотра. Затем пользователь может применять функцию, обеспеченную инструментом 322, с данными формирования изображения в окне 308 просмотра.

Согласно Фиг. 4 инструмент, выбранный из палитры 318 инструментов, инициирует реализацию плавающего меню 402, с L (где L – целое число) подинструментами 404, 406 в окне 308 просмотра. С этим подходом пользователь совершает дополнительные действия, посредством мыши и т.п., перемещая графический указатель на плавающий инструмент 402, проводя графическим указателем по плавающему инструменту 402 и подинструменту, представляющему интерес, кликая один или более раз по плавающему инструменту 402, кликая один или более раз по подинструменту, представляющему интерес, и кликая один или более раз снова по окну 308 просмотра. Затем пользователь может применять функцию, обеспеченную выбранным подинструментом, с данными формирования изображения в окне 308 просмотра.

Возвращаясь к Фиг. 5, для изменения режимов, пользователь, посредством мыши и т.п., перемещает графический указатель на вкладку 316 выбора режима, водит графическим указателем по вкладке 316 выбора режима и кликает один или более раз по вкладке 316 выбора режима. Это инициирует реализацию иным образом скрытого окна 502 выбора режима, которое включает в себя X (где X – целое число) режимов 504, 506. Для выбора режима пользователь, посредством мыши и т.п., перемещает графический указатель на режим, водит графическим указателем по режиму и кликает один или более раз по режиму. Пользователь, посредством мыши и т.п., затем перемещает графический указатель обратно в окно просмотра, водит графическим указателем по окну просмотра и кликает один или более раз по окну просмотра. Соответствующие инструменты наглядно представляются в палитре 318 инструментов после выбора режима.

Согласно Фиг. 3, в связи с системой 102 (Фиг. 1), в одном неограничительном примере пользователь, просматривая данные формирования изображения в окне 308 просмотра, может просто произнести аудиокоманду, назначенную инструменту 322. Пользователю также не нужно переводить взгляд и нарушать свою концентрацию по отношению к данным формирования изображения в окне 308 просмотра. Для выбора другого инструмента или смены режимов опять же требуется просто произнести надлежащий термин команды. Для отката инструмента или режима, например, когда пользователь меняет свой выбор или инициирует неверный инструмент или режим, пользователь может использовать термин команды “откат”, например, универсальный термин команды “откат” для отката любого инструмента или режима, термин, заданный пользователем, просто повторяя тот же термин, который инициирует инструмент или режим и т.д. Согласно Фиг. 4 подинструмент из плавающего меню также можно выбирать/отменять выбор аналогичным образом, и согласно Фиг. 5 режим можно выбирать/отменять выбор аналогичным образом. Конечно, пользователь по-прежнему может пользоваться мышью для осуществления выбора.

Изобретение описано со ссылкой на предпочтительные варианты осуществления. Модификации и изменения могут быть предложены после ознакомления с предыдущим подробным описанием. Предполагается, что изобретение построено как включающее в себя все подобные модификации и изменения настолько, насколько они попадают в объем нижеследующей формулы изобретения или ее эквиваленты.

1. Способ для инициирования программного вызова, содержащий этапы, на которых:

визуально представляют список отображений пары речевого фрагмента в программный вызов;

принимают аудиосигнал на вычислительном средстве (104);

определяют, посредством вычислительного средства, соответствует ли аудиосигнал заранее определенному отображению между речевым фрагментом и программным вызовом прикладной программы, выполняющейся на вычислительном средстве, в списке отображений пары речевого фрагмента в программный вызов; и

инициируют программный вызов только в ответ на аудиосигнал, соответствующий программному вызову, причем инициированный программный вызов по меньшей мере активирует и/или деактивирует, по меньшей мере, один из режима или инструмента выполняющейся прикладной программы.

2. Способ по п. 1, в котором выполняющаяся прикладная программа, а не операционная система вычислительного средства, определяет, соответствует ли аудиосигнал заранее определенному отображению между речевым фрагментом и программным вызовом.

3. Способ по п. 1, в котором выполняющаяся прикладная программа является приложением просмотра, манипуляции и/или анализа данных формирования изображения.

4. Способ по п. 1, в котором выполняющаяся прикладная программа инициирует визуализацию одного или более окон просмотра данных формирования изображения и панели режимов/инструментов, где режимы и инструменты соответствуют просмотру, манипуляции и/или анализу данных формирования изображения.

5. Способ по п. 1, в котором инициирование программного вызова не изменяет текущее активное окно просмотра, визуально представляющее данные формирования изображения.

6. Способ по п. 1, в котором инициирование программного вызова не требует перемещения устройства ввода.

7. Способ по п. 1, дополнительно содержащий этапы, на которых:

преобразуют принятый аудиосигнал в командный сигнал;

размещают командный сигнал в заранее определенном отображении;

идентифицируют программный вызов, соответствующий командному сигналу; и

инициируют идентифицированный программный вызов.

8. Способ по п. 1, в котором, по меньшей мере, одно отображение из заранее определенного отображения является общим для множества пользователей, специфического для отдельного пользователя.

9. Способ по п. 1, дополнительно содержащий этап, на котором:

принимают электронные данные из, по меньшей мере, одного из устройства ввода или запоминающего устройства, причем электронные данные включают в себя отображение, по меньшей мере, одного речевого фрагмента в программный вызов и отображение, по меньшей мере, одного речевого фрагмента в программный вызов образует часть заранее определенного отображения.

10. Способ по п. 1, дополнительно содержащий этап, на котором:

принимают аудиосигнал, указывающий отображение, по меньшей мере, одного речевого фрагмента в программный вызов, причем отображение, по меньшей мере, одного речевого фрагмента в программный вызов образует часть заранее определенного отображения.

11. Способ по п. 1, дополнительно содержащий этапы, на которых:

идентифицируют источник речевого фрагмента;

инициируют программный вызов только в случае, когда источник авторизован инициировать программный вызов.

12. Способ по п. 1, дополнительно содержащий этап, на котором:

включают и отключают инициирование программных вызовов посредством аудиокоманды инициирования программного вызова, причем отключение инициирования не прерывает режим или инструмент, активированный программным вызовом.

13. Способ по п. 1, дополнительно содержащий этап, на котором:

обращают активацию режима или инструмента в ответ на соответствующую команду аудиосигнала обращения программного вызова.

14. Вычислительное средство (104) для инициирования программного вызова, содержащее:

детектор (124) аудиосигнала, выполненный с возможностью регистрировать аудиосигнал;

память (130), выполненную с возможностью хранить, по меньшей мере, прикладное программное обеспечение (132);

дисплей (120), выполненный с возможностью визуально представлять список отображений пары речевого фрагмента в программный вызов; и

главный процессор (128), выполненный с возможностью выполнять прикладное программное обеспечение,

причем выполняющееся прикладное программное обеспечение выполнено с возможностью определять, соответствует ли зарегистрированный аудиосигнал заранее определенному отображению между речевым фрагментом и программным вызовом прикладной программы, выполняющейся на вычислительном средстве, в списке отображений пары речевого фрагмента в программный вызов, и инициирует программный вызов только в ответ на аудиосигнал, соответствующий программному вызову.

Похожие патенты:

Настоящее изобретение относится к способу выделения информации и устройству для выделения информации, принадлежащему к области использования сенсорных экранов. Техническим результатом является обеспечение возможности точно идентифицировать блок содержания, выделенный пользователем, и повышение точности при выделении текстовой информации.

Изобретение относится к мобильному терминалу и способу обработки виртуальной кнопки. Технический результат заключается в повышении точности ввода и достигается за счет того, что мобильный терминал включает в себя: сенсорную панель, включающую в себя множество виртуальных кнопок, и вспомогательную область сенсорного обнаружения, в котором вспомогательная область сенсорного обнаружения располагается на одной стороне сенсорной панели; и микросхему обработки касания, которая соединяется с сенсорной панелью и является выполненной с возможностью обработки активатора виртуальной кнопки по меньшей мере из двух виртуальных кнопок, находящейся на отдалении от вспомогательной области сенсорного обнаружения, если активаторы по меньшей мере двух виртуальных кнопок и вспомогательной области сенсорного обнаружения были получены одновременно, причем упомянутая обработка выполнятся на основании сравнения расстояния от вспомогательной области сенсорного обнаружения до одной из по меньшей мере двух виртуальных кнопок, и приоритет обработки зависит от упомянутого расстояния.

Изобретение относится к компьютерной технике, а именно к системам интеллектуальных автоматизированных помощников. Техническим результатом является повышение точности представления пользователю релевантной информации за счет учета относительной важности между свойствами, которые соответствуют элементам предметной области.

Изобретение относится к области связи. Технический результат заключается в повышении эффективности сбора целевой информации в чате для членов группы. Технический результат достигается за счет приема запускающего сообщения, массово отправленного заранее установленным членом группы, причем упомянутое запускающее сообщение содержит текст подсказки и инструкцию перехода на страницу; генерирования соответствующей текстовой ссылки на основе текста подсказки и отображения упомянутой текстовой ссылки на интерфейсе чата группы; и выполнения инструкции перехода на страницу для перехода на соответствующую целевую страницу для завершения сбора целевой информации, когда заранее установленное запускающее событие по отношению к упомянутой текстовой ссылке наблюдается, при этом, когда локальный член группы является заранее установленным членом группы, целевая страница содержит заранее установленную запускающую опцию, упомянутая заранее установленная запускающая опция конфигурируется для запуска массовой отправки запускающего сообщения для всех членов группы. 3 н. и 10 з.п. ф-лы, 7 ил.

Изобретение относится к режимам иили инструментам выполняющейся прикладной программы, визуально представляемым в графическом пользовательском интерфейсе, обеспечивающим взаимодействие с пользователем. Техническим результатом является упрощение и ускорение нахождения режимаинструмента, представляющего интерес для пользователя во время его работы, за счет инициирования программного вызова только в ответ на аудиосигнал, соответствующий программному вызову. Способ для инициирования программного вызова содержит этапы, на которых: визуально представляют список отображений пары речевого фрагмента в программный вызов; принимают аудиосигнал на вычислительном средстве; определяют, посредством вычислительного средства, соответствует ли аудиосигнал заранее определенному отображению между речевым фрагментом и программным вызовом прикладной программы, выполняющейся на вычислительном средстве, в списке отображений пары речевого фрагмента в программный вызов; и инициируют программный вызов только в ответ на аудиосигнал, соответствующий программному вызову, причем инициированный программный вызов по меньшей мере активирует иили деактивирует, по меньшей мере, один из режима или инструмента выполняющейся прикладной программы. 2 н. и 12 з.п. ф-лы, 5 ил.