Автоматическое распознавание речи

Внимание! Материалы могут быть недоступны или обновлены на текущий учебный год.

Назад

2023–2024

Дата Темы Материалы Задание
Лекции
14.02.2024 Введение Презентация (pdf)
21.02.2024 Акустические признаки Презентация (pdf)
28.02.2024 Акустические модели Презентация (pdf)
06.03.2024 Языковые модели Презентация (pdf)
13.03.2024 Произносительные словари Презентация (pdf)
20.03.2024 Декодер Презентация (pdf)
Семинары
27–?.02.2024 Доклады Темы докладов:
  1. Wavelet-преобразование
  2. Настройка системы на диктора
  3. Устойчивость систем АРР к шуму
  4. LSTM в АРР
  5. Трансформеры в АРР
  6. Wav2vec: общая архитектура
  7. Долговременные (TRAP, TempoRAL Patterns) признаки
  8. CRF в АРР
  9. HTK Speech Recognition Toolkit
  10. Kaldi ASR
  11. CMU Sphinx
  12. Частные случаи АРР: детская речь, патологическая речь, ...
  13. Сбор данных для обучения системы АРР
  14. Computer-aided pronunciation training
  15. Любая статья Interspeech по АРР
  16. Преобразования признаков: LDA, PCA, DMC
  17. Постобработка текста в АРР
  18. Другая тема, интересующая лично вас
Практические занятия
08.05.2024 Акустические признаки
15.05.2024 Языковые модели Ноутбук
22.05.2024 Создание датасета Ноутбук

Список вопросов к экзамену:

  1. Системы АРР. Типология, области применения, основные подходы к построению систем АРР.
  2. Архитектура системы АРР.
  3. Обработка речевого сигнала. Методы описания и формы представления речевого сигнала.
  4. Акустические характеристики речевого сигнала, используемые для АРР. MFCC, PLP, LPC.
  5. Стохастические модели, используемые в АРР. СММ, конечные преобразователи.
  6. Скрытые Марковские модели. Оценка, обучение и распознавание.
  7. Акустическое моделирование. Кластеризация состояний. Гибридные модели.
  8. Произносительные словари. Автоматическая транскрипция.
  9. Языковые модели. N-граммы. Проблемы, возникающие при использовании n-грамм, пути решения проблем. Другие методы моделирования языка.
  10. Алгоритмы поиска правильного решения. Интеграция моделей. Обработка внесловарных слов.
  11. Нейросетевые методы в распознавании речи. wav2vec, трансформеры.

Список литературы:

  1. Бондарко Л.В. Осциллографический анализ речи. Изд. ЛГУ, 1965.
  2. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики. Учебное пособие. СПб., 2004, 160 с.
  3. Кодзасов С.В., Кривнова О.В. Общая фонетика. М., 2001.
  4. Ли У. (ред.), Методы автоматического распознавания речи. М. 1983.
  5. Сергиенко А.Б. Цифровая обработка сигналов. М., 2003.
  6. Скрелин П.А. Фонетические аспекты речевых технологий. СПб, 1999.
  7. Тампель И.Б., Карпов А.А. Автоматическое распознавание речи. СПб: Университет ИТМО, 2016
  8. Фант Г. Акустическая теория речеобразования. Москва, 1964.
  9. Фант Г. Анализ и синтез речи. Новосибирск, 1970.
  10. Фланаган Д. Анализ, синтез и восприятие речи. М. 1968 г.
  11. Якобсон, Г. Фант, М. Халле, Введение в анализ речи // «Но­вое в лингвистике». II., М., 1962.
  12. Duda R.O., Hart P.E., Stork D.G., Pattern Classification. 2nd ed., J. Wiley & Sons, New York, NY, 2001.
  13. Huang X., Acero A., Hon H.-W. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. : Prentice Hall PTR Upper Saddle River, NJ, USA, 2001.
  14. Jurafsky D., Martin J.H., Speech and Language Processing. Prentice Hall, 2009.

Подписывайтесь на соцсети нашей кафедры!
t.me/phonetics_spbu
vk.com/phonetics.spbu