Простой, но эффективный метод определения пауз заключается в сравнении энергии текущего сигнала относительно максимальной или средней энергии сигнала во всем файле или сегменте файла. Конкретное значение порога должно получаться из максимальной/средней энергии файла путём умножения на некоторый коэффициент, значение которого подбирается эмпирически. Следует быть внимательными, т.к. на качество определения могут повлиять: 1. выбросы амплитуды речевого сигнала (сильно влияет на максимальную энергию, меньше на среднюю). Можно сначала отсеять какой-то процент (процентиль) слишком громких участков сигнала. t = numpy.percentile(values, 99) values = [v for v in values if v < t] 2. наличие шумов в паузах. Можно сделать порог речевого фрагмента (например, 5 или 10 мс) 3. акустически смычку и паузу не различить, только по длительности. Точно так же можно сделать порог паузы (может отличаться от порога речи) Важно, в каком порядке будут учитываться пп. 2-3, это будет влиять на конечный результат.