Уже давно работает совершенно бесплатная онлайн-платформа для обработки текстовой и звуковой информации Corpus.by. На ней собраны десятки сервисов, которые помогают в изучении белорусского языка и не только. Создали ее сотрудники лаборатории. Пять лет назад здесь было всего три сервиса. Зато сегодня сервисов более 40. На разработку некоторых пошло полдня, на другие — месяцы и годы.
Возможностей много: хотите — генерируйте транскрипции, хотите — запускайте сервис «говорящая голова» и смотрите на человека, который озвучивает то, что вы попросите. Можно проверить правописание, разделить слова на слоги, упорядочить слова по алфавиту или (чтобы вы уже точно убедились в разнообразии ресурса) конвертировать текст в код Морзе.
Особенно полезный сервис — «озвученный электронный грамматический словарь». Здесь можно проверить написание любого белорусского слова по всем имеющимся словарям и прослушать, как оно звучит в исполнении синтезатора речи.
Осторожно — сайт засасывает!
Когда в Лабораторию распознавания и синтеза речи обратилась Валентина Русак с просьбой помочь в разработке орфоэпического словаря, программисты придумали техническое решение, благодаря которому удалось сэкономить не один год работы.
«Все началось с того, что наша лаборатория разработала автоматическую систему синтеза речи и выложила ее в интернет для свободного пользования, — рассказывает заведующий лабораторией Юрий Гецевич. — Качество сгенерированной речи не идеальна, но разобрать слова можно.
Принцип работы синтезатора речи впоследствии использовали для автоматической генерации транскрипции слов. Станислав Лысый создал для этого отдельный сервис — «Генератор орфоэпического словаря». Сначала его тестировали лингвисты, они фиксировали ошибки и передавали в лабораторию на исправление. В результате сервис научился генерировать транскрипцию почти безупречно.
«Нам удалось добиться этих 98% благодаря нескольким сотням правил, которые прописали Борис Лобанов, Лилия Цырульник, Дмитрий Покладок и скорректировали Елена Гюнтер, Евгения Зеновко, Юрий Гецевич и я. Простите, если не всех разработчиков правил — сотрудников нашей лаборатории — вспомнил. Чем более узкое правило, тем сложнее его добавить. Взять то же «г» взрывное. Пришлось ломать голову на тем, как его включить, чтобы не поломать все остальное», — добавляет Станислав Лысый.
Сотрудники лаборатории призывают пользователей заходить на интернет-ресурс Corpus.by и знакомиться с сервисами, почти каждый из которых имеет подробное описание. А также включаться в их совершенствование и сообщать о тех вещах, которые можно улучшить, а также об ошибках, которые следует исправить.
Источник: http://nn.by/