• Образ жизни
  • Технологии
  • News
Технологии

«Яндекс» создал нейросеть для расшифровки архивных документов с дореволюционной орфографией

Систему «Поиск по архивам» обучали на массиве из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Алгоритм умеет с помощью систему оптического распознавания символов учитывать особенности почерка, узнавать утратившие актуальность буквы и «понимает особую структуру архивных документов».

Скриншот "Поиск по архивам"
Shutterstock.com

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени, а наш сервис справляется с этим за несколько секунд», — рассказала руководитель поиска «Яндекса» Елена Бубнова.

Пользователи сервиса могут искать записи через строку поиска или по каталогу. Можно выставить фильтры по годам, архивам, фондам и описям. Также в базе можно найти страницы с упоминанием определенной фамилии или населенного пункта.

В электронном каталоге уже есть доступ к более чем 2,5 млн исторических документов от середины XVIII до начала XX века с текстовой расшифровкой из Главархива Москвы, а также архивов Оренбургской и Новгородской областей. Команда разработчиков пообещали обновлять базу данных.

Комментарии (0)

Купить журнал:

Выберите проект: