Систему «Поиск по архивам» обучали на массиве из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Алгоритм умеет с помощью систему оптического распознавания символов учитывать особенности почерка, узнавать утратившие актуальность буквы и «понимает особую структуру архивных документов».
«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени, а наш сервис справляется с этим за несколько секунд», — рассказала руководитель поиска «Яндекса» Елена Бубнова.
Пользователи сервиса могут искать записи через строку поиска или по каталогу. Можно выставить фильтры по годам, архивам, фондам и описям. Также в базе можно найти страницы с упоминанием определенной фамилии или населенного пункта.
В электронном каталоге уже есть доступ к более чем 2,5 млн исторических документов от середины XVIII до начала XX века с текстовой расшифровкой из Главархива Москвы, а также архивов Оренбургской и Новгородской областей. Команда разработчиков пообещали обновлять базу данных.
Комментарии (0)