Нейросеть Яндекса за год расшифровала более 10 млн страниц исторических документов

26 января 2024 года   |  Разное

Нейросеть Яндекса за год расшифровала более 10 млн страниц исторических документов

Яндекс подвел итоги работы Поиска по архивам, запущенного 25 января 2023 года. Согласно данным компании, за год нейросеть расшифровала более 10 млн страниц исторических документов, а пользователи просмотрели их более 20 млн раз.

Сейчас в Поиске по архивам есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. Всего за год нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков: это более 10 миллионов страниц или 492 миллиона строк.

В Поиске по архивам также хранятся расшифрованные архивные дела (например, метрические книги и ревизские сказки) с информацией о людях, родившихся в России до революции. Кроме того, в сервисе собраны 3,6 млн оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

Отметим, технология расшифровки в Поиске по архивам основана на оптическом распознавании символов. Нейросеть узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с версткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности.

Иллюстрация к статье: Яндекс.Картинки

Читайте также

Статьи