ФАС России Опора России

Более 9 млн страниц архивных записей Главархива Москвы расшифровали с помощью нейросетей

13 / 06 ‘23

На базе столичного Главархива проводится эксперимент по внедрению технологий компьютерного зрения в сферу архивного дела: с января 2023 года работает платформа «Поиск по архивам», на которой с помощью нейросетей расшифровываются архивные записи со сложной орфографией XVIII - начала XX веков. Об этом сообщается на официальном сайте мэра и правительства Москвы.

«В распоряжении комплекса социального развития Москвы уже была современная цифровая техника и огромный архив оцифрованных документов по историям семей - именно эти материалы послужили основой для обучения искусственного интеллекта. Сейчас в базе сервиса представлено 4,5 млн образов архивных документов, а это более 9 млн страниц метрических книг, исповедных ведомостей, ревизских сказок», - приводятся в сообщении слова заместителя мэра Москвы по вопросам социального развития Анастасии Раковой.

Отмечается, что сервис уже помогает исследователям и архивистам. Всего за несколько месяцев пользователи нашли и изучили около 5 млн оцифрованных страниц архивных документов с текстовыми расшифровками, это более половины всех представленных материалов.

Ресурс работает бесплатно на открытой платформе. Искусственный интеллект находит в исторических документах упоминания фамилий, имен, населенных пунктов и любых других слов, что облегчает поиск информации. Документы на платформе можно искать по каталогу или через строку поиска, также доступны фильтры по годам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями. Если навести курсор на нужный фрагмент, он подсветится на цифровой копии.

Как указывается в материале, к проекту уже присоединились Московская, Оренбургская, Новгородская области, а также республика Мордовия. Нейросети, разработанные в столице, проанализировали около 1,7 млн электронных копий документов из региональных архивов.