Более 9 млн страниц архивных записей Главархива Москвы расшифровали с помощью нейросетей
На базе столичного Главархива проводится эксперимент по внедрению технологий компьютерного зрения в сферу архивного дела: с января 2023 года работает платформа «Поиск по архивам», на которой с помощью нейросетей расшифровываются архивные записи со сложной орфографией XVIII - начала XX веков. Об этом сообщается на официальном сайте мэра и правительства Москвы.
«В распоряжении комплекса социального развития Москвы уже была современная цифровая техника и огромный архив оцифрованных документов по историям семей - именно эти материалы послужили основой для обучения искусственного интеллекта. Сейчас в базе сервиса представлено 4,5 млн образов архивных документов, а это более 9 млн страниц метрических книг, исповедных ведомостей, ревизских сказок», - приводятся в сообщении слова заместителя мэра Москвы по вопросам социального развития Анастасии Раковой.
Отмечается, что сервис уже помогает исследователям и архивистам. Всего за несколько месяцев пользователи нашли и изучили около 5 млн оцифрованных страниц архивных документов с текстовыми расшифровками, это более половины всех представленных материалов.
Ресурс работает бесплатно на открытой платформе. Искусственный интеллект находит в исторических документах упоминания фамилий, имен, населенных пунктов и любых других слов, что облегчает поиск информации. Документы на платформе можно искать по каталогу или через строку поиска, также доступны фильтры по годам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями. Если навести курсор на нужный фрагмент, он подсветится на цифровой копии.
Как указывается в материале, к проекту уже присоединились Московская, Оренбургская, Новгородская области, а также республика Мордовия. Нейросети, разработанные в столице, проанализировали около 1,7 млн электронных копий документов из региональных архивов.