Нейросети Яндекса помогут быстро найти информацию в архивах «Советского спорта» за 100 лет.
Пользователи сервиса получают уникальную возможность ознакомиться со сканами практически всех номеров легендарной газеты, выпускавшихся с 1922 по 2022 год. Но главное преимущество заключается в том, что они теперь могут искать в архивах информацию так же удобно, как в интернете. Это значит, что журналисты, историки и любители спорта могут быстро находить нужные сведения, включая упоминания конкретных людей, событий и соревнований.
Для осуществления работы с «Советским спортом», нейросеть была адаптирована под особую вёрстку газетных страниц. Архивы этой газеты представляют собой огромные развороты формата А2 с множеством колонок, врезок и рекламных блоков с мелкими буквами на специфической бумаге низкой плотности, что делает сложной задачу считывания информации с них.
Чтобы обучить нейросеть ориентироваться в таком формате, разработчики провели специальную подготовку, обрабатывая тысячи страниц вручную. Они выделили на каждой десятки и сотни текстовых блоков, включая заголовки, колонки, шахматные нотации и надписи на форме спортсменов.
Этот проект осуществлен благодаря сотрудничеству Яндекса с «Советским спортом» и Национальной электронной библиотекой (НЭБ). НЭБ является агрегатором и представляет пользователем документы из фондов российских библиотек в цифровом формате. Архив газеты был передан Российской государственной библиотекой, которая является оператором НЭБ.
Помимо улучшенной технологии распознавания, применяемой для работы с «Советским спортом», разработчики планируют использовать ее для ориентации в других типах сложной вёрстки, таких как рукописные архивы. Также пользователи Яндекс Переводчика и умной камеры в приложении Яндекс с Алисой получат преимущества от этой технологии.
В начале 2023 года Яндекс запустил сервис Поиск по архивам, который облегчает быстрый поиск упоминаний людей, населённых пунктов и событий в расшифрованных нейросетями рукописных документах XVIII–XX веков. Кроме архивов «Советского спорта», сервис содержит более 7 миллионов страниц исторических документов из архивов Москвы, Московской, Иркутской, Оренбургской и Новгородской областей, а также нескольких муниципальных архивов.