Нейросети Яндекса теперь распознают 24 тысячи выпусков газеты «Советский спорт»

Фото аватара
Валентин Снежин 2 августа 2023 в 11:25

Нейросети Яндекса помогут быстро найти информацию в архивах «Советского спорта» за 100 лет.

Пользователи сервиса получают уникальную возможность ознакомиться со сканами практически всех номеров легендарной газеты, выпускавшихся с 1922 по 2022 год. Но главное преимущество заключается в том, что они теперь могут искать в архивах информацию так же удобно, как в интернете. Это значит, что журналисты, историки и любители спорта могут быстро находить нужные сведения, включая упоминания конкретных людей, событий и соревнований.

Для осуществления работы с «Советским спортом», нейросеть была адаптирована под особую вёрстку газетных страниц. Архивы этой газеты представляют собой огромные развороты формата А2 с множеством колонок, врезок и рекламных блоков с мелкими буквами на специфической бумаге низкой плотности, что делает сложной задачу считывания информации с них.

Чтобы обучить нейросеть ориентироваться в таком формате, разработчики провели специальную подготовку, обрабатывая тысячи страниц вручную. Они выделили на каждой десятки и сотни текстовых блоков, включая заголовки, колонки, шахматные нотации и надписи на форме спортсменов.

Этот проект осуществлен благодаря сотрудничеству Яндекса с «Советским спортом» и Национальной электронной библиотекой (НЭБ). НЭБ является агрегатором и представляет пользователем документы из фондов российских библиотек в цифровом формате. Архив газеты был передан Российской государственной библиотекой, которая является оператором НЭБ.

Помимо улучшенной технологии распознавания, применяемой для работы с «Советским спортом», разработчики планируют использовать ее для ориентации в других типах сложной вёрстки, таких как рукописные архивы. Также пользователи Яндекс Переводчика и умной камеры в приложении Яндекс с Алисой получат преимущества от этой технологии.

В начале 2023 года Яндекс запустил сервис Поиск по архивам, который облегчает быстрый поиск упоминаний людей, населённых пунктов и событий в расшифрованных нейросетями рукописных документах XVIII–XX веков. Кроме архивов «Советского спорта», сервис содержит более 7 миллионов страниц исторических документов из архивов Москвы, Московской, Иркутской, Оренбургской и Новгородской областей, а также нескольких муниципальных архивов.

👍 Больше интересного в нашем Телеграм-канале!

Источник:
Валентин Снежин

Валентин Снежин

Редактор. Зависимая от гаджетов и кофеина форма жизни. Пишу горячие новости и разбираю сложные темы.
Подписаться
Уведомить о
0 Комментариев
Межтекстовые Отзывы
Посмотреть все комментарии

Сейчас на главной