Результаты испытаний каждого цикла
На этой странице публикуются итоги испытаний завершенных циклов конкурса и результаты прошедших номинаций. О методике оценки – ниже в инфографике с картинками. Если у вас останутся вопросы по тому, как оценивается работа искусственного интеллекта, то напишите нам на ai@upgreat.one.
Победители конкурса
Первого цикла
Победители конкурса в первом цикле не выявлены
Победители и призеры номинаций
Первого цикла
Ракета
МФТИ, МГУ
Номинация
Грамматика
1 место
Антиплагиат
АО «Антиплагиат»
Номинация
Грамматика
2 место
Chemist
МФТИ
Номинация
Грамматика
3 место
НейроЧтение
DeepPavlov
Номинация
Грамматика.ENG
1 место
Антиплагиат
АО «Антиплагиат»
Номинация
Грамматика.ENG
2 место
Наносемантика
Нейросети Ашманова
Номинация
Грамматика.ENG
3 место

Как оценивается работа искусственного интеллекта?

На основании большого количества критериев работа искусственного интеллекта (ИИ) сопоставляется с работой двух независимых экспертов,? в результате чего определяется точность решений участников. Ниже представлен упрощенный алгоритм оценки работы ИИ. Подробнее об этапах оценки, критериях и формулах можно прочитать в Техническом регламенте.

Этап 1

Отбор эссе для испытаний
Для оценки работы систем участников (ИИ-ассистентов) собраны эссе?на различные тематики, которые нигде ранее не публиковались.
1 000
эссе

Этап 2

Проверка текстов экспертами и ИИ
Для обеспечения объективности оценки тексты проверяют сразу два эксперта ЕГЭ. Система участников и эксперты в условиях ограниченного времени оценивают тексты по 4 аспектам:
Логика
Повествование не нарушено, выводы следуют из аргументов и т. д.
Факты
Верно описаны реальные факты и исторические события (даты, имена, описание событий и др.)
Грамматика
Нет ошибок в написании слов и предложений
Стилистика
Уместное употребление слов различной окраски или стилистики, метафор, сравнений
Эксперты и система создают специальную разметку текста, указывая на ошибки и выделяя значимые для оценки блоки. При необходимости можно получить пояснение о причинах маркировки ошибки.

Этап 3

Определение точности работы ИИ
Разметки экспертов и ИИ попарно сравниваются друг с другом на основании ряда критериев, у каждого из которых есть свой установленный вес (важность) при оценке точности работы.
Пример разметки текста в результате проверки эссе по истории
Искусственный интеллект
30 сек. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
Оценка
Следствие Роль

И.Факт Сяп
Эксперт 1
15 мин. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
И.Причин


Сяп
Эксперт 2
15 мин. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
Причина
Верно ли система участников оценила текстовый блок?
В среднем ИИ оценил эссе немного хуже экспертов ЕГЭ
Разберем подробнее:
Предложение 1
В первом предложении эксперты дали противоположные оценки, а ИИ совпал с одним из экспертов. В этом предложении ИИ провел работу на уровне экспертов.
Предложение 2
Второе предложение эксперты не посчитали значимым для оценки эссе, тогда как ИИ выделил его. ИИ ошибся, отметив блок, не имеющий ценности для выставления оценки.
Предложение 3
В оценке третьего предложения ИИ сошелся с одним из экспертов, но неверно отметил фактическую ошибку. В среднем ИИ провел оценку текстового блока чуть хуже экспертов.
На практике точность ИИ оценивается по специальным формулам
Они учитывают оценки системы и экспертов по каждому отдельному предложению, текстовому блоку и тексту в целом
Система участника считается достаточно точной, если полученная разметка отличается от экспертных меньше, чем экспертные друг от друга (коэффициент ОТАР больше или равен 100%). Чем выше коэффициент, тем точнее работа ИИ.
В КОНКУРСЕ ПОБЕЖДАЕТ КОМАНДА С САМЫМ ВЫСОКИМ КОЭФФИЦИЕНТОМ ОТАР, РАВНЫМ ИЛИ ПРЕВЫШАЮЩИМ 100%

Место проведения

19 декабря в формате Online в рамках Data Ёлка 2020 – отчетном мероприятии сообщества Open Data Science, мы подвели итоги испытаний первого цикла конкурса ПРО//ЧТЕНИЕ и наградили призеров номинаций «Грамматика» и «Грамматика.Eng».
На сайте ODS в треке Up Great ПРО//ЧТЕНИЕ вы можете попробовать свои силы на специальном ML-тренажере, который позволяет протестировать нейросети для задачи выявления смысловых ошибок в формате конкурса. Или пройдите тест, чтобы проверить свои знания в области машинного обучения и нейронных сетей.
Итоги награждения

Дополнительная информация

Конкурс ПРО//ЧТЕНИЕ проходит в формате повторяющихся циклов испытаний до тех пор, пока не будет решена задача конкурса, но не позднее 30 декабря 2022 года.

Если в текущем цикле одна из команд разработала ИИ-систему для анализа текстов на русском языке, решающую задачу конкурса, то в следующем цикле конкурс пройдет только для текстов на английском языке. И, наоборот.

Следующий цикл испытаний пройдет весной 2021 года. Регистрация открыта.

Контакты

Телефон
Общие вопросы
Для СМИ - Юрий Сушинов