Top.Mail.Ru
Результаты испытаний каждого цикла
На этой странице публикуются итоги испытаний завершенных циклов конкурса и результаты прошедших номинаций. О методике оценки – ниже в инфографике с картинками. Если у вас останутся вопросы по тому, как оценивается работа искусственного интеллекта, то напишите нам на challenges@upgreat.one.
Победители конкурса
Антиплагиат
Арусский язык
победитель
Победители и призеры номинаций
Наносемантика
Нейросети Ашманова
Номинация
Структура
1 место
Антиплагиат
АО «Антиплагиат»
Номинация
Структура
2 место
РХТУ AI
РХТУ
Номинация
Структура
3 место
Антиплагиат
АО «Антиплагиат»
Номинация
Логика
1 место
РХТУ AI
РХТУ
Номинация
Логика
2 место
FirstTry
 
Номинация
Логика
3 место

РЕЗУЛЬТАТЫ ИСПЫТАНИЙ

Цикл 1
Цикл 2
Цикл 3
Лидерборд показывает рейтинг команд, принявших участие в испытаниях конкурса ПРО//ЧТЕНИЕ, включая текущие номинации цикла, и уровень точности, достигнутый их ИИ-решениями.
Место
Команда
Регион, город
Среднее время обработки файла, с.
Доля успешно обработанных файлов, %
ОТАР, %
Относительная точность алгоритмической разметки​ (ОТАР) определяется по заданной выборке эссе как отношение ОТАР = CTAP / СТЭР * 100%
1
Антиплагиат
Москва
3.09
100
100.138
2
Наносемантика
Москва
6.13
100
92.933
3
Крылья
Москва
9.30
100
84.651
4
PG7
Москва
2.17
99.4
83.593
5
Organoid AGI
Москва
12.69
100
58.173

Как оценивается работа искусственного интеллекта?

На основании большого количества критериев работа искусственного интеллекта (ИИ) сопоставляется с работой двух независимых экспертов,? в результате чего определяется точность решений участников. Ниже представлен упрощенный алгоритм оценки работы ИИ. Подробнее об этапах оценки, критериях и формулах можно прочитать в Техническом регламенте.

Этап 1

Отбор эссе для испытаний
Для оценки работы систем участников (ИИ-ассистентов) собраны эссе?на различные тематики, которые нигде ранее не публиковались.
1 000
эссе

Этап 2

Проверка текстов экспертами и ИИ
Для обеспечения объективности оценки тексты проверяют сразу два эксперта ЕГЭ. Система участников и эксперты в условиях ограниченного времени оценивают тексты по 4 аспектам:
Логика
Повествование не нарушено, выводы следуют из аргументов и т. д.
Факты
Верно описаны реальные факты и исторические события (даты, имена, описание событий и др.)
Грамматика
Нет ошибок в написании слов и предложений
Стилистика
Уместное употребление слов различной окраски или стилистики, метафор, сравнений
Эксперты и система создают специальную разметку текста, указывая на ошибки и выделяя значимые для оценки блоки. При необходимости можно получить пояснение о причинах маркировки ошибки.

Этап 3

Определение точности работы ИИ
Разметки экспертов и ИИ попарно сравниваются друг с другом на основании ряда критериев, у каждого из которых есть свой установленный вес (важность) при оценке точности работы.
Пример разметки текста в результате проверки эссе по истории
Искусственный интеллект
30 сек. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
Оценка
Следствие Роль

И.Факт Сяп
Эксперт 1
15 мин. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
И.Причин


Сяп
Эксперт 2
15 мин. на эссе
Причиной реформ Сперанского послужила необходимость совершенствования системы власти. Формирование органа парламентского типа было одним из шагов по превращению самодержавия в конституционную монархию. В 1810 г. был создан госсовет с совещательными функциями.
Причина
Верно ли система участников оценила текстовый блок?
В среднем ИИ оценил эссе немного хуже экспертов ЕГЭ
Разберем подробнее:
Предложение 1
В первом предложении эксперты дали противоположные оценки, а ИИ совпал с одним из экспертов. В этом предложении ИИ провел работу на уровне экспертов.
Предложение 2
Второе предложение эксперты не посчитали значимым для оценки эссе, тогда как ИИ выделил его. ИИ ошибся, отметив блок, не имеющий ценности для выставления оценки.
Предложение 3
В оценке третьего предложения ИИ сошелся с одним из экспертов, но неверно отметил фактическую ошибку. В среднем ИИ провел оценку текстового блока чуть хуже экспертов.
На практике точность ИИ оценивается по специальным формулам
Они учитывают оценки системы и экспертов по каждому отдельному предложению, текстовому блоку и тексту в целом
Система участника считается достаточно точной, если полученная разметка отличается от экспертных меньше, чем экспертные друг от друга (коэффициент ОТАР больше или равен 100%). Чем выше коэффициент, тем точнее работа ИИ.
В КОНКУРСЕ ПОБЕЖДАЕТ КОМАНДА С САМЫМ ВЫСОКИМ КОЭФФИЦИЕНТОМ ОТАР, РАВНЫМ ИЛИ ПРЕВЫШАЮЩИМ 100%
Итоги награждения

Дополнительная информация

Конкурс ПРО//ЧТЕНИЕ проходит в формате повторяющихся циклов испытаний до тех пор, пока не будет решена задача конкурса, но не позднее 30 декабря 2022 года.

Если в текущем цикле одна из команд разработала ИИ-систему для анализа текстов на русском языке, решающую задачу конкурса, то в следующем цикле конкурс пройдет только для текстов на английском языке. И, наоборот.

Следующий цикл испытаний пройдет весной 2021 года. Регистрация открыта.