О конкурсе

Современные алгоритмы работы искусственного интеллекта основаны на методах анализа корреляций и статистических связей в больших данных. Когда машина принимает решение, она просматривает заложенную базу текстов, находит наиболее часто встречающиеся связи и на основании этого анализа выдаёт ответ.

Хорошей иллюстрацией этого является визуализация библиотеки RoBERTa, разработки Allen Institute of AI, опубликованная в середине 2019 г.

Подобные решения, являющиеся самыми передовыми, позволяют отвечать только на узкие вопросы, вроде тех, которые реализованы в голосовых помощниках в телефонах — Siri, Алиса, Google Assistant, Amazon Alexa.

Наиболее продвинутый показатель уровня понимания для ИИ-систем — метрика SuperGLUE была запущена DeepMind и Facebook в 2019 году для определения степени понимания текста машиной. Это короткий тест из восьми типовых вопросов на понимание смысла текста (предложений). Испытуемому надо прочесть описание ситуации и ответить на вопрос о том, как ее интерпретировать.

Сложность задачи примерно соответствует уровню начальных классов. Текущая точность — до 80%.

Новый конкурс Up Great направлен на создание новых подходов в ИИ, которые позволят машине разбираться и учитывать, как соотносятся причина и следствие. Такие подходы будут полезны и в обработке естественных языков, и во многих других областях применения ИИ.

Для реализации технологий понимания смысла текстов выбрана область образования, так как для образовательных текстов существуют наработанные методики сравнительно объективной оценки качества текста. Кроме того, обучение — социально значимая и нуждающаяся в инновациях индустрия.

В конкурсе будет создаваться технология, которая сможет находить смысловые ошибки в любых текстах и сообщать об этом в режиме реального времени:

image
image

Конкурс проводится по тематике использования технологий машинного анализа текста для повышения качества и скорости выявления фактических и смысловых ошибок в академических эссе студентов, школьников и иных обучающихся. Технологии, развиваемые в рамках проведения конкурса, смогут стать ядром широкого спектра продуктов.

Обработка естественного языка (NLP, natural language processing) является динамично развивающейся областью искусственного интеллекта, находящейся в фокусе большого количества специалистов и при этом имеет достаточно низкий «порог входа»: для разработки NLP-решений специалисту не требуется значительных инвестиций в оборудование и фундаментальных научных знаний.

ГРАФИК КОНКУРСА

Общий период проведения конкурса: 15 декабря 2019 — 30 декабря 2022
В ходе конкурса проводятся регулярные циклы испытаний. Каждый цикл состоит из отборочного этапа, квалификационных и финальных испытаний.
Испытания первого цикла пройдут в период с октября по декабрь 2020 г.
Регистрация открыта.
Первый цикл конкурса
11 декабря 2019
не менее 6 месяцев
Старт приема заявок
не менее 1 месяца
Квалификационный этап
не менее 2 недель
Финальный этап

Вопросы и ответы

Конкурс уже стартовал? Сколько продлится отборочный этап?

Конкурс объявлен в декабре 2019 года. С техническим регламентом можно ознакомиться здесь. Датасет и платформа конкурса находятся в процессе разработки.

Испытания первого цикла пройдут в период с октября по декабрь 2020 г. Точные даты будут объявлены по мере доработки технического регламента и публикации первых частей датасета (июнь-июль 2020 г.).

Регистрация на участие в конкурсе открыта постоянно. В зависимости от времени регистрации, команда приглашается к участию в ближайшем цикле.


Из каких этапов состоят испытания?

Испытания пройдут в несколько этапов:

1. Технический. Участники подключаются к серверу, скачивают датасет, ищут ошибки и загружают обратно.

2. Основной. Участники получают новые сочинения, которые не публиковались ранее и которые не видели преподаватели. Они делают разметку и загружают обратно.

3. Проверка. Технический этап, в рамках которого техническая комиссия и судейская коллегия проверяют результаты работы команд, сами эссе и сочинения для объективного определения ошибок и уровня технологического барьера. Результаты экспертов автоматически сравниваются с решениями команд.

4. Объявление результатов.

Есть ли ограничения по количеству данных и требуемому железу?
Ограничений не ставится, команды могут использовать то оборудование и данные, которые посчитают необходимым.
Сколько дается данных? Как это будет оцениваться?
Первые данные (эссе и сочинения) будут опубликованы весной 2020 года. Команды имеют право обучать свои решения на любых других данных, оценивается только конечный результат.
Оцениваться будет путем сравнения со средним количеством ошибок, которые живой эксперт-преподаватель способен найти в тех же документах в условиях ограниченного времени.
Регламент с подробным описанием методики оценки будет опубликован весной 2020 года.
В каком виде предоставляется решение?

Команды подключаются к платформе по API, скачивают txt файлы с простым wiki- или markdown-подобным языком разметки, при помощи которого в тексте отмечают найденные ошибки. После этого отредактированный txt-файл загружается обратно по API и оценивается на платформе программным решением организаторов.

В техническом регламенте будет подробно прописана точная процедура по мере уточнения деталей.

Хочу быть в курсе

Спасибо!