ПРО//ЧТЕНИЕ - Технологический конкурс UP GREAT

О конкурсе

Современные алгоритмы работы искусственного интеллекта основаны на методах анализа корреляций и статистических связей в больших данных. Когда машина принимает решение, она просматривает заложенную базу текстов, находит наиболее часто встречающиеся связи и на основании этого анализа выдаёт ответ.

Хорошей иллюстрацией этого является визуализация библиотеки RoBERTa, разработки Allen Institute of AI, опубликованная в середине 2019 г.

Подобные решения, являющиеся самыми передовыми, позволяют отвечать только на узкие вопросы, вроде тех, которые реализованы в голосовых помощниках в телефонах — Siri, Алиса, Google Assistant, Amazon Alexa.

Наиболее продвинутый показатель уровня понимания для ИИ-систем — метрика SuperGLUE была запущена DeepMind и Facebook в 2019 году для определения степени понимания текста машиной. Это короткий тест из восьми типовых вопросов на понимание смысла текста (предложений). Испытуемому надо прочесть описание ситуации и ответить на вопрос о том, как ее интерпретировать.

Сложность задачи примерно соответствует уровню начальных классов. Текущая точность — до 80%.

Новый конкурс Up Great направлен на создание новых подходов в ИИ, которые позволят машине разбираться и учитывать, как соотносятся причина и следствие. Такие подходы будут полезны и в обработке естественных языков, и во многих других областях применения ИИ.

Для реализации технологий понимания смысла текстов выбрана область образования, так как для образовательных текстов существуют наработанные методики сравнительно объективной оценки качества текста. Кроме того, обучение — социально значимая и нуждающаяся в инновациях индустрия.

В конкурсе будет создаваться технология, которая сможет находить смысловые ошибки в любых текстах и сообщать об этом в режиме реального времени:

Конкурс проводится по тематике использования технологий машинного анализа текста для повышения качества и скорости выявления фактических и смысловых ошибок в академических эссе студентов, школьников и иных обучающихся. Технологии, развиваемые в рамках проведения конкурса, смогут стать ядром широкого спектра продуктов.

Обработка естественного языка (NLP, natural language processing) является динамично развивающейся областью искусственного интеллекта, находящейся в фокусе большого количества специалистов и при этом имеет достаточно низкий «порог входа»: для разработки NLP-решений специалисту не требуется значительных инвестиций в оборудование и фундаментальных научных знаний.

ГРАФИК КОНКУРСА

Общий период проведения конкурса: 15 декабря 2019 — 30 декабря 2022
В ходе конкурса проводятся регулярные циклы испытаний. Каждый цикл состоит из отборочного этапа, квалификационных и финальных испытаний.
Испытания первого цикла прошли в период с октября по декабрь 2020 г.
Регистрация на второй цикл открыта.

Первый цикл декабрь 2019 — декабрь 2020

Второй цикл октябрь 2021 — декабрь 2021

Третий цикл март — июнь 2022

Первый цикл конкурса

11.12.2019 – 29.10.2020

Прием заявок на 1-й цикл (на номинации – до 01.11)

01.10 – 02.11.2020

Квалификация (допуск к испытаниям)

09.11.2020

Испытания для русскоязычных текстов и номинации «Грамматика»

16.11.2020

Испытания для англоязычных текстов и номинации «Грамматика.Eng»

Декабрь 2020

Подведение итогов 1-го цикла и номинаций

Второй цикл конкурса

до 29.10.2021

Прием заявок на 2-й цикл (на номинации – до 01.11)

18.10 – 01.11.2021

Квалификация (допуск к испытаниям)

09.11.2021

Испытания для русскоязычных текстов и номинации «СТРУКТУРА» и «ЛОГИКА»

16.11.2021

Испытания для англоязычных текстов

Декабрь 2021

Подведение итогов 2-го цикла и номинаций

Третий цикл конкурса

до 28 марта

Прием заявок на 3-й цикл

1 марта - 4 апреля

Квалификация (доступ к испытаниям)

12 апреля

Испытания для русскоязычных текстов

июнь 2022

Подведение итогов 3-го цикла испытаний

События конкурса

Уважаемые команды конкурса ПРО//ЧТЕНИЕ!

Для участников доступен визуализатор разметки по ссылке https://rc.readable.w6p.ru/markup. В сервис загружаются валидные json-файлы (с разметкой или без), и позволяют визуализировать и редактировать разметку. Отредактированную разметку можно выгрузить обратно с сервиса в виде исправленного json-файла. Сервисом можно свободно пользоваться.

04.04.2022

Для участников доступен визуализатор разметки

Уважаемые команды конкурса ПРО//ЧТЕНИЕ!

Квалификация продлевается до 12.00 мск. 05 апреля 2022 г.
До указанного времени вы можете проводить тестирование своих решений.

04.04.2022

Продлены сроки квалификационных испытаний

Уважаемые команды конкурса ПРО//ЧТЕНИЕ!

Внимание! Испытания цикла 3 конкурса переносятся на 12 апреля 2022 г по техническим причинам.

Обновлённое расписание конкурса «Взаимное обучение на русском языке»

Окончание квалификации: 15.00 мск. 04 апреля 2022 года (пн)
05 – 11 апреля 2022 г. - Подведение итогов квалификации и подготовка платформы к испытаниям. Обратите внимание, в этот период платформа НЕДОСТУПНА для тренировок.

Далее для команд прошедших квалификацию:

Тестовые испытания*: 11.00 мск. 11 апреля 2022 года (пн)
Испытания по русскому языку: 12 апреля 2022 года (вт):

- подключение к zoom: 09.00 мск.
- тестовая демо-сессия 1**: 09.10 - 09.20
- тестовая демо-сессия 2: 09.30 - 09.40
- начало испытаний: 10.00 мск.

*- Тестовые испытания.
В цикле 3 для команд, прошедших квалификацию и планирующих принять участие в финальных испытаниях, за день до испытаний будет организована тестовая демо-сессия во время которой команды смогут подключиться к платформе в режиме испытаний, получить и отдать файлы. Также во время тестовой демо-сессии будет тест и активация режима “пауза”.
Ориентировочная продолжительность Тестовых испытаний 20 - 30 мин.
Командам, прошедшим квалификацию, ссылка на подключение к zoom будет выслана заранее.

**- Тестовая демо-сессия.
Для минимизации возможности технических сбоев во время испытаний мы предлагаем вам пройти демо-сессию 1. Она будет короткой и состоять из обмена 10 файлами. Это позволит вам проверить состояние своего ПКУ перед основными испытаниям.
Если в ходе этой сессии вы увидите какие-то проблемы с ПКУ, то будет возможность оперативно связаться с организаторами (канал связи будет предоставлен командам прошедшим квалификацию).
Мы постараемся максимально оперативно помочь. Также будет возможность пройти повторную техническую демо сессию 2.
Для всех команд прохождение демо-сессий не является обязательным.

23.03.2022

Изменены сроки проведения цикла 3

Уважаемые команды конкурса ПРО//ЧТЕНИЕ!

Сообщаем вам информацию о параметрах испытаний цикла 3.

Вес метрики М2 устанавливаются равным значению «2». (W М2 = 2).
Количество текстов на испытаниях цикла 3 не менее 450 и не более 500 шт. при штатном процессе испытаний.

Обращаем ваше внимание на то, что в цикле 3, как и на предыдущих циклах, решение, предложенное командой, оценивается профильными экспертами на соответствие целям и задачам конкурса (п. 3.1.3. КЗ) и уже затем, на основании метаматематических метрик, определяется место команды на лидерборде (п. 5.4.4. КЗ).

Расписание конкурса «Взаимное обучение на русском языке»
Окончание квалификации: 15.00 мск. 28 марта 2022 года (пн)
29 марта – 4 апреля 2022 г. - Подведение итогов квалификации и подготовка платформы к испытаниям. Обратите внимание, в этот период платформа НЕДОСТУПНА для тренировок.

Далее для команд прошедших квалификацию:
Тестовые испытания*: 11.00 мск. 04 апреля 2022 года (пн)
Испытания по русскому языку: 05 апреля 2022 года (вт):

подключение к zoom: 09.00 мск.
тестовая демо-сессия 1**: 09.10 - 09.20
тестовая демо-сессия 2: 09.30 - 09.40
начало испытаний: 10.00 мск.

16.03.2022

Уважаемые команды конкурса ПРО//ЧТЕНИЕ! Сообщаем вам информацию о параметрах испытаний цикла 3.

Уважаемые команды конкурса ПРО//ЧТЕНИЕ!

Сообщаем вам, что устанавливается следующий график проведения цикла 3 конкурса «Взаимное обучение на русском языке» (ПРО//ЧТЕНИЕ):

1 – 28 марта 2022 г. - Квалификационный этап. Отбор команд на финальные испытания.

29 марта – 4 апреля 2022 г. - Подведение итогов квалификации и подготовка платформы к испытаниям. Обратите внимание, в этот период платформа НЕДОСТУПНА для тренировок.

5 апреля 2022 г. (вт) – испытания цикла 3 конкурса «Взаимное обучение на русском языке». Дата ориентировочная.

Просим учитывать в подготовке к испытаниям следующие моменты:

Обновлённый технический регламент конкурса «Взаимное обучение на русском языке» цикла 3 будет доступен до 1 марта 2022 года.
В соответствие с п.5.8. технического регламента, оргкомитет планирует изменение весов метрик, в частности увеличение веса метрики М2. Новые веса будут объявлены до 10 марта 2022 года.

Дополнительная информация:

Проведение номинаций и сателлитов в цикле 3 по русскому языку не планируется.

Напоминаем вам, что конкурс «Взаимное обучение на английском языке» завершился, победители определены, согласно конкурсному заданию испытания по английскому языку дальше не проводятся.

17.02.2022

Информация о 3 цикле испытаний конкурса ПРО//ЧТЕНИЕ

В техрегламенте присутствует тип ошибки "А.Объем" - текст не соответствует по объему норме по ЕГЭ. В обучающей выборке эта ошибка не встречается, и в разметках команд мы эту ошибку не видим. В силу того, что этот тип ошибки проверяется простым скриптом (и, следовательно, ошибка имеет второстепенное значение для цели конкурса), и что до испытаний на английском остается меньше недели, мы приняли решение не учитывать этот тип ошибки в ходе испытаний. Тем не менее, если какая-либо из команд загрузит эссе с этим типом ошибки, то оно будет после окончание испытаний рассмотрено и признано валидным (если нет других причин считать его невалидным).
В некоторых эссе обучающей выборки, собранных в прошлом году, критерии К1...Кn (в рамках метрики М1), не были пересчитаны по изменениям в техрегламенте. На испытаниях расчеты будут проводиться по актуальной версии техрегламента, а по обучающей выборке перерасчет критериев К1...Кn и метрики М1 будет осуществлен в ближайшее время.

12.11.2021

Уважаемые участники, добрый день.
В ходе подготовки испытаний на английском языке, мы выявили 2 особенности, которые просим учесть при подготовки к испытаниям:

11.11.2021

Уважаемые участники конкурса ПРО//ЧТЕНИЕ!
Квалификационные сессии по английскому языку будут завершены 14 ноября в 15-00. После этого Платформа будет не доступна для тестов. Проходит подготовка к финальным испытаниям по английскому языку.
Возможность тестировать и проводить алгоритмические сессии появится с 11-00 17 ноября.

29.10.2021

Оргкомитет технологического конкурса ПРО//ЧТЕНИЕ увеличил сроки окончания квалификации, сроки проведения испытаний остаются прежними. Окончание квалификации по русскому языку: 15.00 мск. 07 ноября 2021 г. Окончание квалификации по английскому: 15.00 мск. 14 ноября 2021 г. Подробнее в заявлении оргкомитета

08.10.2021

Уважаемые участники конкурса ПРО//ЧТЕНИЕ!
Квалификация Цикла 2 по русскому и английскому языку стартует после публикации финальной версии обновлённого технического регламента 18 октября 2021 года.

16.09.2021

Опубликован Проект Технического регламента к Циклу 2. Смотреть

18.03.2021

Внесены изменения в конкурсные задания конкурсов ПРО//ЧТЕНИЕ.
Подробнее.

29.01.2021

Второй цикл конкурса ПРО//ЧТЕНИЕ пройдет летом 2021 года. Подробнее.

21.12.2020

Подведены итоги первого цикла испытаний конкурса ПРО//ЧТЕНИЕ.

16.12.2020

19 декабря на Data Ёлке пройдет подведение итогов 1-го цикла конкурса ПРО//ЧТЕНИЕ и выступление Юргена Шмидхубера. Подробнее о мероприятии.

19.11.2020

Опубликованы объявления Оргкомитета по итогам испытаний: об экспертных разметках и расчете ОТАР (русский язык и английский язык).

06.11.2020

Испытания первого цикла конкурса ПРО//ЧТЕНИЕ для текстов на русском языке пройдут 9 ноября, для текстов на английском языке – 16 ноября. Список команд-финалистов.

05.11.2020

Внесены изменения в Приложение №1 Техрегламента ПРО//ЧТЕНИЕ.

26.10.2020

Вышло обновление платформы, показывающее показатели сессии и статус прохождения квалификации. Функционал доступен в личном кабинете участника.

23.10.2020

Опубликовано объявление Оргкомитета о прохождении испытаний.

20.10.2020

Опубликованы Технические регламенты номинаций «Грамматика» и «Грамматика.Eng»

08.10.2020

В Техрегламент добавлен пункт 12.4 об инструкциях по работе Платформы, а также документ объединен с Классификатором; в описание полей формат json» добавлен технический параметр meta.third — показатель разметки третьим экспертом.

02.10.2020

Выложена видеозапись онлайн-конференции конкурса ПРО//ЧТЕНИЕ (01.10.2020)

В Технический регламент внесены две технические правки, уточняющие процедуру квалификации:

1. Стр. 17. Раздел "Сценарий сессии обмена данными на этапе Финальных испытаний". Уточнение по времени на проверку и загрузку на платформу одного эссе: 60 секунд.

2. п. 6.10. Уточнена формулировка про критерии прохождения квалификации: критерий допуска - корректный синтаксис размеченных файлов.

Пишите на ai@upgreat.one в случае вопросов.

01.10.2020

В Техрегламент внесены две технические правки, уточняющие процедуру квалификации

На заседании Конкурсной комиссии технологических конкурсов в целях реализации Национальной технологической инициативы утвердили конкурсные задания, регламенты и составы жюри конкурсов отдельных заданий в рамках технологического конкурса «ПРО//ЧТЕНИЕ».

Структура и задачи конкурсов отдельных заданий были разработаны с учетом мирового опыта и включают в себя серию из семи 7 конкурсов:

Конкурсы отдельных заданий, проходящие в формате номинаций в рамках испытаний конкурса «ПРО//ЧТЕНИЕ» и разработанные на основе отдельных критериев оценки ИИ, которые используются в конкурсе «ПРО//ЧТЕНИЕ»:

a. «Номинация: Грамматика» и «Номинация: Грамматика.Eng» планируются в рамках испытаний первого цикла в 2020 и направлены на решения, выявляющие грамматические и речевые ошибки в текстах на русском и английском языках соответственно. Призовой фонд каждой из номинаций составляет 10 млн. руб.

Документы
— Номинация Грамматика. Конкурсное задание
— Номинация Грамматика.Eng. Конкурсное задание

b. «Номинация: Логика» и «Номинация: Структура» планируются к организации в рамках цикла испытаний 2021 года и направлены на выявление логических ошибок и анализ композиции и структуры текстов сочинений на русском языке. Призовой фонд каждой из этих номинаций составит 16 млн. руб.

Документы с изменениями от 18.03.2021
— Номинация Логика. Конкурсное задание
— Номинация Структура. Конкурсное задание
Конкурсы отдельных заданий (сателлиты), проходящие в формате хакатонов. Планируются к реализации в конце 2020 – 2021 гг. Призовой фонд каждого из сателлитов составит 1 млн. руб.:

a. «ПРО//ЗНАНИЕ»: классификация ошибки по заданному фрагменту текста в соответствии с критериями ЕГЭ для предмета.

b. «ПРО//ОЦЕНКИ»: задача определения балла ЕГЭ за работу.

c. «ПРО//ФАКТЫ»: задача выявления фактических ошибок в тексте.

Документы с изменениями от 18.03.2021
— Сателлит ПРОЗНАНИЕ. Конкурсное задание
— Сателлит ПРООЦЕНКИ. Конкурсное задание
— Сателлит ПРОФАКТЫ. Конкурсное задание

29.09.2020

Утверждены конкурсные задания конкурсов отдельных заданий и номинаций на 2020/21 гг.

25.09.2020

В четверг 1 октября пройдет онлайн-конференция для участников, начало в 16:00 (Мск). Необходима предварительная регистрация — https://leader-id.ru/event/58692/

Вопросы и ответы

Конкурс уже стартовал? Сколько продлится отборочный этап?

Технологический конкурс Up Great ПРО//ЧТЕНИЕ объявлен в декабре 2019 года. Конкурс разделен на несколько циклов испытаний. Каждый цикл состоит из этапа приема заявок, квалификации, т.е. допуска к испытаниям, и непосредственно самих испытаний. Первый цикл планируется завершить уже к концу 2020 года.

Квалификация первого цикла конкурса пройдет с 1 октября по 2 ноября и будет общей для русскоязычных и англоязычных текстов. В этот период для получения допуска к испытаниям зарегистрированные участники должны будут скачать тексты тестовой выборки квалификации через API, разметить их без ошибок в синтаксисе и загрузить все файлы обратно.

9 ноября пройдут первые испытания конкурса для русскоязычных текстов. Задача испытаний – выявить в течение ограниченного времени (не более 30 секунд в среднем на одно эссе) и аннотировать все ошибки на уровне экспертов-преподавателей. 16 ноября состоятся испытания для англоязычных текстов.

Подведение итогов первого цикла конкурса запланировано на декабрь 2020 года.

Испытания будут повторяться регулярно до тех пор, пока не будет выявлен победитель, но не позднее декабря 2022 года. Прием заявок на квалификацию первого цикла завершится 29 октября, после чего стартует прием заявок на участие во втором цикле конкурса.

Из каких этапов состоят испытания?

Испытания пройдут в несколько этапов:

1. Технический. Участники подключаются к серверу, скачивают датасет, ищут ошибки и загружают обратно.

2. Основной. Участники получают новые сочинения, которые не публиковались ранее и которые не видели преподаватели. Они делают разметку и загружают обратно.

3. Проверка. Технический этап, в рамках которого техническая комиссия и судейская коллегия проверяют результаты работы команд, сами эссе и сочинения для объективного определения ошибок и уровня технологического барьера. Результаты экспертов автоматически сравниваются с решениями команд.

4. Объявление результатов.

Есть ли ограничения по количеству данных и требуемому железу?

Ограничений не ставится, команды могут использовать то оборудование и данные, которые посчитают необходимым.

Сколько дается данных? Как это будет оцениваться?

Первые данные (эссе и сочинения) размещены в разделе Датасеты. Команды имеют право обучать свои решения на любых других данных, оценивается только конечный результат.

Оцениваться будет путем сравнения со средним количеством ошибок, которые живой эксперт-преподаватель способен найти в тех же документах в условиях ограниченного времени.

В каком виде предоставляется решение?

Команды подключаются к платформе по API, скачивают txt файлы с простым wiki- или markdown-подобным языком разметки, при помощи которого в тексте отмечают найденные ошибки. После этого отредактированный txt-файл загружается обратно по API и оценивается на платформе программным решением организаторов.

Процедура проведения испытаний прописана в техническом регламенте конкурса.

Я не гражданин РФ. Могу ли я участвовать в конкурсе?

Да, участвовать могут все, независимо от гражданства. Гражданство ограничивает только в получении премии т.к. премия, выплачиваемая за счет средств федерального бюджета, может быть выплачена только налоговым резидентам Российской Федерации. В случае, если победителем или одним из призеров является иностранное юридическое или физическое лицо, не являющееся налоговым резидентом РФ, выплата премии за счет средств федерального бюджета такому участнику не производится, право на получение премии не переходит к другим участникам.

Мне нет 18 лет. Могу я участвовать в конкурсе?

По условиям конкурса участвовать могут только граждане, чей возраст попадает под понятие совершеннолетия или приравненные к нему путем процедуры эмансипации несовершеннолетних, согласно законодательству РФ.

Конкурс до декабря 2022 г., а квалификация до 2 ноября 2020 г. Как так?

Испытания конкурса будут повторяться регулярно до тех пор, пока не будет выявлен победитель, но не позднее декабря 2022 года. Это мы называем «циклами», каждый из которых состоит из квалификации и основных испытаний конкурса.

До 2 ноября проходит квалификация 1-го цикла конкурса.

Где-то можно пообщаться с организаторами и другими участниками конкурса?

Да, мы создали Slack канал #proj_upgreat_readable в сообществе Open Data Science (ODS.ai).

Для тех, кто присоединяется к каналу в Slack необходимо обратить внимание на следующие моменты:

для того чтобы вам дали доступ в этот канал необходимо пройти регистрацию на сайте ods.ai при этом при регистрации указать, что вы участник конкурса ПРО//ЧТЕНИЕ;
после этого вам на почту придёт одобрение от администратора и при входе в Slack вы будете иметь доступ в сообщество opendatascience.slack.com, в котором и находится канал конкурса #proj_upgreat_readable

И вы всегда можете прислать ваш вопрос нам на почту ai@upgreat.one.

В ходе конкурса обучающая выборка составит десятки тысяч документов. Не считаете ли вы, что этого недостаточно для решения поставленной задачи?

Во-первых, в 2021 году будет запущен краудсорс образовательных текстов с разметкой, который позволит кратно увеличить обучающую выборку.

Во-вторых, действительно, в рамках конкурса необходимо выявить более 100 типов ошибок, некоторые из которых будут встречаться в обучающей выборке редко, поэтому вне зависимости от усилий по расширению обучающей выборки, этого будет недостаточно.
Это означает, что решение задачи потребует творческого подхода и нахождения новых приемов и методов, которые позволят решить проблему недостатка данных: краулинг и обработка школьных сочинений из интернета; использование передовых методик few-shot learning; нахождение нетривиальных приемов и использования профессиональной экспертизы педагогов.
Конечно, такой подход усложняет решение задачи, однако конкурс продолжается более двух лет, а сложность задачи компенсируется размером призового фонда.

Все вопросы