УДК 347
Стёба Оксана Васильевна – магистр Казанского национального исследовательского технического университета имени А. Н. Туполева.
Аннотация: Обзор наиболее важных датасетов и корпусов юридических текстов, используемых в сфере обработки естественного языка для решения задач прогнозирования судебных решений в России и за рубежом, а также состояние и дальнейших перспектив развития.
Ключевые слова: Нейронные сети, прогнозирование судебных решений, ПСР, корпус юридических текстов, Legal Tech.
Для реализации задач Legal Judgment Prediction – прогнозирования судебных решений (далее – LJP, ПСР) большое значения имеют специальные наборы данных (далее – датасеты). Предметом исследования в подобных случаях являются специфичные данные – различнве документы, имеющие отношения к судебному процессу.
В зарубежнощм научном сообществе эта тема достаточно изучена и открыта для исследований, поэтому можно провести полноценный анализ различных видов датасетов и корпусов юридических текстов, разработанных и применяемых в сфере ПСР. Данная статья посвящена анализу содержания, характеристик, применяемых для составления подобных наборов данных и копусов юридических текстов, которые впоследствии подлежат обработке для обучения нейросетевых моделей.
По результатам анализа различных научных исследований на данну. Тематику мы можем разделить общедоступные датасеты сферы ПСР на две категории: однозадачные и многозадачные датасеты. Так, многозадачные датасеты состоят из нескольких подзадач ПСР, а однозадачные датасеты состоят из одной подзадачи ПСР.
В следующем списке представлены различные типы общедоступных датасетов для конкретных задач. Они классифицируются на основе рассмотрения резульата своей задачи.
HUDOC Европейского суда по правам человека и China Judgments Online (CJO) — это две общедоступные базы данных по делам, которые включают решения, вердикт, заявление о примирении, письмо-решение, уведомление и т. д., опубликованные ЕСПЧ и Верховным народным собранием суда Китая соответственно.
Набор данных echr[3] — это первый общедоступный набор данных прогнозирования судебного решения на английском языке, содержащий в общей сложности 584 дела из ЕСПЧ и статьи 3, 6 и 8 Европейской конвенции о правах человека, чтобы судить о том, нарушил ли рассматриваемый случай статью. конвенции о правах человека. Затем был построен существенно более обширный массив данных ECHR-CASES [25] на основе 11 478 дел, рассмотренных ЕСПЧ, и 66 статей Европейской конвенции о правах человека не только для того, чтобы судить о том, имело ли место нарушение статьи конвенции о правах человека, но и определить название нарушенных статей.
Точно так же тайские дела Верховного суда (TSCC) [9], содержащие 1207 протоколов судебных решений и 122 судебных протокола Верховного суда Таиланда, построены для прогнозирования того, какие конкретные судебные документы были нарушены на основе моделей последовательности.
Для проверки повышения точности рекомендаций по статьям путем установления детальных соответствий фактов и статей был создан набор данных соответствий фактов и статей, MLMN, на основе 1189 судебных решений по уголовным делам в CJO и 86 статей уголовного права для фактов. аннотация переписки статьи [9].
Раскрытие информации о делах (CID), CJO — это две общедоступные базы данных по делам, опубликованные Верховной народной прокуратурой Китая и Верховным народным судом Китая соответственно.
Было несколько датасетов для задач прогнозирования решения суда, извлеченных из общедоступных ресурсов, но они, как правило, сосредоточены в основном на китайском языке и меньше учитываются на английском языке и тем более на русском языке [4, 5].
Из CJO FLA [9] собирает в общей сложности 60 000 дел, 50 обвинений, в среднем 383 слова на описание факта, 3,81 статьи на дело и 3,56% дел с более чем одним обвинением, 321 отдельная статья, сохраняет дела с одним ответчиком и рассматривает обвинения, которые появились более чем в 80 раз как положительные данные, наоборот, как отрицательные, для улучшения прогнозирования заряда последовали прогнозы соответствующих статей закона. CAIL2018 [1] — это первый крупномасштабный китайский набор юридических данных, предсказывающий соответствующие статьи закона, обвинения и сроки тюремного заключения соответственно. Он включает 2 676 075 уголовных дел, опубликованных Верховным народным судом Китая, 183 статьи уголовного права, 202 обвинения и сроки тюремного заключения. И этот набор данных сохраняет только дела с одним ответчиком и рассматривает те обвинения и статьи закона, частота которых превышает 30, как положительные данные.
RACP был создан на основе CJO, содержащего 100 000 документов, в которых обосновывающие предложения были аннотированы на основе извлеченного описания фактов и меток обвинения. Аналогичным образом, ACI, собранный Верховным судом Индии, состоит из 4 338 судебных документов с пометкой об обвинении на уровне документа. 120 документов. Кроме того, были опубликованы три набора данных с избранной частью фактов дела и извлеченными обвинениями из судебных документов из CJO, обозначенными как Criminal-S (маленький), Criminal-M (средний), Criminal-L (крупный) [2].
Рассмотрим более подробно German legal decision corpus (Германский корпус судебных решений) [7, 8], так как немецкое гражданское законодательство и судебная система наиболее приближена к российскому.
Он представляет собой корпус из более чем 32 тыс. судебных решений 131 баварского суда на немецком языке. Корпус аннотирован богатыми метаданными, включая среди прочего, факты и результаты суждений. необходимо для задачи ПСР. Они представляют выборочные эксперименты, предсказывающие тип решения (суждение, резолюция и т. д.) и обнаруживающие заключение, определение и подчинение в подмножестве решений - 200 случайно выбранных и вручную аннотированных решений.
В качестве признака частоты термина классификации - обратная частота документа (tf-idf) рассчитывается по причинам принятия каждого решения. Используется scikit Learn5 TfidfVectorizer. С помощью этой функции логистическая регрессия (LR) и классификация линейных опорных векторов (SVC) обучаются по схеме с несколькими метками «один против остальных». Это означает, что один класс принимается как положительный, а все остальные — как отрицательный. Для каждого класса обучается классификатор, и, наконец, возвращается прогноз с наибольшей вероятностью. В таблице 1 представлены результаты обучения на 80 % данных и тестирования на оставшихся 20 %. Хотя использовалась очень простая функция, классификации очень хорошие. SVC немного превосходит LR. Классификация опорных векторов немного превзошла логистическую регрессию.
Таблица 1. Результаты обучения логистической регрессии и классификации опорных векторов на корпусе решений.
Feature / Classsifier |
Precision |
Recall |
F1- Measure |
Accuracy |
tf-idf / LR |
0.96 |
0.80 |
0.85 |
0.96 |
tf-idf / SVC |
0.97 |
0.88 |
0.92 |
0.97 |
При попытке анализа сбора и анализа данных по решениям арбитражных судов РФ, мы столкнулись с отсутствием каких-либо централизованных данных по этой теме.
Однако буквально за последние полгода ситуация в Росси стала меняться уже на официальном уровне. В мае 2022 года Минцифры России начало реализовывать проект создания национального озера данных – ГосДата.хаба — проекта, объединяющего потоки обезличенных данных госорганов. Мы надеемся, что и данные арбитражных судов так же будут присутствовать в данном национальном хранилище данных [10].
На настоящий момент в России в открытом доступе находятся датасеты, созданные на основе решений судов по уголовным делам. Так, проект Достоевский содержит открытые данные об уголовных делах в России с 2009 года. Создатели проекта собирают, обрабатывают и визуализируют датасеты из официальной статистики Судебного департамента при Верховном суде РФ.
Платформа упорядочивает статистику по уголовным делам в России. Информацию можно сортировать по годам, типам наказаний и количеству рассмотренных дел. В качестве примера ниже прикрепляем диаграмму с сайта проекта, которая показывает по каким статьям в 2020 году осуждали чаще всего.
Таким образом, изучив информацию о существующих датасетах для выполнения задачи ПСР, мы пришли к выводу, что данный вопрос достаточно изучен зарубежными исследователями и данные всех видов судов в большинстве стран находятся в открытом доступе для научных изысканий. Следует отметить, что большинство исследователей сосредотачиваются на нескольких популярных наборах данных ПСР, в то время как большинство других датасетов ПСР широко не известны и не изучаются сообществом.
В России русскоязычые датасеты решений судов, находящиеся в открытом доступе для исследований, практически отсутствуют. Единственным исключением являются данные уголовного судопроизводства. Однако, намечается тенденция к увеличению количества открытых источников с обезличенными данными.
Список литературы