УДК 347

Обзор наборов данных, используемых в сфере прогнозирования судебных решений

Стёба Оксана Васильевна – магистр Казанского национального исследовательского технического университета имени А. Н. Туполева.

Аннотация: Обзор наиболее важных датасетов и корпусов юридических текстов, используемых в сфере обработки естественного языка для решения задач прогнозирования судебных решений в России и за рубежом, а также состояние и дальнейших перспектив развития.

Ключевые слова: Нейронные сети, прогнозирование судебных решений, ПСР, корпус юридических текстов, Legal Tech.

Введение

Для реализации задач Legal Judgment Prediction – прогнозирования судебных решений (далее – LJP, ПСР) большое значения имеют специальные наборы данных (далее – датасеты). Предметом исследования в подобных случаях являются специфичные данные – различнве документы, имеющие отношения к судебному процессу.

В зарубежнощм научном сообществе эта тема достаточно изучена и открыта для исследований, поэтому можно провести полноценный анализ различных видов датасетов и корпусов юридических текстов, разработанных и применяемых в сфере ПСР. Данная статья посвящена анализу содержания, характеристик, применяемых для составления подобных наборов данных и копусов юридических текстов, которые впоследствии подлежат обработке для обучения нейросетевых моделей.

Краткий обзор наборов данных, применяемых в ПСР

По результатам анализа различных научных исследований на данну. Тематику мы можем разделить общедоступные датасеты сферы ПСР на две категории: однозадачные и многозадачные датасеты. Так, многозадачные датасеты состоят из нескольких подзадач ПСР, а однозадачные датасеты состоят из одной подзадачи ПСР.

1 Однозадачные датасеты.

В следующем списке представлены различные типы общедоступных датасетов для конкретных задач. Они классифицируются на основе рассмотрения резульата своей задачи.

1.1 Датасеты прогнозирования статьи решения

HUDOC Европейского суда по правам человека и China Judgments Online (CJO) — это две общедоступные базы данных по делам, которые включают решения, вердикт, заявление о примирении, письмо-решение, уведомление и т. д., опубликованные ЕСПЧ и Верховным народным собранием суда Китая соответственно.

Набор данных echr[3] — это первый общедоступный набор данных прогнозирования судебного решения на английском языке, содержащий в общей сложности 584 дела из ЕСПЧ и статьи 3, 6 и 8 Европейской конвенции о правах человека, чтобы судить о том, нарушил ли рассматриваемый случай статью. конвенции о правах человека. Затем был построен существенно более обширный массив данных ECHR-CASES [25] на основе 11 478 дел, рассмотренных ЕСПЧ, и 66 статей Европейской конвенции о правах человека не только для того, чтобы судить о том, имело ли место нарушение статьи конвенции о правах человека, но и определить название нарушенных статей.

Точно так же тайские дела Верховного суда (TSCC) [9], содержащие 1207 протоколов судебных решений и 122 судебных протокола Верховного суда Таиланда, построены для прогнозирования того, какие конкретные судебные документы были нарушены на основе моделей последовательности.

Для проверки повышения точности рекомендаций по статьям путем установления детальных соответствий фактов и статей был создан набор данных соответствий фактов и статей, MLMN, на основе 1189 судебных решений по уголовным делам в CJO и 86 статей уголовного права для фактов. аннотация переписки статьи [9].

1.2 Наборы данных прогнозирования судебного решения

Раскрытие информации о делах (CID), CJO — это две общедоступные базы данных по делам, опубликованные Верховной народной прокуратурой Китая и Верховным народным судом Китая соответственно.

Было несколько датасетов для задач прогнозирования решения суда, извлеченных из общедоступных ресурсов, но они, как правило, сосредоточены в основном на китайском языке и меньше учитываются на английском языке и тем более на русском языке [4, 5].

Из CJO FLA [9] собирает в общей сложности 60 000 дел, 50 обвинений, в среднем 383 слова на описание факта, 3,81 статьи на дело и 3,56% дел с более чем одним обвинением, 321 отдельная статья, сохраняет дела с одним ответчиком и рассматривает обвинения, которые появились более чем в 80 раз как положительные данные, наоборот, как отрицательные, для улучшения прогнозирования заряда последовали прогнозы соответствующих статей закона. CAIL2018 [1] — это первый крупномасштабный китайский набор юридических данных, предсказывающий соответствующие статьи закона, обвинения и сроки тюремного заключения соответственно. Он включает 2 676 075 уголовных дел, опубликованных Верховным народным судом Китая, 183 статьи уголовного права, 202 обвинения и сроки тюремного заключения. И этот набор данных сохраняет только дела с одним ответчиком и рассматривает те обвинения и статьи закона, частота которых превышает 30, как положительные данные.

RACP был создан на основе CJO, содержащего 100 000 документов, в которых обосновывающие предложения были аннотированы на основе извлеченного описания фактов и меток обвинения. Аналогичным образом, ACI, собранный Верховным судом Индии, состоит из 4 338 судебных документов с пометкой об обвинении на уровне документа. 120 документов. Кроме того, были опубликованы три набора данных с избранной частью фактов дела и извлеченными обвинениями из судебных документов из CJO, обозначенными как Criminal-S (маленький), Criminal-M (средний), Criminal-L (крупный) [2].

Рассмотрим более подробно German legal decision corpus (Германский корпус судебных решений) [7, 8], так как немецкое гражданское законодательство и судебная система наиболее приближена к российскому.

Он представляет собой корпус из более чем 32 тыс. судебных решений 131 баварского суда на немецком языке. Корпус аннотирован богатыми метаданными, включая среди прочего, факты и результаты суждений. необходимо для задачи ПСР. Они представляют выборочные эксперименты, предсказывающие тип решения (суждение, резолюция и т. д.) и обнаруживающие заключение, определение и подчинение в подмножестве решений - 200 случайно выбранных и вручную аннотированных решений.

В качестве признака частоты термина классификации - обратная частота документа (tf-idf) рассчитывается по причинам принятия каждого решения. Используется scikit Learn5 TfidfVectorizer. С помощью этой функции логистическая регрессия (LR) и классификация линейных опорных векторов (SVC) обучаются по схеме с несколькими метками «один против остальных». Это означает, что один класс принимается как положительный, а все остальные — как отрицательный. Для каждого класса обучается классификатор, и, наконец, возвращается прогноз с наибольшей вероятностью. В таблице 1 представлены результаты обучения на 80 % данных и тестирования на оставшихся 20 %. Хотя использовалась очень простая функция, классификации очень хорошие. SVC немного превосходит LR. Классификация опорных векторов немного превзошла логистическую регрессию.

Таблица 1. Результаты обучения логистической регрессии и классификации опорных векторов на корпусе решений.

Feature / Classsifier	Precision	Recall	F1- Measure	Accuracy
tf-idf / LR	0.96	0.80	0.85	0.96
tf-idf / SVC	0.97	0.88	0.92	0.97

При попытке анализа сбора и анализа данных по решениям арбитражных судов РФ, мы столкнулись с отсутствием каких-либо централизованных данных по этой теме.

Однако буквально за последние полгода ситуация в Росси стала меняться уже на официальном уровне. В мае 2022 года Минцифры России начало реализовывать проект создания национального озера данных – ГосДата.хаба — проекта, объединяющего потоки обезличенных данных госорганов. Мы надеемся, что и данные арбитражных судов так же будут присутствовать в данном национальном хранилище данных [10].

На настоящий момент в России в открытом доступе находятся датасеты, созданные на основе решений судов по уголовным делам. Так, проект Достоевский содержит открытые данные об уголовных делах в России с 2009 года. Создатели проекта собирают, обрабатывают и визуализируют датасеты из официальной статистики Судебного департамента при Верховном суде РФ.

Платформа упорядочивает статистику по уголовным делам в России. Информацию можно сортировать по годам, типам наказаний и количеству рассмотренных дел. В качестве примера ниже прикрепляем диаграмму с сайта проекта, которая показывает по каким статьям в 2020 году осуждали чаще всего.

Заключение

Таким образом, изучив информацию о существующих датасетах для выполнения задачи ПСР, мы пришли к выводу, что данный вопрос достаточно изучен зарубежными исследователями и данные всех видов судов в большинстве стран находятся в открытом доступе для научных изысканий. Следует отметить, что большинство исследователей сосредотачиваются на нескольких популярных наборах данных ПСР, в то время как большинство других датасетов ПСР широко не известны и не изучаются сообществом.

В России русскоязычые датасеты решений судов, находящиеся в открытом доступе для исследований, практически отсутствуют. Единственным исключением являются данные уголовного судопроизводства. Однако, намечается тенденция к увеличению количества открытых источников с обезличенными данными.

Список литературы

Xiao, Chaojun and Zhong, Haoxi and Guo, Zhipeng and Tu, Cunchao and Liu, Zhiyuan and Sun, Maosong and Feng, Yansong and Han, Xianpei and Hu, Zhen and Wang, Heng and Xu, Jianfeng. CAIL2018: A Large-Scale Legal Dataset for Judgment Prediction. arXiv preprintarXiv:1807.02478v1[cs.CL],
Long, Shangbang and Tu, Cunchao and Liu, Zhiyuan and Sun, Maosong. Automatic Judgment Prediction via Legal Reading Comprehension. arXiv preprintarXiv: arxiv.1809.06537v1, 2018.
Malik, Vijit and Sanjay, Rishabh and Nigam, Shubham Kumar and Ghosh, Kripa and Guha, Shouvik Kumar and Bhattacharya, Arnab and Modi, Ashutosh. ILDC for CJPE: Indian Legal Documents Corpus for Court Judgment Prediction and Explanation. arXiv preprintarXiv:2105.13562v2 [cs.CL]. 2021.
Niklaus, Joel and Chalkidis, Ilias and Stürmer, Matthias. Swiss-Judgment-Prediction: A Multilingual Legal Judgment Prediction Benchmark. arXiv preprint arXiv:2110.00806v1 [cs.CL], 2021.
Yao, Feng and Xiao, Chaojun and Wang, Xiaozhi and Liu, Zhiyuan and Hou, Lei and Tu, Cunchao and Li, Juanzi and Liu, Yun and Shen, Weixing and Sun, Maosong. LEVEN: A Large-Scale Chinese Legal Event Detection Dataset, arXiv preprint arXiv:2203.08556v1 [cs.CL], 2022.
Cui, Junyun and Shen, Xiaoyu and Nie, Feiping and Wang, Zheng and Wang, Jinglong and Chen, Yulong. A Survey on Legal Judgment Prediction: Datasets, Metrics, Models and Challenges. arXiv preprint arXiv:2204.04859v1 [cs.CL], 2022.
Daniel Martin Katz and Michael J. Bommarito and Josh Blackman, A general approach for predicting the behavior of the Supreme Court of the United States. arXiv:1612.03473v2[physics.soc-ph], 2017.
Urchs, S.; Mitrović, J. and Granitzer, M. (2021). Design and Implementation of German Legal Decision Corpora. In Proceedings of the 13th International Conference on Agents and Artificial Intelligence - Volume 2: ICAART,ISBN 978-989-758-484-8; ISSN 2184-433X, pages 515-521.
Urchs, S., Mitrovic, J., & Granitzer, M. (2020). Towards Classifying Parts of German Legal Writing Styles in German Legal Judgments. 2020 10th International Conference on Advanced Computer Information Technologies (ACIT). https://doi.org/10.1109/ACIT49673.2020.9208956.
В России приступили к реализации проекта по созданию национального озера данных. [Электронный ресурс] URL: https://digital.gov.ru/ru/events/41556/ (Дата обращения 21.06.2022).