НЕЧЕТКАЯ ЛОГИКА НА БАЗЕ ЯЗЫКОВЫХ МОДЕЛЕЙ: ПОСТРОЕНИЕ ГИБРИДНОЙ СИСТЕМЫ КЛАССИФИКАЦИИ ДИАЛЕКТОВ И ОПРЕДЕЛЕНИЯ ДИАЛЕКТИЗМОВ

Авторы

  • Миндубаев Артур Автор

Ключевые слова:

классификация диалектов, нейронные сети, LM, Bert, нечёткая логика, модель Мамдани.

Аннотация

В данной работе поставлена цель создание информационной системы классификации диалектов и определения диалектизмов с использованием нейросетевой модели и механизма логического вывода на базе правил нечёткой логики. Данная система не имеет прямых аналогов для русского языка, что подчёркивает актуальность данной работы.
Для решения поставленной задачи использовался язык Python c библиотеками для обработки естественного языка, обучения нейронной сети, работы с трансферной моделью Google Bert и создания базы правил нечёткой логики для модели Мамдани.
В научно-исследовательской работе был выполнен анализ диалектологической предметной области и поиск методов решения задач диалектологии с помощью методов обработки естественного языка и машинного обучения. Автором была предложена архитектура нейросетевой модели для классификации диалектов и сформированы основные концепции алгоритма определения диалектизмов. Следующим шагом было произведено обучение нейросетевой модели на основе Bert и реализован экспериментальный алгоритм для поиска диалектизмов.

Библиографические ссылки

A. Etman and A. A. L. Beex, Language and Dialect Identification: A survey, 2015 SAI Intelligent Systems Conference (IntelliSys), London, UK, 2015, pp. 220-231, https://doi.org/10.1109/IntelliSys.2015.7361147

Iancu, Ion. A Mamdani type fuzzy logic controller. Fuzzy logic-controls, concepts, theories and applications 15.2 (2012): 325-350.

Jauhiainen T, Lindén K, Jauhiainen H. Language model adaptation for language and dialect identification of text. Natural Language Engineering. 2019;25(5):561-583. https://doi.org/10.1017/S135132491900038X

McBratney, Alex B., and Adrian W. Moore. Application of fuzzy sets to climatic classification. Agricultural and forest meteorology 35.1-4 (1985): 165-185.

Mitchell, Melanie, and David C. Krakauer. The debate over understanding in AI’s large language models. Proceedings of the National Academy of Sciences 120.13 (2023): e2215907120.

Sun, C., Qiu, X., Xu, Y., Huang, X. (2019). How to Fine-Tune BERT for Text Classification? In: Sun, M., Huang, X., Ji, H., Liu, Z., Liu, Y. (eds) Chinese Computational Linguistics. CCL 2019. Lecture Notes in Computer Science (), vol 11856. Springer, Cham. https://doi.org/10.1007/978-3-030-32381-3_16

Zadeh LA. Outline of a new approach to the analysis of complex systems and decision processes. IEEE Trans Syst Man Cybernet 1973, 3:28–44.

Zimmermann, H‐J. Fuzzy set theory. Wiley interdisciplinary reviews: computational statistics 2.3 (2010): 317-332.

Д. Антюхов. Обучение модели естественного языка с BERT, блог компании SberDevices, 2020. Habr. https://habr.com/ru/company/sberdevices/blog/527576/

Захарова, Капитолина Федоровна, and Варвара Георгиевна Орлова. Диалектное членение русского языка. УРСС, 2004.

Опубликован

2024-06-24

Выпуск

Раздел

SECTION 3. Language and speech analysis in NLP (morphological, syntactic and semantic analysis; speech analysis and synthesis).

Как цитировать

НЕЧЕТКАЯ ЛОГИКА НА БАЗЕ ЯЗЫКОВЫХ МОДЕЛЕЙ: ПОСТРОЕНИЕ ГИБРИДНОЙ СИСТЕМЫ КЛАССИФИКАЦИИ ДИАЛЕКТОВ И ОПРЕДЕЛЕНИЯ ДИАЛЕКТИЗМОВ. (2024). «СОВРЕМЕННЫЕ ТЕХНОЛОГИИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ», 2(22.04), 293-303. https://myscience.uz/index.php/linguistics/article/view/67