ИСПОЛЬЗОВАНИЕ МАТРИЦ И ВЕКТОРОВ ДЛЯ АНАЛИЗА ТЕКСТА НА РУССКОМ ЯЗЫКЕ
Keywords:
векторы, матрицы, анализ текста, русский язык, Word2Vec, TF-IDF, обработка естественного языка, классификация текстовAbstract
В данной работе рассматриваются способы применения математических понятий — матриц и векторов — для анализа текстов на русском языке. Особое внимание уделено методам векторного представления текста, таким как модель "мешка слов", TF-IDF и нейросетевые подходы (Word2Vec, FastText). Описаны особенности морфологической обработки русского языка, включая лемматизацию. Показано, как векторы и матрицы применяются в задачах классификации, тематического анализа и извлечения смысла из текстов. Работа демонстрирует, что математические методы играют ключевую роль в
современной обработке естественного языка.
References
1.
Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing (3rd
ed.). — Pearson.
2.
Мартынов, А. В. (2020). Основы анализа текста на русском языке. —
Москва: Издательство МГУ.
3.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation
of Word Representations in Vector Space. — arXiv:1301.3781
4.
Manning, C., Raghavan, P., & Schütze, H. (2008). Introduction to Information
Retrieval. — Cambridge University Press.
5.
Васильева, Е. А. (2019). Машинное обучение и анализ текстов. — СПб:
Питер.