🛠️ Инструкция по работе
- Импорт данных: Загрузите Excel-файл (столбцы: Текст, Респондент, Вопрос, Группа). Скачайте шаблон в левой панели для примера.
- Ручная разметка (Кодирование): Выделите фрагмент текста мышью. В появившемся меню создайте код в формате
Тема > Подтема > Код. Платформа автоматически найдет похожие смыслы в других ответах и предложит их вам (желтый пунктир).
- Очистка от стоп-слов: При необходимости отредактируйте словарь исключений на вкладке "Данные", чтобы служебные слова не влияли на подсказки.
- Машинное обучение (ML): На вкладке "Авто-Анализ" выберите языковую модель (от легкой MiniLM до точной e5-large) и алгоритм кластеризации (AHC, DBSCAN, K-Means), чтобы сгруппировать ответы по семантическому смыслу без участия человека.
- Отчеты и выгрузка: Перейдите на вкладку "Дашборд". Система построит 6 академических графиков и сгенерирует подробный Excel-отчет со всеми метриками.
🎓 Описание методов для научных работ
Ниже представлены академические формулировки. Вы можете копировать и адаптировать их для раздела «Методы исследования» в вашей статье, курсовой работе или диссертации.
1. Векторное представление текста (Эмбеддинги)
Семантический анализ текстов проводился с использованием трансформерных нейросетевых языковых моделей (multilingual-e5 или MiniLM-L12). Текстовые ответы респондентов были преобразованы в плотные векторы (эмбеддинги) в многомерном семантическом пространстве (размерностью 384 или 768 признаков). Для формирования единого смыслового вектора предложения применялось усреднение эмбеддингов токенов (mean pooling) с последующей L2-нормализацией.
2. Меры семантической близости
Для оценки смысловой близости фрагментов текста использовалась метрика косинусного сходства (Cosine Similarity), отражающая косинус угла между векторами в пространстве. Математическая дистанция между текстами вычислялась как косинусное расстояние ($1 - \text{Cosine Similarity}$).
3. Автоматическая кластеризация (Тематическое моделирование)
Группировка ответов в смысловые категории осуществлялась методами машинного обучения без учителя на основе извлеченных векторных представлений. В зависимости от структуры данных применялся один из следующих алгоритмов:
- AHC (Иерархическая агломеративная кластеризация): Использовался метод центроидного связывания (Centroid Linkage) для построения естественной восходящей иерархии смыслов — от частных ответов к общим макро-темам.
- DBSCAN: Применялся алгоритм пространственной кластеризации на основе плотности. Данный метод позволил выделить плотные семантические ядра и автоматически изолировать нерелевантные, единичные ответы, пометив их как статистический шум (выбросы).
- K-Means: Выполнялось итеративное партиционирование векторов на заданное число ($K$) сферических кластеров с минимизацией внутрикластерной дисперсии.
4. Извлечение ключевых слов и лемматизация
Для определения семантического ядра кластеров (автоматического наименования тем) и поиска текстовых подсказок применялась NLP-обработка: токенизация, фильтрация стоп-слов и стемминг/лемматизация алгоритмом Портера с использованием расширенного словаря исключений (гибридный подход) либо точного словарного лемматизатора (lemmatizer-ru). В качестве описательных ярлыков для выделенных кластеров отбирались леммы с наивысшей абсолютной частотой (TF) внутри группы.
5. Снижение размерности и визуализация пространства
Для визуализации многомерного семантического пространства на двумерной плоскости применялся метод главных компонент (PCA - Principal Component Analysis) на базе алгоритма NIPALS (Non-linear Iterative Partial Least Squares). Это позволило графически отобразить математические центроиды выявленных тем и распределение ответов респондентов относительно них.
6. Оценка сплоченности тематических кластеров
Качество сформированных категорий оценивалось через показатель внутрикластерного расстояния. Для каждой темы вычислялось среднее арифметическое косинусных расстояний от всех ответов кластера до его математического центра (центроида). Более низкие значения метрики указывали на высокую семантическую однородность (сплоченность) выделенной темы.