Дата публикации: 15.05.2026
Создание таблиц и сводок из неструктурированного текста
Хочу себе такие же кнопки
Вводная часть
Вам уже знакомы базовые возможности нейросетей — классификация, генерация текста, поиск. Теперь вы узнаете, как превратить неструктурированный текст (отчёты, статьи, переписку) в таблицы и сводки, которые удобно анализировать, визуализировать и использовать в работе или учёбе.
Эти навыки позволяют:
- быстро собрать статистику из сотен документов;
- автоматизировать подготовку отчётов и презентаций;
- получать «сухие» данные из «мокрого» текста без ручного копипастинга.
1. Что такое неструктурированный текст?
| Термин |
Описание |
Пример |
| Неструктурированный текст |
Текст без чёткой схемы, без фиксированных полей. |
Электронные письма, статьи, форумы. |
| Структурированный текст |
Текст, где информация уже разбита на ячейки/строки. |
CSV‑файл, таблица Excel. |
Неструктурированный текст — это как мешок с разными предметами: в нём есть и книги, и карандаши, и яблоки, но без ярлыков, где что находится. Наша задача — разложить эти предметы по полкам (таблицам) и написать краткое содержание (сводку).
2. Зачем нужны таблицы и сводки?
- Таблицы позволяют выполнять сортировку, фильтрацию, группировку и расчёты (среднее, минимум, максимум).
- Сводки (summary, aggregation) дают быстрый обзор: сколько упоминаний, какие темы доминируют, какие тренды меняются со временем.
В академической работе это может быть «сколько раз в наборе статей упоминается метод X», а в бизнес‑контексте — «сколько заявок поступило из разных регионов за месяц».
3. Основные подходы к извлечению данных
| Подход |
Принцип |
Плюсы |
Минусы |
| Правила (regex, шаблоны) |
Жёсткие шаблоны, ищут фиксированные паттерны. |
Прозрачность, быстрый запуск. |
Не масштабируется, чувствителен к изменению формата. |
| Классические ML‑модели |
Фичи + классификатор (SVM, Random Forest). |
Работают на небольших датасетах. |
Требуют ручного выбора фичей. |
| Нейросети (BERT, GPT, T5) |
Предобученные трансформеры + дообучение на вашей задаче. |
Высокая точность, умеют «понимать» контекст. |
Требуют GPU/CPU‑мощности, больше данных. |
Для большинства практических задач сегодня нейросети — оптимальный компромисс: они умеют находить сущности, отношения и даже генерировать таблицы «на лету».
4. Предобработка текста (pre‑processing)
- Очистка – удаляем HTML‑теги, спецсимволы, лишние пробелы.
- Токенизация – разбиваем на слова/символы. В русскоязычном контексте часто используют
spacy с моделью ru_core_news_md.
- Лемматизация – приводим слова к базовой форме (например, «отчётах» → «отчёт»).
- NER (Named Entity Recognition) – выделяем имена, даты, организации, суммы.
import spacy, pandas as pd
nlp = spacy.load("ru_core_news_md")
doc = nlp("В отчёте от 12.03.2024 указано, что компания «Альфа» получила 1 500 000 руб.")
entities = [(ent.text, ent.label_) for ent in doc.ents]
print(entities) # [('12.03.2024', 'DATE'), ('Альфа', 'ORG'), ('1 500 000 руб', 'MONEY')]
Ключевые термины: токенизация (tokenization, 分词 fēn cí), лемматизация (lemmatization, 词形还原 cí xíng huán yuán), NER (named‑entity recognition, 实体识别 shí tǐ shí bié).
5. Построение таблицы из сущностей
5.1. Выбор колонок
| Колонка |
Что хранит |
Пример |
| Дата |
Дата события |
2024‑03‑12 |
| Организация |
Название компании/организации |
Альфа |
| Сумма |
Финансовый показатель |
1500000 |
| Тема |
Краткое описание |
Продажи |
5.2. Алгоритм
- Собрать все найденные сущности.
- Сгруппировать их по логическому «записному» блоку (обычно абзац или предложение).
- Заполнить ячейки: если в блоке есть дата → ставим в колонку Дата, если есть MONEY → в Сумма и т.д.
- Сохранить в
pandas.DataFrame и экспортировать в CSV/Excel.
records = []
for sent in doc.sents:
rec = {"Дата": None, "Организация": None, "Сумма": None, "Тема": None}
for ent in sent.ents:
if ent.label_ == "DATE":
rec["Дата"] = ent.text
elif ent.label_ == "ORG":
rec["Организация"] = ent.text
elif ent.label_ == "MONEY":
rec["Сумма"] = int(ent.text.replace(' ','').replace('руб',''))
# простая эвристика для темы: берём первое глагол‑существительное
rec["Тема"] = sent.text.split()[0]
records.append(rec)
df = pd.DataFrame(records)
print(df.head())
5.3. Обработка неоднозначностей
- Даты в разных форматах – используйте
dateparser.
- Суммы с валютой – нормализуйте в одну единицу (рубли, доллары).
- Повторяющиеся организации – объединяйте через
groupby.
6. Создание сводок (aggregation)
6.1. Суммирование и средние значения
summary = df.groupby('Организация').agg(
total_money=('Сумма', 'sum'),
avg_money=('Сумма', 'mean'),
count=('Сумма', 'count')
).reset_index()
print(summary)
6.2. Тренд‑анализ по времени
df['Дата'] = pd.to_datetime(df['Дата'], dayfirst=True)
trend = df.set_index('Дата').resample('M')['Сумма'].sum()
trend.plot(kind='line', title='Месячный объём продаж')
6.3. Краткое текстовое резюме
Для генерации небольших описаний можно использовать модели‑суммаризаторы (BART, T5).
from transformers import pipeline
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
text = " ".join(df['Тема'].tolist())
summary_text = summarizer(text, max_length=80, min_length=30, do_sample=False)[0]['summary_text']
print(summary_text)
Ключевой термин: агрегация (aggregation, 聚合 jù hé).
7. Инструменты и библиотеки, которые стоит знать
| Задача |
Библиотека |
Пример использования |
| Токенизация, NER |
spaCy, Stanza |
nlp = spacy.load("ru_core_news_md") |
| Табличные операции |
pandas, polars |
df.groupby(...).agg(...) |
| Суммирование текста |
transformers (BART, T5) |
pipeline("summarization") |
| Визуализация |
matplotlib, seaborn, plotly |
trend.plot() |
| Парсинг дат |
dateparser |
dateparser.parse("12 марта 2024") |
Для более «тяжёлых» проектов (много документов, требование реального времени) стоит рассмотреть Haystack + FAISS для быстрых поисковых индексов, а также LangChain для построения цепочек запросов к LLM‑моделям.
8. Пример проекта «Отчёт о продажах» – шаг за шагом
- Соберите набор PDF‑документов (отчёты за квартал).
- Конвертируйте PDF → текст (библиотека
pdfminer.six).
- Очистите текст от артефактов (таблицы в PDF часто превращаются в «---»).
- Запустите NER‑модель (spaCy) и извлеките даты, организации, суммы.
- Сформируйте DataFrame, нормализуйте даты и суммы.
- Сохраните таблицу в
sales_q1.xlsx.
- Постройте сводку: общий объём продаж, топ‑5 компаний, динамика по месяцам.
- Сгенерируйте короткое резюме (BART) и добавьте его в начало Excel‑файла.
Совет: если в одном документе несколько секций «Продажи», «Расходы», используйте ключевые фразы (например, «Итого по продажам») как маркеры начала новой записи.
Практика для закрепления
-
Экстракция сущностей
- Возьмите любой новостной текст (пример: статья о запуске нового продукта).
- С помощью
spacy найдите все даты, организации и суммы.
- Сохраните результат в CSV‑файл.
-
Построение таблицы
- На основе полученных сущностей создайте DataFrame с колонками Дата, Организация, Сумма, Тема.
- Приведите все суммы к целому числу в рублях.
-
Агрегация
- Сгруппируйте данные по организации и вычислите общий объём продаж и среднюю сумму.
- Выведите топ‑3 организации по общему объёму.
-
Тренд‑анализ
- Постройте график месячной динамики суммы продаж.
- Определите, в каком месяце был пик продаж и предложите гипотезу (например, сезонность).
-
Сводка текста
- Сгенерируйте короткое резюме (2‑3 предложения) из колонок Тема и Сумма с помощью модели‑суммаризатора.
- Оцените, насколько резюме отражает основные цифры.
Выполнив эти упражнения, вы получите готовый «pipeline» от сырого текста до готовой аналитической таблицы и сводки, который можно адаптировать под любые задачи в работе и учёбе. Удачной автоматизации!
Что такое нейросети и как они работают (простое объяснение)
Обзор популярных нейросетей: ChatGPT, Claude, Gemini, DeepSeek
Как правильно формулировать запросы (промты) для нейросетей
Регистрация и настройка аккаунтов в основных сервисах
Безопасность: что нельзя загружать в нейросети
Использование нейросетей для генерации идей для проектов
Написание писем и деловой переписки с помощью ИИ
Создание структуры доклада или презентации
Автоматическое реферирование больших текстов
Как нейросети помогают учить иностранные языки
Генерация тестов и экзаменационных вопросов
Подготовка к собеседованию с помощью ИИ
Написание постов для соцсетей и блогов
Создание конспектов лекций и видеоуроков
Объяснение сложных тем простыми словами
Генерация примеров для решения задач по математике
Написание кода на Python с помощью нейросетей
Отладка и исправление ошибок в коде
Написание SQL-запросов через ИИ
Автоматизация рутинных отчётов в Excel и Google Sheets
Анализ данных и поиск трендов
Создание таблиц и сводок из неструктурированного текста
Генерация резюме и сопроводительных писем
Составление планов уроков для преподавателей
Проверка грамматики и стиля текста
Генерация названий для статей и видео
Создание аннотаций и кратких содержаний книг
Помощь в решении творческих задач (написание сценариев)
Использование нейросетей для переговоров и аргументации
Составление расписания и to-do листов
Подбор литературы и источников по теме
Генерация возражений для тренировки продаж
Написание инструкций и руководств
Анализ тональности текста
Создание чек-листов для рабочих процессов
Как нейросети помогают перефразировать текст (рерайтинг)
Составление меню и планов питания с обоснованием
Подбор образовательных траекторий под цели ученика
Написание отзывов и рекомендательных писем
Создание вопросов для интервью
Генерация заданий для учеников с ответами
Обобщение переписок в мессенджерах (подведение итогов)
Расчёт бюджета и приблизительных смет
Составление плана развития навыков (roadmap)
Генерация базы знаний для нового сотрудника
Ускорение чтения и обработки документов
Перевод профессиональной лексики с пояснением
Создание скриптов для автоматизации нейросетями (API)
Этика использования ИИ: плагиат и проверки на ИИ
Ограничения и галлюцинации нейросетей (как проверять факты)
Создание пайплайна: от идеи до готового текста с помощью ИИ
Бесплатный курс Excel: логистика, учёт остатков и подбор транспорта
Чат с искусственной подругой
Чатрулетка: чат с новыми друзьями
Чай и кофе: утренний ритуал
Экран с отображением времени в полном размере
Фототехника с подсветкой
Генератор паролей с буквами и цифрами
Игры на развитие воображения у детей
Инновационные методы 3D-печати в строительстве бетонных конструкций
Легковые и микроавтобусы от немецких брендов
Материализация подсказок в Oracle Advanced Security для обеспечения безопасности данных
Местные автобренды России
Нейросети и анализ данных: бесплатно
Оптимизация работы с CDN GEO
Политика конфиденциальности и пользовательское соглашение
Смех без конца
Создание мемов без фотошопа: пошаговое руководство
Средства IP видеосистем
VDSina для чайников: основы
Видеосвязь без задержек
Виджет обратной связи с поддержкой
Зачем видеочат-ролетка в чате