DeepEdit!

Программирование баз данных на Oracle, техническая документация, литература, статьи и публикации

  • Увеличить размер шрифта
  • Размер шрифта по умолчанию
  • Уменьшить размер шрифта
Дата публикации: 15.05.2026

Создание таблиц и сводок из неструктурированного текста

Хочу себе такие же кнопки

Вводная часть

Вам уже знакомы базовые возможности нейросетей — классификация, генерация текста, поиск. Теперь вы узнаете, как превратить неструктурированный текст (отчёты, статьи, переписку) в таблицы и сводки, которые удобно анализировать, визуализировать и использовать в работе или учёбе.

Эти навыки позволяют:

  • быстро собрать статистику из сотен документов;
  • автоматизировать подготовку отчётов и презентаций;
  • получать «сухие» данные из «мокрого» текста без ручного копипастинга.

1. Что такое неструктурированный текст?

Термин Описание Пример
Неструктурированный текст Текст без чёткой схемы, без фиксированных полей. Электронные письма, статьи, форумы.
Структурированный текст Текст, где информация уже разбита на ячейки/строки. CSV‑файл, таблица Excel.

Неструктурированный текст — это как мешок с разными предметами: в нём есть и книги, и карандаши, и яблоки, но без ярлыков, где что находится. Наша задача — разложить эти предметы по полкам (таблицам) и написать краткое содержание (сводку).


2. Зачем нужны таблицы и сводки?

  • Таблицы позволяют выполнять сортировку, фильтрацию, группировку и расчёты (среднее, минимум, максимум).
  • Сводки (summary, aggregation) дают быстрый обзор: сколько упоминаний, какие темы доминируют, какие тренды меняются со временем.

В академической работе это может быть «сколько раз в наборе статей упоминается метод X», а в бизнес‑контексте — «сколько заявок поступило из разных регионов за месяц».


3. Основные подходы к извлечению данных

Подход Принцип Плюсы Минусы
Правила (regex, шаблоны) Жёсткие шаблоны, ищут фиксированные паттерны. Прозрачность, быстрый запуск. Не масштабируется, чувствителен к изменению формата.
Классические ML‑модели Фичи + классификатор (SVM, Random Forest). Работают на небольших датасетах. Требуют ручного выбора фичей.
Нейросети (BERT, GPT, T5) Предобученные трансформеры + дообучение на вашей задаче. Высокая точность, умеют «понимать» контекст. Требуют GPU/CPU‑мощности, больше данных.

Для большинства практических задач сегодня нейросети — оптимальный компромисс: они умеют находить сущности, отношения и даже генерировать таблицы «на лету».


4. Предобработка текста (pre‑processing)

  1. Очистка – удаляем HTML‑теги, спецсимволы, лишние пробелы.
  2. Токенизация – разбиваем на слова/символы. В русскоязычном контексте часто используют spacy с моделью ru_core_news_md.
  3. Лемматизация – приводим слова к базовой форме (например, «отчётах» → «отчёт»).
  4. NER (Named Entity Recognition) – выделяем имена, даты, организации, суммы.
import spacy, pandas as pd
nlp = spacy.load("ru_core_news_md")
doc = nlp("В отчёте от 12.03.2024 указано, что компания «Альфа» получила 1 500 000 руб.")
entities = [(ent.text, ent.label_) for ent in doc.ents]
print(entities)   # [('12.03.2024', 'DATE'), ('Альфа', 'ORG'), ('1 500 000 руб', 'MONEY')]

Ключевые термины: токенизация (tokenization, 分词 fēn cí), лемматизация (lemmatization, 词形还原 cí xíng huán yuán), NER (named‑entity recognition, 实体识别 shí tǐ shí bié).


5. Построение таблицы из сущностей

5.1. Выбор колонок

Колонка Что хранит Пример
Дата Дата события 2024‑03‑12
Организация Название компании/организации Альфа
Сумма Финансовый показатель 1500000
Тема Краткое описание Продажи

5.2. Алгоритм

  1. Собрать все найденные сущности.
  2. Сгруппировать их по логическому «записному» блоку (обычно абзац или предложение).
  3. Заполнить ячейки: если в блоке есть дата → ставим в колонку Дата, если есть MONEY → в Сумма и т.д.
  4. Сохранить в pandas.DataFrame и экспортировать в CSV/Excel.
records = []
for sent in doc.sents:
    rec = {"Дата": None, "Организация": None, "Сумма": None, "Тема": None}
    for ent in sent.ents:
        if ent.label_ == "DATE":
            rec["Дата"] = ent.text
        elif ent.label_ == "ORG":
            rec["Организация"] = ent.text
        elif ent.label_ == "MONEY":
            rec["Сумма"] = int(ent.text.replace(' ','').replace('руб',''))
    # простая эвристика для темы: берём первое глагол‑существительное
    rec["Тема"] = sent.text.split()[0]
    records.append(rec)

df = pd.DataFrame(records)
print(df.head())

5.3. Обработка неоднозначностей

  • Даты в разных форматах – используйте dateparser.
  • Суммы с валютой – нормализуйте в одну единицу (рубли, доллары).
  • Повторяющиеся организации – объединяйте через groupby.

6. Создание сводок (aggregation)

6.1. Суммирование и средние значения

summary = df.groupby('Организация').agg(
    total_money=('Сумма', 'sum'),
    avg_money=('Сумма', 'mean'),
    count=('Сумма', 'count')
).reset_index()
print(summary)

6.2. Тренд‑анализ по времени

df['Дата'] = pd.to_datetime(df['Дата'], dayfirst=True)
trend = df.set_index('Дата').resample('M')['Сумма'].sum()
trend.plot(kind='line', title='Месячный объём продаж')

6.3. Краткое текстовое резюме

Для генерации небольших описаний можно использовать модели‑суммаризаторы (BART, T5).

from transformers import pipeline
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
text = " ".join(df['Тема'].tolist())
summary_text = summarizer(text, max_length=80, min_length=30, do_sample=False)[0]['summary_text']
print(summary_text)

Ключевой термин: агрегация (aggregation, 聚合 jù hé).


7. Инструменты и библиотеки, которые стоит знать

Задача Библиотека Пример использования
Токенизация, NER spaCy, Stanza nlp = spacy.load("ru_core_news_md")
Табличные операции pandas, polars df.groupby(...).agg(...)
Суммирование текста transformers (BART, T5) pipeline("summarization")
Визуализация matplotlib, seaborn, plotly trend.plot()
Парсинг дат dateparser dateparser.parse("12 марта 2024")

Для более «тяжёлых» проектов (много документов, требование реального времени) стоит рассмотреть Haystack + FAISS для быстрых поисковых индексов, а также LangChain для построения цепочек запросов к LLM‑моделям.


8. Пример проекта «Отчёт о продажах» – шаг за шагом

  1. Соберите набор PDF‑документов (отчёты за квартал).
  2. Конвертируйте PDF → текст (библиотека pdfminer.six).
  3. Очистите текст от артефактов (таблицы в PDF часто превращаются в «---»).
  4. Запустите NER‑модель (spaCy) и извлеките даты, организации, суммы.
  5. Сформируйте DataFrame, нормализуйте даты и суммы.
  6. Сохраните таблицу в sales_q1.xlsx.
  7. Постройте сводку: общий объём продаж, топ‑5 компаний, динамика по месяцам.
  8. Сгенерируйте короткое резюме (BART) и добавьте его в начало Excel‑файла.

Совет: если в одном документе несколько секций «Продажи», «Расходы», используйте ключевые фразы (например, «Итого по продажам») как маркеры начала новой записи.


Практика для закрепления

  1. Экстракция сущностей

    • Возьмите любой новостной текст (пример: статья о запуске нового продукта).
    • С помощью spacy найдите все даты, организации и суммы.
    • Сохраните результат в CSV‑файл.
  2. Построение таблицы

    • На основе полученных сущностей создайте DataFrame с колонками Дата, Организация, Сумма, Тема.
    • Приведите все суммы к целому числу в рублях.
  3. Агрегация

    • Сгруппируйте данные по организации и вычислите общий объём продаж и среднюю сумму.
    • Выведите топ‑3 организации по общему объёму.
  4. Тренд‑анализ

    • Постройте график месячной динамики суммы продаж.
    • Определите, в каком месяце был пик продаж и предложите гипотезу (например, сезонность).
  5. Сводка текста

    • Сгенерируйте короткое резюме (2‑3 предложения) из колонок Тема и Сумма с помощью модели‑суммаризатора.
    • Оцените, насколько резюме отражает основные цифры.

Выполнив эти упражнения, вы получите готовый «pipeline» от сырого текста до готовой аналитической таблицы и сводки, который можно адаптировать под любые задачи в работе и учёбе. Удачной автоматизации!


Что такое нейросети и как они работают (простое объяснение)
Обзор популярных нейросетей: ChatGPT, Claude, Gemini, DeepSeek
Как правильно формулировать запросы (промты) для нейросетей
Регистрация и настройка аккаунтов в основных сервисах
Безопасность: что нельзя загружать в нейросети
Использование нейросетей для генерации идей для проектов
Написание писем и деловой переписки с помощью ИИ
Создание структуры доклада или презентации
Автоматическое реферирование больших текстов
Как нейросети помогают учить иностранные языки
Генерация тестов и экзаменационных вопросов
Подготовка к собеседованию с помощью ИИ
Написание постов для соцсетей и блогов
Создание конспектов лекций и видеоуроков
Объяснение сложных тем простыми словами
Генерация примеров для решения задач по математике
Написание кода на Python с помощью нейросетей
Отладка и исправление ошибок в коде
Написание SQL-запросов через ИИ
Автоматизация рутинных отчётов в Excel и Google Sheets
Анализ данных и поиск трендов
Создание таблиц и сводок из неструктурированного текста
Генерация резюме и сопроводительных писем
Составление планов уроков для преподавателей
Проверка грамматики и стиля текста
Генерация названий для статей и видео
Создание аннотаций и кратких содержаний книг
Помощь в решении творческих задач (написание сценариев)
Использование нейросетей для переговоров и аргументации
Составление расписания и to-do листов
Подбор литературы и источников по теме
Генерация возражений для тренировки продаж
Написание инструкций и руководств
Анализ тональности текста
Создание чек-листов для рабочих процессов
Как нейросети помогают перефразировать текст (рерайтинг)
Составление меню и планов питания с обоснованием
Подбор образовательных траекторий под цели ученика
Написание отзывов и рекомендательных писем
Создание вопросов для интервью
Генерация заданий для учеников с ответами
Обобщение переписок в мессенджерах (подведение итогов)
Расчёт бюджета и приблизительных смет
Составление плана развития навыков (roadmap)
Генерация базы знаний для нового сотрудника
Ускорение чтения и обработки документов
Перевод профессиональной лексики с пояснением
Создание скриптов для автоматизации нейросетями (API)
Этика использования ИИ: плагиат и проверки на ИИ
Ограничения и галлюцинации нейросетей (как проверять факты)
Создание пайплайна: от идеи до готового текста с помощью ИИ
Бесплатный курс Excel: логистика, учёт остатков и подбор транспорта
Чат с искусственной подругой
Чатрулетка: чат с новыми друзьями
Чай и кофе: утренний ритуал
Экран с отображением времени в полном размере
Фототехника с подсветкой
Генератор паролей с буквами и цифрами
Игры на развитие воображения у детей
Инновационные методы 3D-печати в строительстве бетонных конструкций
Легковые и микроавтобусы от немецких брендов
Материализация подсказок в Oracle Advanced Security для обеспечения безопасности данных
Местные автобренды России
Нейросети и анализ данных: бесплатно
Оптимизация работы с CDN GEO
Политика конфиденциальности и пользовательское соглашение
Смех без конца
Создание мемов без фотошопа: пошаговое руководство
Средства IP видеосистем
VDSina для чайников: основы
Видеосвязь без задержек
Виджет обратной связи с поддержкой
Зачем видеочат-ролетка в чате



jAntivirus
Политика конфиденциальности