Регистрационный номер НТЦ «Информрегистр» 0420900012
Свидетельство о регистрации СМИ Эл № ФС77-32022
ISSN 1990-4665
  English
 Журнал
Главная
Свежий номер
Архив номеров
Разделы
О журнале
Этика научных публикаций
Статистика
География

 Авторам
Порядок рецензирования
Порядок публикации
Образцы документов
Оформление статей
Оформление ссылок
Статус публикаций
Авторские права
Наши авторы

 Редакция
Редакционный совет
Редколлегия
Объявления
Ссылки
Контакты

 Документы
Оформление и публикация (в одном файле)





Кто здесь?


CC BY  «Attribution» («Атрибуция»)
 Версия для печати
 Файл в формате pdf


УДК 007.681.5:519.714:519.766

 

АТРИБУЦИЯ АНОНИМНЫХ И ПСЕВДОНИМНЫХ ТЕКСТОВ
В СИСТЕМНО-КОГНИТИВНОМ АНАЛИЗЕ

 

Луценко Е.В. – д. э. н., профессор

Кубанский государственный аграрный университет

 

В данной статье исследуется возможность атрибуции текстов с применением технологии и инструментария системно-когнитивного анализа. Приведен подробный численный пример реализации всех этапов СК-анализа при атрибуции текстов, т. е. когнитивной структуризации и формализации предметной области; формирования обучающей выборки; синтеза семантической информационной модели; ее оптимизации и измерения адекватности; адаптации и пересинтеза; а также типологического и кластерно-конструктивного анализа. Для специалистов по атрибуции и контент-анализу текстов на естественном языке. Материал может быть использован в качестве руководства к лабораторной работе по дисциплине: "Интеллектуальные информационные системы".

Краткая теория

Под атрибуцией анонимных и псевдонимных текстов понимается установление их вероятного авторства [1–5].

Анонимные тексты – это тексты вообще без подписи автора, а псевдонимные – подписанные под псевдонимом.

Задача идентификации текстов на основе анализа предложений является тривиальной из-за уникальности предложений. Поэтому больший интерес представляет задача идентификации текстов на основе анализа слов, т. е. задача атрибуции текстов, имеющая большое научное и практическое значение. К этой задаче сводится:

- определение вероятного авторства текстов в случае, когда автор не указан (анонимный текст) или указан его псевдоним (псевдонимный текст);

- датировка текста.

- задачи идентификации, прогнозирования, сравнения и классификации объектов, описанных на естественном языке (причем не важно, на каком именно).

С ней связаны также задачи автоматического выделения дескрипторов и задачи нечеткого поиска и идентификации.

Все эти задачи имеют практическое значение для специалистов по прикладной информатике в экономике и юриспруденции, которых готовят в Кубанском государственном аграрном университете.

Одному из вариантов решения этих задач с применением интеллектуальной технологии "Эйдос" посвящена данная статья.

Задания

Согласно логике системно-когнитивного анализа, выполнить следующие работы.

1. Осуществить когнитивную структуризацию предметной области.

2. Выполнить формализацию предметной области.

3. Сформировать обучающую выборку.

4. Осуществить синтез семантической информационной модели.

5. Оптимизировать семантическую информационную модель.

6. Проверить семантическую информационную модель на адекватность, измерить внутреннюю и внешнюю, дифференциальную и интегральную валидность.

7. Выполнить адаптацию модели и измерить, как изменилась ее адекватность.

8. Осуществить пересинтез модели и измерить, как изменилась ее адекватность.

9. Вывести информационные портреты текстов и дать их интерпретацию.

10. Провести кластерно-конструктивный анализ модели.

Пример решения

1. Осуществить когнитивную структуризацию предметной области

Под когнитивной структуризацией в СК-анализе понимается определение причин и следствий, факторов и состояний объекта управления, исходной информации и того, на что она влияет.

В данной лабораторной работе необходимо решить задачу идентификации текстов по входящим в них словам. Следовательно, необходимо будет сформировать обобщенные образы текстов, соответствующих определенной тематике или автору (будем считать, что сочинение принадлежит тому писателю, творчеству которого оно посвящено). Для этого в качестве объектов обучающей выборки использовались фрагменты текстов школьных сочинений, взятые из Internet, а в качестве признаков текстов – входящие в них слова.

Каждое сочинение разобьем случайным образом на примерно равные по объему небольшие фрагменты, которые используем в качестве объектов обучающей выборки.

2. Выполнить формализацию предметной области

Под формализацией предметной области понимается разработка классификационных и описательных шкал и градаций и ввод их в программную систему "Эйдос", являющуюся инструментарием СК-анализа.

2.1. Формирование классификационных шкал и градаций

В подсистеме "Классификационные шкалы и градации" введем классы, соответствующие следующим писателям: Ф.М. Достоевский; Н.В. Гоголь; А.С. Грибоедов; М.Ю. Лермонтов; А.С. Пушкин; Л.Н. Толстой; И.С. Тургенев (рис. 1).

 

Рис. 1. Ввод классов

 

2.1. Формирование описательных шкал и градаций

С этой целью исходные файлы для формирования объектов обучающей выборки должны быть средствами Word и представлены в виде текстовых файлов, стандарта "Текст DOS" (без разбиения на строки).

Затем каждый из этих файлов разбивается на столько файлов, сколько в нем строк, причем имена этих файлов должны иметь вид: ####SUBSTR(File_name,4).TXT, где #### – сквозной номер файлов, соответствующий будущему номеру анкеты обучающей выборки, SUBSTR(File_name,4) – первые 4 символа имени исходного файла.

Полученные файлы должны быть помещены в поддиректорию DOB системы "Эйдос", а исходные – удалены из нее.

Это осуществляется одним из трех способов:

1. Вручную.

2. С использованием специальной программы, текст которой приводится ниже (язык программирования xBase).

3. В режиме: "Словари – Программные интерфейсы для импорта данных – Импорт данных из TXT-файлов стандарта "Текст DOS" формируем описательные шкалы и градации (рис. 2), причем в качестве признаков выбираем слова.

Исходный текст программы записи TXT-файлов с данными по строкам
**************************************************************************
********** Разбиение текстовых файлов DOS на нумерованные файлы по строкам
********** Луценко Е.В., 03/31/04 04:24pm
**************************************************************************
scr_start=SAVESCREEN(0,0,24,79)
SHOWTIME(0,58,.T.,"rb/n")
FOR j=0 TO 24
    @j,0 SAY SPACE(80) COLOR "n/n"
NEXT
********** Удаление TXT-файлов, имена которых начинаются на 0
FILEDELETE("0*.TXT")
***** РЕКОГНОСЦИРОВКА
Count = ADIR("*.TXT")             && Кол-во TXT-файлов
IF Count = 0
   Mess = "В текущей директории TXT-файлов не обнаружено !!!"
   @15,40-LEN(Mess)/2 SAY Mess COLOR "gr+/n"
   INKEY(0)
   RESTSCREEN(0,0,24,79,scr_start)
   SHOWTIME()
   QUIT
ENDIF
PRIVATE Name[Count],Size[Count]   && Имена и размеры файлов
Count = ADIR("*.txt",Name,Size)
SortData(Name,Size,LEN(Name),1)   && Сортировка файлов по алфавиту
CrLf = CHR(13)+CHR(10)            && Конец строки (абзаца) (CrLf)
*** Загрузка TXT-файлов
Num_pp = 0                        && Номера выходных файлов
FOR f = 1 TO Count                && Начало цикла по TXT-файлам
    ****** Загрузка файла
    Buffer = FILESTR(Name[f],.T.)
    Buffer = CHARONE(" ",Buffer)  && Удаление повторяющихся пробелов
    Buffer = Buffer + CrLf
    Len = AT(CrLf,Buffer)
    DO WHILE Len > 0 .AND. LASTKEY() <> 27     && Цикл по строкам
       Len = AT(CrLf,Buffer)
       IF Len > 0
          ****** Запись фрагмента файла
          Str_pr = ALLTRIM(SUBSTR(Buffer,1,Len-1))
          Fn_out = STRTRAN(STR(++Num_pp,4)," ","0")+SUBSTR(Name[f],1,4)+".TXT"
          STRFILE(Str_pr,Fn_out)
          ****** Исключение из буфера записанной строки
          Buffer = ALLTRIM(SUBSTR(Buffer,Len+1))
       ENDIF
    ENDDO
NEXT
*** Удаление исходных TXT-файлов
FOR f=1 TO Count
    FILEDELETE(Name[f])
NEXT
RESTSCREEN(0,0,24,79,scr_start)
SHOWTIME()
QUIT
              
Рис. 2. Выход на режим генерации справочников
на основе текстовых файлов

 

На рисунке 3 приведена экранная форма, отображающая ход процесса генерации описательных шкал и градаций и TXT-файлов, содержащих примеры текстов с разбивкой по строкам.

 

Рис. 3. Генерация описательных шкал и градаций
на основе TXT-файлов

В результате получаем классификационные и описательные шкалы и градации, приведенные в таблицах 1 и 2. В таблице 2 отражена лишь часть справочника, т. к. его размерность составляет 3522 градации (т. е. слова).

Таблица 1.  Классификационные шкалы и градации
Код Наименование
1 Достоевский
2 Гоголь
3 Грибоедов
4 Лермонтов
5 Пушкин
6 Толстой
7 Тургенев

 

Таблица 2. Описательные шкалы и градации (фрагмент)

3. Сформировать обучающую выборку

Обучающая выборка представляет собой фрагменты текстов различных авторов, используемые в качестве примеров для формирования семантической информационной модели. На основе анализа этих примеров выявляются взаимосвязи между теми или иными словами и принадлежностью текстов разным авторам.

Для генерации обучающей выборки используется 1-й режим 2-й подсистемы, функция F7InpTXT – F6Ввод из всех файлов. При этом в качестве признаков, также как при формировании описательных шкал и градаций, выбираются слова (рис. 4).

 

Рис. 4. Генерация обучающей выборки из TXT-файлов

 

В результате формируется обучающая выборка, состоящая из 151 примера фрагментов текстов различных авторов. Остается лишь проставить в каждом примере (анкете) код писателя, о котором данный текст, т. е. код класса (в левом окне).

4. Осуществить синтез семантической информационной модели

Синтез модели осуществляется во 2-й подсистеме, 4-м режиме, 5-й функции (рис. 5).

 

Рис. 5. Запуск режима:
"Синтез семантической информационной модели"

 

Стадия процесса синтеза отображается в ряде экранных форм, одна из которых приведена на рисунке 6.

 

Рис. 6. Экранная форма, отображающая одну из стадий
процесса синтеза семантической информационной модели

 

 

5. Оптимизировать семантическую информационную модель

Оптимизация модели представляет собой исключение из нее малозначащих признаков без потери адекватности модели. Эта операция осуществляется во 2-м режиме 3-й подсистемы (рис. 7).

 

Рис. 7. Выход на режимы оптимизации модели

При том имеется возможность вывести график ценности признаков "нарастающим итогом", т. е. Паретто-диаграмму признаков (рис. 8).

 

Рис. 8. Паретто-диаграмма признаков

Из рисунка 8 видно, что в системе нет признаков, имеющих очень малую или нулевую ценность. Это связано с тем, что все слова являются практически уникальными для фрагментов текстов, т. е. встречаются во всех текстах в основном от 1 до 5 раз (рис. 9).

 

Рис. 9. Частотное распределение числа встреч признаков

 

6. Проверить семантическую информационную модель на адекватность,измерить внутреннюю и внешнюю, дифференциальную и интегральную валидность
6.1. Внутренняя дифференциальная и интегральная валидность

Под внутренней валидностью понимается способность модели верно идентифицировать объекты, входящие в обучающую выборку.

Для измерения адекватности модели необходимо выполнить следующие действия:

1. Скопировать обучающую выборку в распознаваемую (во 1-м режиме 2-й подсистемы, нажав клавишу F5).

2. Выполнить пакетное распознавание (во 2-м режиме 4-й подсистемы, задав 1-й критерий сходства) (рис. 10).

3. Измерить адекватность модели (во 2-м режиме 6-й подсистемы) (рис. 11 и 12).

Рис. 10. Выход на режим пакетного распознавания

 

Рис.  11. Выход на режим измерения адекватности модели

 

Рис. 12. Экранная форма управления измерением адекватности
модели и отображения результатов

Эта форма может прокручиваться вправо-влево. В верхней части формы приведены показатели интегральной валидности (средневзвешенные по всей обучающей выборке), а в самой таблице – дифференциальной валидности, т. е. в разрезе по классам.

Кроме того, результаты измерения адекватности модели выводятся в форме файлов с именами ValidSys.txt (рис. 13) и ValAnkSt.txt (рис. 14) стандарта "TXT-текст DOS" в поддиректории TXT. Первый файл имеет следующий вид.

 

Рис.  13. Выходная форма ValidSys.txt с результатами измерения
адекватности модели и отображения результатов

 

Рассмотрим, что означают графы этой выходной формы.

"Всего логических анкет" – это количество анкет (примеров текстов) в обучающей выборке, на основе которых формировался образ данного класса.

"Идентифицировано верно" – это количество анкет обучающей выборки, идентифицированных как классы, к которым они действительно относятся.

"Идентифицировано ошибочно" – это количество анкет обучающей выборки, идентифицированных как классы, к которым они в действительности не относятся (ошибка идентификации).

"Неидентифицировано верно" – это количество анкет обучающей выборки, неидентифицированных как классы, к которым они действительно не относятся.

"Неидентифицировано ошибочно" – это количество анкет обучающей выборки, неидентифицированных как классы, к которым они в действительности относятся (ошибка неидентфикации).

В правой части формы приведены те же показатели, но в процентом выражении:

– для анкет, идентифицированных верно и неидентифицированных ошибочно, за 100 % принимается количество логических анкет обучающей выборки по данному классу;

– для анкет, идентифицированных ошибочно и неидентифицированных верно, за 100 % принимается суммарное количество логических анкет обучающей выборки за вычетом логических анкет по данному классу.

 

Рис. 14. Фрагмент выходной формы ValAnkSt.txt с результатами
измерения адекватности модели и отображения результатов

В данной форме приведены коды анкет обучающей выборки, которые были учтены в каждой графе предыдущей формы по каждому классу.

6.2. Внешняя дифференциальная и интегральная валидность

Под внешней валидностью понимается способность модели верно идентифицировать объекты, не входящие в обучающую выборку. Если объект идентифицирован верно, то это означает, что он входит в генеральную совокупность, по отношению к которой обучающая выборка репрезентативна.

Для измерения внешней валидности необходимо выполнить следующие действия:

1. В режиме измерения адекватности модели запустить режим измерения внешней валидности (нажав F8 Измерение внешней валидности) (см. рис. 12).

2. Выбрать один из режимов удаления объектов обучающей выборки, приведенный на экранной форме (рис. 15).

Рис. 15. Режим переноса анкет обучающей выборки
в распознаваемую для измерения внешней валидности

Результат выполнения всех указанных на рисунке 15 действий приведен на рисунке 16.

Рис. 16. Выходная форма с результатами измерения
внешней валидности методом бутстрепной статистики

При этом исходная выборка была разделена на две:

– в обучающей выборке остались только нечетные анкеты;

– в распознаваемую выборку были включены только четные анкеты;

– при распознавании был использован 2-й интегральный критерий: сумма количества информации.

Анализ отчета по внешней валидности, приведенного на рисунке 16, позволяет сделать вывод о высокой степени адекватности семантической информационной модели. Это значит, что взаимосвязи между словами, использованными в текстах, и принадлежностью этих текстов различным авторам, выявленные по примерам обучающей выборки, оказались имеющими силу и для других фрагментов текстов, не включенных в обучающую выборку, но входящих в распознаваемую выборку, по отношению к которой обучающая выборка репрезентативна.

7. Выполнить адаптацию модели и измерить, как изменилась ее адекватность

Под адаптацией модели понимается ее количественная модификация, осуществляемая путем включения в обучающую выборку дополнительных примеров реализации объектов, относящихся к тем же самым классам и описанным в той же системе признаков.

На первом этапе для изучения адаптивности модели осуществим ее синтез на основе обучающей выборки, состоящей из нечетных анкет, которая использовалась в примере для измерения внешней валидности. В отличие от этого примера эту же выборку будем применять и как распознаваемую.

На втором этапе осуществим синтез модели на основе полной обучающей выборки, включающей как четные, так и нечетные анкеты.

Адаптация модели повышает точность идентификации объектов той же самой генеральной совокупности.

8. Осуществить пересинтез модели и измерить, как изменилась ее адекватность

Под повторным синтезом (пересинтезом) модели понимается ее качественная модификация, осуществляемая путем включения в модель новых дополнительных классификационных и описательных шкал и градаций, представленных примерами в обучающей выборке.

Пересинтез модели обеспечивает возможность ее применения для идентификации объектов расширенной или новой генеральной совокупности.

Приведем пример синтеза новой модели, обобщающей предыдущую.

В модель добавлены новые классы распознавания (табл. 3).

Таблица 3. Классификационные шкалы

Описательные шкалы и градации не приводятся, т. к. их размерность составляет 6974 градации. Необходимо отметить, что текущая версия 11.7 системы "Эйдос" не имеет принципиальных ограничений на суммарное количество градаций классификационных и описательных шкал при синтезе модели и решении задач идентификации и прогнозирования, а также на количество объектов обучающей выборки. Реально решались задачи с объемом обучающей выборки до 25000 объектов с 1500 классами и 7000 признаками. При этом были осуществлены синтез и исследование моделей, содержащих до 25 миллионов фактов.

В программном интерфейсе импорта данных из 17 исходных текстовых файлов, посвященных различным темам (см. табл. 3), было сформировано 592 фрагмента, которые стали основой обучающей выборки.

После синтеза модели измеряется ее адекватность. Для этого обучающая выборка копируется в распознаваемую, после чего проводятся распознавание и измерение валидности (рис. 17). Продемонстрирована очень высокая внутренняя валидность новой модели.

 

Рис. 17. Выходная форма с результатами измерения
внутренней валидности после пересинтеза модели

 

9. Вывести информационные портреты текстов и дать их
 интерпретацию

Информационный портрет класса представляет собой список признаков в порядке убывания количества информации, содержащегося в этих признаках, о принадлежности к данному классу.

Они генерируются в 1-м режиме 5-й подсистемы "Типология" (рис. 18). Информационные портреты классов отображаются системой "Эйдос" в виде экранных форм, круговых диаграмм и гистограмм, а также  распечатываются в форме таблиц в поддиректории TXT. Графические формы записываются в поддиректории PCX.

 

 

 

 

 

 

 

 

Рис. 18. Информационные портреты классов

 

10. Выполнить кластерно-конструктивный анализ модели

Кластерно-конструктивный анализ классов и признаков реализуется в 5-й подсистеме "Типология". В результате рассчитываются матрицы сходства классов и признаков, на основе которых генерируется и выводится ряд текстовых и графических форм. В данной статье мы приведем для примера лишь матрицу сходства классов (табл. 4) и отображающую ее в графической форме семантическую сеть классов (рис. 19).

 

Таблица 4.  Матрица сходства классов

 

Рис. 19. Отображение матрицы сходства классов
в графической форме семантической сети классов
(отображены связи значимостью более 5 %)

 

Выводы

Продемонстрирована возможность и эффективность применения технологии и инструментария системно-когнитивного анализа для решения ряда задач атрибуции текстов.

Приведен подробный численный пример (с большим количеством конкретных иллюстративных материалов) реализации всех этапов СК-анализа при атрибуции текстов:

– когнитивной структуризации и формализации предметной области;

– формирования обучающей выборки;

– синтеза семантической информационной модели;

– оптимизации и измерения адекватности модели;

– адаптации и пересинтеза модели;

– типологического и кластерно-конструктивного анализа модели.

Статья может представлять интерес для специалистов по атрибуции и контент-анализу текстов на естественном языке. Материал может быть также использован в качестве руководства к лабораторной работе по дисциплине: "Интеллектуальные информационные системы".

 

 

Список литературы

1. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами теории распознавания образов. – Л.: ЛГУ, 1990. – 164 с.

2. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). –  Краснодар: КЮИ МВД РФ, 1996. – 280 с.

3. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). – Краснодар: КубГАУ, 2002. – 605 с.

4. Луценко Е.В. Атрибуция текстов как обобщение задач идентификации и прогнозирования // Научный журнал КубГАУ. – 2003.– № 2 (2). –19 с. http://ej.kubagro.ru.

5. Пат. № 2003610986 РФ. Универсальная когнитивная аналитическая система "ЭЙДОС" / Е.В. Луценко (Россия); Заяв. № 2003610510 РФ. Опубл. от 22.04.2003. – 50 с.


 
© Кубанский государственный аграрный университет, 2003-2015
Разработка и поддержка сайта: ЦИТ КубГАУ

Регистрационный номер НТЦ «Информрегистр» 0420900012
Свидетельство о регистрации СМИ Эл № ФС77-32022
ISSN 1990-4665