Говорим по-русски 07.12.2011 22:45

Заранее сказать трудно. Надо проводить эксперименты со сравнением текстов типа "автор 1 пишет сам по себе", "автор 2 пишет сам по себе", "автор 1 пишет в стиле автора 2".

> А что если жанр, или условия турнира, или тема делают тексты разных авторов похожими?

Аналогично. Эксперимент должен выяснить, что больше влияет на измеряемое сходство текстов: личность автора или такого сорта ограничения.

> Вы не знаете ли, кто и какими именно методами вычислял авторов шолоховских текстов?

У меня только старая информация (до 98-го года).

Консультант
08.12.2011 23:18:21

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: Так вот ты какой! Смесь французского с нижегородским...на "Эхо Москвы"...

"Жюри считает, что игрок отличается симбиозом интеллекта и боевитости, а также способен сделать игру в разных амплуа"

Бувоедица
08.12.2011 17:16:05

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: прошекспиру

Похоже, но в строении белков алфавит меньше и слов разных осмысленных существенно меньше. Поэтому можно рассчитывать на более или менее точный результат.
А в словаре Шекспира слов больше 10 тысяч... Не помню, чуть ли не 15 тысяч.

Буквоедица
08.12.2011 17:11:47

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: Киевлянке

Зануда хочет, чтобы f(x) было числом. Как учили в курсе матанализа.
Ну, пускай. Есть же слова отображение, преобразование.

Буквоедица
08.12.2011 17:07:07

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: кстати

Спасибо.
Я понимаю, что "на пальцах" всего не объяснишь. Но всё же...
А что если автор текста А подражал автору В?
А что если жанр, или условия турнира, или тема делают тексты разных авторов похожими?

Вы не знаете ли, кто и какими именно методами вычислял авторов шолоховских текстов?

кстати
08.12.2011 15:46:00

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: Буквоедице

> То есть термином "сжатие" называется упаковка текста функцией вроде zip?

Точнее, слово "сжатие" может означать: а) процесс сжатия (превращения одного текста в другой, желательно более короткий; обычно требуют также обратимости этого преобразования), б) степень сжатия (соотношение между длиной исходного и сжатого).

> Наверно, там крутая математика, потому что на пальцах как-то непонятна связь с идентификацией автора.

Идея простая: сжатие возможно, поскольку в тексте есть какие-то повторяющиеся фрагменты, и можно, например, использовать отсылки вроде "а тут 15 знаков те же, что были 2178 знаков назад" -- которые записываются компактнее, чем "открытым текстом". Чем более однороден текст, тем больше найдется таких возможных отсылок, т. е. тем лучше получится сжатие. С ростом длины текста сжатие тоже увеличивается (в более длинной предыстории больше шансов найти текущий кусок).

Возьмем два предельных случая:

1. Текст состоит из двух одинаковых частей: A+A. Тогда его можно закодировать как код(A) + одна отсылка "всё, что было, повтори еще раз". То есть f(A+A)=f(A)+копейки. [f(x) -- это у нас "длина кода для текста x".]

2. Текст состоит из совершенно никак не связанных между собой частей A и B (половина по-русски, половина по-китайски). Взаимных отсылок никаких не усматривается, и f(A+B)=f(A)+f(B).

На практике мы где-то между: f(A) <= f(A+B) <= f(A)+f(B). Если текст B фиксирован, а в качестве A брать разные пробные тексты разных авторов, то f(A+B)-f(A) тем меньше, чем более "похож" текст B на текст A. Автор текста A, на котором будет достигнут минимум этой разности, и выдается в качестве вероятного кандидата на авторство и текста B.

(Дальше надо уточнять кучу технических деталей, чтобы это всё более-менее устойчиво работало на практике. Первым такую систему довел до ума как раз Хмелёв. А Малютов предложил работать не с текстами A и B как единым целым, а с их кусочками-страничками по отдельности, так оно оказалось надежнее.)

Про Шекспира
08.12.2011 09:43:33

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: Пять копеек

Я слышала или читала про эту методику сжатия... Тогда у меня возникла аналогия, которая показалась полезной для понимания процесса... Есть человек, есть белок, есть - форез, генетический анализ. Я себе представила это именно как разбор на гены, а потом их сравнение. Как тест на отцовство, к примеру. Он не прямой, но вероятность правильного ответа очень высока.

Киевлянка
08.12.2011 09:20:13

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: Буквоедица

++Сжатие текста - это не функция, а отображение из текста в текст. ++
Функция, вообще говоря, может быть не только числовой...

Буквоедица
07.12.2011 22:45:43

Наверх | Предыдущее сообщение | Следующее сообщение | Вниз

Тема: Зануде

Сжатие текста - это не фунция, а отображение из текста в текст. И каким-то образом сжатие zip даёт взаимнооднозначное соответствие. А то бы мы им не пользовались.
Распределение букв - тоже не функция, а целая гистограмма.
Ну, так далее.
Так что всё не так примитивно, как у Фоменко.

Предыдущий | На главную страницу | Наверх | Следующий

Оформление (C) Арнольд