кстати 09.12.2011 06:00:29 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Буквоедице |
|
> А что если автор текста А подражал автору В? Заранее сказать трудно. Надо проводить эксперименты со сравнением текстов типа "автор 1 пишет сам по себе", "автор 2 пишет сам по себе", "автор 1 пишет в стиле автора 2". > А что если жанр, или условия турнира, или тема делают тексты разных авторов похожими? Аналогично. Эксперимент должен выяснить, что больше влияет на измеряемое сходство текстов: личность автора или такого сорта ограничения. > Вы не знаете ли, кто и какими именно методами вычислял авторов шолоховских текстов? У меня только старая информация (до 98-го года).
|
Консультант 08.12.2011 23:18:21 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Так вот ты какой! Смесь французского с нижегородским...на "Эхо Москвы"... |
|
"Жюри считает, что игрок отличается симбиозом интеллекта и боевитости, а также способен сделать игру в разных амплуа"
|
Бувоедица 08.12.2011 17:16:05 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: прошекспиру |
|
Похоже, но в строении белков алфавит меньше и слов разных осмысленных существенно меньше. Поэтому можно рассчитывать на более или менее точный результат. А в словаре Шекспира слов больше 10 тысяч... Не помню, чуть ли не 15 тысяч.
|
Буквоедица 08.12.2011 17:07:07 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: кстати |
|
Спасибо. Я понимаю, что "на пальцах" всего не объяснишь. Но всё же... А что если автор текста А подражал автору В? А что если жанр, или условия турнира, или тема делают тексты разных авторов похожими? Вы не знаете ли, кто и какими именно методами вычислял авторов шолоховских текстов?
|
кстати 08.12.2011 15:46:00 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Буквоедице |
|
> То есть термином "сжатие" называется упаковка текста функцией вроде zip? Точнее, слово "сжатие" может означать: а) процесс сжатия (превращения одного текста в другой, желательно более короткий; обычно требуют также обратимости этого преобразования), б) степень сжатия (соотношение между длиной исходного и сжатого). > Наверно, там крутая математика, потому что на пальцах как-то непонятна связь с идентификацией автора. Идея простая: сжатие возможно, поскольку в тексте есть какие-то повторяющиеся фрагменты, и можно, например, использовать отсылки вроде "а тут 15 знаков те же, что были 2178 знаков назад" -- которые записываются компактнее, чем "открытым текстом". Чем более однороден текст, тем больше найдется таких возможных отсылок, т. е. тем лучше получится сжатие. С ростом длины текста сжатие тоже увеличивается (в более длинной предыстории больше шансов найти текущий кусок). Возьмем два предельных случая: 1. Текст состоит из двух одинаковых частей: A+A. Тогда его можно закодировать как код(A) + одна отсылка "всё, что было, повтори еще раз". То есть f(A+A)=f(A)+копейки. [f(x) -- это у нас "длина кода для текста x".] 2. Текст состоит из совершенно никак не связанных между собой частей A и B (половина по-русски, половина по-китайски). Взаимных отсылок никаких не усматривается, и f(A+B)=f(A)+f(B). На практике мы где-то между: f(A) <= f(A+B) <= f(A)+f(B). Если текст B фиксирован, а в качестве A брать разные пробные тексты разных авторов, то f(A+B)-f(A) тем меньше, чем более "похож" текст B на текст A. Автор текста A, на котором будет достигнут минимум этой разности, и выдается в качестве вероятного кандидата на авторство и текста B. (Дальше надо уточнять кучу технических деталей, чтобы это всё более-менее устойчиво работало на практике. Первым такую систему довел до ума как раз Хмелёв. А Малютов предложил работать не с текстами A и B как единым целым, а с их кусочками-страничками по отдельности, так оно оказалось надежнее.)
|
Про Шекспира 08.12.2011 09:43:33 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Пять копеек |
|
Я слышала или читала про эту методику сжатия... Тогда у меня возникла аналогия, которая показалась полезной для понимания процесса... Есть человек, есть белок, есть - форез, генетический анализ. Я себе представила это именно как разбор на гены, а потом их сравнение. Как тест на отцовство, к примеру. Он не прямой, но вероятность правильного ответа очень высока.
|
Буквоедица 07.12.2011 22:45:43 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Зануде |
|
Сжатие текста - это не фунция, а отображение из текста в текст. И каким-то образом сжатие zip даёт взаимнооднозначное соответствие. А то бы мы им не пользовались. Распределение букв - тоже не функция, а целая гистограмма. Ну, так далее. Так что всё не так примитивно, как у Фоменко.
|
|