Арнольд 17.07.2002 17:22 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Книппер-Чехову -- вот текст делицынского письма. |
E-mail: arno1251@mail.ru
|
Добрый день!
Прочитал о Вашем проекте:
http://speakrus.narod.ru/zaliznyak/ruslit.htm
Результаты интересные, но есть замечание. Насколько я мог
понять Вашу работу, речь там идёт не столько о "литературном
языке', сколько о "языке художественной литературы', если
использовать классификацию функциональных стилей языков, которую
можно найти. например, в "Стилистике" Розенталя.
Судя по сравнительно невысокому значению средней длины слова -
4.85 буквы, Вы использовали тексты, богатые диалогами, и не
удаляли диалоги из текста. В действительности, можно проверить,
что для разговорной речи характерны более короткие слова
(со средним ок. 3.45), а для авторского повествования - более
длинные. Это подтверждает и очень малая длина самых частых слов -
это как раз характерно для разговорной речи
(см. типичные спектры Менденхолла вот тут:
http://teneta.rinet.ru/hudlomer/article.html)
Если же собрать корпуса текстов, относящихся к разным
функциональным стилям, то можно построить систему распознавания
стиля текстов, основываясь на средней длине слова в этих текстах.
Мне удалось построить такую систему распознавания в 98-99 годах,
она проживает по адресу:
http://teneta.rinet.ru/2000/hudlomer/
Идея же "средней длины слова в русском языке', по-видимому,
ошибочна, поскольку для разных стилей текста характерна
разная длина слова. Отдельным же функциональным стилям можно
поставить в соответствие некоторую среднюю длину слова.
Полученная Вами средняя длина слова в 4.85 буквы меня несколько
озадачила, надо будет перепроверить мои расчёты. По моим
представлениям средняя длина слова для стиля художественной
литературы должна быть длиннее. Это число не должно было бы
сильно зависеть от пропорции диалогов (их достаточно мало).
Может быть, я где-то ошибся, хотя сейчас вот наскоро протестировал
несколько повестей, и не заметил особенных изменений.
Максимальный размер словаря достигается для разных
стилей на разной длине слова.
Желаю успехов!
С уважением,
Леонид Делицын
Начальник аналитического отдела
Rambler www.rambler.ru
|
Книппер-Чехов 17.07.2002 17:11 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Арнольду |
|
<Бога ради, что такое "Капара"?>
Это сокращенное название проекта "Трикласс и Капара". Первоначально проект назывался "Три классика -- пара" (потому что классики -- это не сапоги), потом название было переделано (чтоб никто не догадался) и сокращено (для удобства).
<надо бы исключить диалоги для получения более релевантного результата.>
Сомнительно. Возни много, и не совсем ясно, зачем. И непонятно, что делать с косвенной речью.
|
Арнольд 17.07.2002 16:59 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Книппер-Чехову |
E-mail: arno1251@mail.ru
|
1) Насчет "разово" -- это верно. Насчет "мощно" -- заблуждение, все заняло день или два.
2) Бога ради, что такое "Капара"?
3) Действительно, никак не работал. Ошибок там мало (обычно классические тексты у Мошкова хорошо вычитаны). Проблемы были со словами вразрядку и с редко встречающимися переносами. Потом мне Л. Делицын написал, что надо бы исключить диалоги для получения более релевантного результата. Он, конечно, был прав. Но к тому времени у меня запал уже ушел в песок.
|
Арнольд 17.07.2002 16:51 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Фане, вдогонку |
E-mail: arno1251@mail.ru
|
Поздно! уже ответил. В графическом плане же нет разницы только для стандартных гарнитур типа Arial. Для Times или Courier разница есть (скопируйте мой постинг в MSW и посмотрите).
В псевдографических шрифтах в "палке" делался перерыв посередине. Для визуализации.
|
Книппер-Чехов 17.07.2002 16:49 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Арнольду |
|
Это мощно. Но разово. А к "Капаре" можно было бы обращаться снова и снова, по мере появления вопросов. А как вы работали над ошибками? Я полагаю, никак (для вашей задачи это было несущественно).
|
Арнольд 17.07.2002 16:47 |
Наверх | Предыдущее сообщение | Следующее сообщение | Вниз
|
Тема: Ответы |
E-mail: arno1251@mail.ru
|
Фане
Канэшна, заглавная "I" !
"Палка" (|) не может быть использована в идентификаторе. Как и большинство других спецзнаков.
ИК.
Для таких программ есть особое название -- интроспективные. Хорошо пишутся перед обедом.
|
|