Лингвистический анализ и ...


Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

Лингвистический анализ и распознавание автора

 автор  сообщение


философ

Ссылка на сообщение 18 февраля 2008 г. 22:36  
Кстати об Орловском. А как реагирует анализатор на вставки текста из одного автора в другого? (если это все же не Никитин, вопреки всему) Когда-то на досуге сравнивал РДР (первую книгу) и Ярость. Вручную нашел около 5 кусков по 2-3 абзаца из Ярости.


авторитет

Ссылка на сообщение 19 февраля 2008 г. 00:17  

цитата Ksavier

Но ведь хороший НЕГР вполне может работать под стиль Бушкова
А чем он тогда от Бушкова отличается))


авторитет

Ссылка на сообщение 19 февраля 2008 г. 00:19  
А вот помнится одно время много говорили о лингвоанализаторе Хмелева http://www.rusf.ru/books/analysis/index.htm

да и вот тут
http://www.rvb.ru/soft/catalogue/catalogu...

Как в сравнении с конкурентами ситуация обстоит? ))

PS А как помнится бил себя в грудь некий Мартьянов :)), о том что

цитата

"А все эти "Чужие острова-берега-весенние обострения-осенние ремиссии" — есть пакость. По крайней мере свою халтуру я пишу сам, а не отдаю ниггерам."

цитата

Я довольно плотно работаю в литературе около 9 лет, плюс последние три года — редактором в "Северо-Запад пресс". И анализ текста провести могу. У Бушкова есть своя четко выраженная стилистика, он употребляет определенные речевые обороты, выражения, отдельные слова, встречающиеся в КАЖДОЙ его книге (хоть про Пиранью, хоть про Бешеную, хоть про Сварога). Даже размер абзацев разный. Так вот: В "Чужих..." — стилистика АБСОЛЮТНО другая. Это очень хорошо заметно: вы же отличите стилистику Пушкина от стилистики Евтушенко, например? Мне не верите? Хотите я попрошу писательницу Хаецкую (блин, сколько пива придется поставить!) провети текстологический анализ "Летающих островов" и каких-нить "Чужих..." как филолога с университетским образованием? Может хоть мэтру поверите?

Книга про этот дурацкий "Каскад" вообще написана незнамо каким графоманом — такое количество ляпов автор со стажем в 20 лет НЕ МОЖЕТ допустить априори.


авторитет

Ссылка на сообщение 19 февраля 2008 г. 00:45  
Да и главное, что там с Тихим Доном? )))


магистр

Ссылка на сообщение 19 февраля 2008 г. 00:53  
А вот интересно — можно классиков русских для сравнения прогнать через анализатор. Пушкина, Гоголя того же, Достоевского, Чехова. И результаты разместить.


магистр

Ссылка на сообщение 19 февраля 2008 г. 07:27  

цитата Ksavier

хороший НЕГР вполне может работать под стиль Бушкова, но наполнение будет , совсем нетем, а если еще редактор причесал в нужную сторону, то врятли навверное отличиш

Редактор не сможет причесать в нужную сторону. Это должна быть машина, вычисляющая статистические закономерности, а не человек.

цитата One

Вручную нашел около 5 кусков по 2-3 абзаца из Ярости.

Это слишком мало, чтобы подогнать под стиль автора. Хотя действительно подозрительно... Зачем они там? ???

цитата shuherr

А вот помнится одно время много говорили о лингвоанализаторе Хмелева http://www.rusf.ru/books/analysis/index.htm
да и вот тут
http://www.rvb.ru/soft/catalogue/catalogu...
Как в сравнении с конкурентами ситуация обстоит? ))

В сравнении с лингвоанализатором Хмелёва лингвоанализатор ФантЛаба имеет следующие преимущества:

1. Помимо частот буквенных пар (а хмелёвский анализатор обрабатывает только их!) в нашем задействовано море других характеристик. См. статью.

2. Буквенные пары в анализаторе Хмелёва считаются по всем словам, включая, как я понял, имена, названия, неологизмы и пр. Я, когда проводил предварительное исследование, разделил эту статистику на две: посчитал частоты буквенных пар для словарных слов и для несловарных. Оказалось, что первые идеально подходят для распознавания автора и, действительно, автора можно определять только по ним. Их достаточно, но для высокой точности мало. А вторые даже в сколько-нибудь малой степени не описывают стиль автора, являются некоррелирующим ни с чем шумом. На основе этой статистики не удалось распознать ни одного автора. Т.о. убрав из алгоритма частоты буквенных пар в несловарных словах, мне удалось значительно повысить точность алгоритма.

3. Лингвоанализатор Хмелёва не оперирует понятием "авторский лингвопрофиль". Заместо этого в его анализаторе идёт сравнение исследуемого текста с т.н. авторскими эталонами, то есть заранее подготовленными произведениями автора. Обратите внимание — идёт сравнение произведения с произведением. В лингвоанализаторе ФантЛаба вычисляется имеенно авторский лингвопрофиль, в котором запоминается не только среднее значение всех характеристик, но и среднеквадратическое отклонение каждой величины от средней, что формализует функцию распределения плотности вероятности и позволяет адекватно оперировать вероятностными величинами. При этом сравнение идёт именно с авторским стилем, а не со стилем его отдельно взятого произведения, которое может и неточно описывать авторский стиль.

Эти три отличия позволяют наблюдать ошибку распознавания в 1.3% против заявленных в анализаторе Хмелёва 10-15%.
Испытания проводились на 1222-х произведениях 120-ти авторов.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 19 февраля 2008 г. 07:31  

цитата shuherr

Я довольно плотно работаю в литературе около 9 лет, плюс последние три года — редактором в "Северо-Запад пресс". И анализ текста провести могу. У Бушкова есть своя четко выраженная стилистика, он употребляет определенные речевые обороты, выражения, отдельные слова, встречающиеся в КАЖДОЙ его книге (хоть про Пиранью, хоть про Бешеную, хоть про Сварога). Даже размер абзацев разный. Так вот: В "Чужих..." — стилистика АБСОЛЮТНО другая. Это очень хорошо заметно: вы же отличите стилистику Пушкина от стилистики Евтушенко, например? Мне не верите? Хотите я попрошу писательницу Хаецкую (блин, сколько пива придется поставить!) провети текстологический анализ "Летающих островов" и каких-нить "Чужих..." как филолога с университетским образованием? Может хоть мэтру поверите?

С удовольствием поспорю с Мартьяновым, приведу все возможные числовые доказательства его неправоты.

цитата shuherr

Да и главное, что там с Тихим Доном? )))

Я читал древнюю статью о разоблачении Шолохова. Пока у меня нет на руках ни "Тихого Дона", ни "Поднятой целины". Как только будет, проанализирую. Опять таки повторюсь — если есть, присылайте.

цитата Kurok

А вот интересно — можно классиков русских для сравнения прогнать через анализатор. Пушкина, Гоголя того же, Достоевского, Чехова. И результаты разместить.

На фантлабе такие результаты негде размещать. Разве что в качестве статьи.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:16  
Провёл детальный лингвоанализ Бушкова.
Для этого взял первые его 8 романов и последние 8 романов (за исключением подозреваемой "Короны").
Первые 8 я приписал автору под именем "Ранний Бушков", а последние 8 — в "Поздний Бушков".
Вот они авторы:
Ранний Бушков: http://fantlab.ru/autor3095
Поздний Бушков: http://fantlab.ru/autor3229
Затем я сформировал для обоих лингвопрофили и начал все произведения Бушкова по порядку сравнивать с Ранним, с Поздним и с лингвопрофилем самого Бушкова (по всем произведениям).
Результаты привожу в Excel-таблице:
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:20  

цитата creator

Это слишком мало, чтобы подогнать под стиль автора. Хотя действительно подозрительно... Зачем они там?

Да у Никитина они везде понатыканы — это часть его философии:-)


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:21  
Так что тут не все так просто. Те, кто утверждают, что Бушков писал сам, а потом вдруг продался неграм, скорее всего, обманываются.

Если подтверждается второй вывод, который я сделал в xls-файле, то у Бушкова есть и всегда был соавтор. Либо редактор, который с каждым годом все более отходил от дел. Кстати, в редактора я скорее готов поверить, чем в остальное.

Если подтверждается первый вывод, то все слухи оказываются раздутыми на почве стремления выдать желаемое за действительное.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:24  

цитата creator

Разве что в качестве статьи.


Ну хотя бы так. Просто интересно сравнить с классиками.


миротворец

Ссылка на сообщение 19 февраля 2008 г. 13:28  

цитата Bushkov.xls

Тот странный факт, что доля стилистики Позднего Бушкова не меняется в книгах Бушкова со временем, может означать также, что под именем Александр Бушков
пишут два автора, причём, начиная с самой первой книги. Первый из них, вероятно сам Бушков (зелёная регрессия), со временем примал всё меньшее участие
в работе. Но во всех книгах принимали участие оба. Со временем менялся только баланс их творческого вложения в книги.


Очень интересное предположение! А пытался ли ты анализировать подобным образом другого плодовитого автора, например, Лукьяненко. Будут ли там подобные корреляции?
–––
I`ll be back!


миротворец

Ссылка на сообщение 19 февраля 2008 г. 13:32  

цитата kkk72

другого плодовитого автора, например, Лукьяненко.
несравнимы по объему, скорее интересно попробовать Никитина по-препарировать, разговоры о том, что он не одинок по крайней мере в цикле "Троецарствие" ходили.


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:33  
Так Лукьяненко или Никитин? С кого начать?
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:37  
creator с Луки!
–––
ϝʟ * Никаких компромиссов, даже перед лицом армагеддона (Роршах)


миротворец

Ссылка на сообщение 19 февраля 2008 г. 13:38  
ну я то за Никитина, там есть подозрения, хотя можно и Лукьяненко.


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:39  
По Бушкову.
Что-то мне начинает думаться, что зелёная регрессия на графике — это бушковский редактор. Тогда все становится на свои места. Бушков как писал, так и пишет, что подтверждает красная, неизменная регрессия. Но стиль, который у него был в ранних романах, иссякает, появляются ляпы, стилистические ошибки, что подтверждают читатели... И логично — редактор со временем становится не нужен, т.к. издательства от такого автора примут текст в любом случае, плюс стремление скорее издать свой труд. Вот она — зелёная, ниспадающая регрессия.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


миротворец

Ссылка на сообщение 19 февраля 2008 г. 13:41  
creator Авторство Лукьяненко вроде бы никем не оспаривается. Пришет он много лет и определенные изменения его стиль претерпел. Поэтому, если корреляционные кривые раннего и позднего Лукьяненко дадут похожую на Бушкова картину, выяснится, что у Бушкова все чисто. Если картина будет принципиально другая, придется прогнать еще двух-трех подобных авторов и увидеть типовое соотношение стилей ранних и поздних авторов. Потом от этой печки можно будет плясать в спорных случаях.
–––
I`ll be back!


миротворец

Ссылка на сообщение 19 февраля 2008 г. 13:42  

цитата creator

Бушков как писал, так и пишет
предположение неверное, он работал с разными издательствами, вряд ли в Азбуке и Эскмо это был один и тот же редактор. Да и насколько редактор влияет на лингвистический паспорт???


магистр

Ссылка на сообщение 19 февраля 2008 г. 13:47  

цитата suhan_ilich

Да и насколько редактор влияет на лингвистический паспорт???

Смотря какой. Может в корне все изменить, если этот редактор — твой знакомый. Редактор — это всё-таки не корректор.
Я как-то Катю, уважаемую нами всеми переводчицу, попросил отредактировать мои рассказы (писал одно время) — так от того, что было, там и буквы не осталось.
–––
+7(996)730-00-00, Telegram https://t.me/crealist
Страницы: 12345    🔍 поиск

Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

 
  Новое сообщение по теме «Лингвистический анализ и распознавание автора»
Инструменты   
Сообщение:
 

Внимание! Чтобы общаться на форуме, Вам нужно пройти авторизацию:

   Авторизация

логин:
пароль:
регистрация | забыли пароль?



⇑ Наверх