Лингвистический анализ и ...


Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

Лингвистический анализ и распознавание автора

 автор  сообщение


магистр

Ссылка на сообщение 18 февраля 2008 г. 12:10  
Здесь обсуждаем новый раздел.

цитата wolobuev

А вот почему в лингвистическом рейтинге и корреляции результатов произведений кое-где имеется строчка "сомнений в авторстве имярек роман (рассказ) не вызывает", а кое-где её нет? И почему в рейтинг не входят пьесы?

Проверка авторства на странице произведения отображается только в том случае, если она уже произведена. То есть если кто-то уже заходил на страницу лингвистического анализа произведения с красно-зелёными столбиками. :-) Анализ идёт от полутора до трёх секунд, поэтому я не стал нагружать страницу произведения, и беру данные из кеша, если он уже сформирован. Скоро поисковики пробегутся по всем произведениям и строчка, указанная тобой, будет везде.

Пьесы могут входить, если мы их загрузим в базу. У меня нет ограничения, что только романы или рассказы.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


миротворец

Ссылка на сообщение 18 февраля 2008 г. 12:33  
Как берется выборка произведений для анализа данного автора? Включается ли в нее и то произведение, которое анализируется на соответствие его авторству в данный момент?
–––
I`ll be back!


философ

Ссылка на сообщение 18 февраля 2008 г. 12:34  
creator, а нельзя побольше параметров добавить для отображения в рейтинге на странице:
http://fantlab.ru/lprating/sz10/sz10/page1
А то при сравнении постоянно меняешь второй параметр, а потом ждешь обновления.. Было бы удобно если бы можно было также в таблицу еще несколько параметров добавить и сравнивать. Пусть они по умолчанию были бы не заполнены, может у кого-то ширина экрана не позволяет. А кому надо, тот выберет.


магистр

Ссылка на сообщение 18 февраля 2008 г. 12:45  

цитата kkk72

Как берется выборка произведений для анализа данного автора? Включается ли в нее и то произведение, которое анализируется на соответствие его авторству в данный момент?

Авторский лингвопрофиль считается на основе ВСЕХ загруженных произведений автора.
Соответственно, распознавание автора для одного из произведений будет вестись в сравнении с авторским лингвопрофилем, в который это произведение уже частично вошло. Это является одновременно и минусом, т.к. произведение в некоторой, хоть и малой, степени сравнивается само с собой. Но вычленять из авторского профиля произведение при каждой проверке не представляется мне ни возможным технически, ни обоснованным логически. Профиль есть профиль, он считается как среднее по всей текстографии. Из песни, как говорится, слов не выкинешь.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


миротворец

Ссылка на сообщение 18 февраля 2008 г. 12:50  

цитата creator

распознавание автора для одного из произведений будет вестись в сравнении с авторским лингвопрофилем, в который это произведение уже частично вошло. Это является одновременно и минусом, т.к. произведение в некоторой, хоть и малой, степени сравнивается само с собой.

Насколько это влияет на достоверность анализа в том случае, если количество произведений автора невелико? А вероятность написания этого произведения автором согласно лингвоанализу превышает вероятность его написания другим автором на пару процентов?
–––
I`ll be back!


магистр

Ссылка на сообщение 18 февраля 2008 г. 12:51  

цитата levich

Было бы удобно если бы можно было также в таблицу еще несколько параметров добавить и сравнивать.

Увы, двумерность поверхности монитора не позволяет отобразить на нём многомерное корреляционное поле. Только две оси, два параметра.
Понимаю, что щёлкать всё перебором — устать можно. Но пока у меня нет корреляционной таблицы всех характеристик со всеми. Собираюсь сделать, т.к. собираюсь на основе её дополнить алгоритм распознавания. Как будет — выложу.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


миротворец

Ссылка на сообщение 18 февраля 2008 г. 12:54  
Кстати, а как лингвоанализ работает в произведениях, написанных в соавторстве? Есть ли различия по постоянным соавторам (братья Стругацкие) и разовым ("Черная кровь" Перумов, Логинов, "Посмотри в глаза чудовищ" (Лазарчук, Успенский)?
–––
I`ll be back!


магистр

Ссылка на сообщение 18 февраля 2008 г. 12:58  

цитата kkk72

Насколько это влияет на достоверность анализа в том случае, если количество произведений автора невелико?

Лингвистический профиль автора формируется на основе как минимум 5-ти произведений общим объёмом минимум миллион знаков. Обычно это минимум пять романов. Если они одного объёма, то, считай, каждый сравнивается с собой на 20%.
Тем не менее отклонения это позволяет выявить. После того, как отклонение обнаружено, я отключаю исследуемый роман и лингвопрофиль автора пересчитывается уже без учёта данного произведения. Степень отклонения, само собой, при этом возрастает. Только после этого я делаю заявление в новостях. :-) "Леопард" Ларионовой в данный момент отключен и сравнивается только с прочими её произведениями. Иванов, Веллер и Щеглов пока включены. Так что отклонения в их случае должны быть ещё больше, чем видимые на страницах анализа.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


миротворец

Ссылка на сообщение 18 февраля 2008 г. 13:04  
creator А не пробовал прогнать многочисленных Конанов? Там может получиться много интересного.
–––
I`ll be back!


магистр

Ссылка на сообщение 18 февраля 2008 г. 13:05  

цитата kkk72

Кстати, а как лингвоанализ работает в произведениях, написанных в соавторстве? Есть ли различия по постоянным соавторам (братья Стругацкие) и разовым ("Черная кровь" Перумов, Логинов, "Посмотри в глаза чудовищ" (Лазарчук, Успенский)?

Братья Стругацкие присутствуют в базе ФантЛаба как отдельный метаавтор, то есть, грубо говоря, как один автор. Поэтому для исследования их творчества препятствий с технической точки зрения не возникает. Отклонения бывают у метаавторов тогда, когда какие-то произведения пишет один, а какие-то другой, или просто процент их вклада в различные произведения так же различен.
А вот "Чёрная кровь" и "Посмотри в глаза чудовищ" рассматриваются уже как произведения, написанные в соавторстве, поэтому лингвоанализатор и отнекивается от выдаваемых результатов. :-) Оно и не мудрено — смешение авторских стилей может дать весьма непредсказуемые результаты.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 18 февраля 2008 г. 13:19  

цитата kkk72

creator А не пробовал прогнать многочисленных Конанов? Там может получиться много интересного.

У меня текстов Конанов пока мало. Есть только Локнит, который якобы Мартьянов+Кижина. Кстати, Мартьянов там действительно засветился, хоть и не сильно. Однозначно определить автора анализатор не смог — проценты совпадений низкие. Но на первом месте по совпадению ведь всегда кто-то есть, и в данном случае это оказался Олди. Вряд ли конечно это Олди, но это говорит о том, что все Конанские произведения, перечисленные на странице Мартьянова писал, как минимум, один и тот же автор или авторы. А так как Мартьянов всё же фигурирует местами в первой тройке, то Локнитовскую "конину" приписали ему не зря.

На какую "конину" мне обратить внимание?
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 18 февраля 2008 г. 13:25  
Других Конанов у меня нет. Если есть, присылайте.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 18 февраля 2008 г. 15:05  
Написал в комменте к новости по поводу авторства Бушкова.
Не знаю, может, лучше сюда, в тему писать?..
–––
+7(996)730-00-00, Telegram https://t.me/crealist


гранд-мастер

Ссылка на сообщение 18 февраля 2008 г. 15:19  
Сюда, конечно. Тут можно обсудить.


магистр

Ссылка на сообщение 18 февраля 2008 г. 15:20  
Тогда дублирую сюда:

http://lib.aldebaran.ru/author/bushkov_al...

Я просто хохотал над тем как народ поливает грязью Бушкова, как распространяет идиотские слухи и приводит левые доказательства того, что Бушков "уже давно пишет не сам". Порадовал только рецензент HEKPOH: "Сплетни, как бабки на базаре, честное слово". Подписываюсь — ещё хуже, чем бабки. "Студенты за Бушкова пишут..." эх и бред! Кто-то вообще понял, что это не Бушков, по первым двум строкам и читать дальше не стал. :-))) Лингвоанализатор, блин, ходячий.

Бушков пишет сам! Прогонял тексты через лингвоанализатор как по всем характеристикам, так и по отдельности. Сомнений в авторстве Бушкова не возникло. Вот прицепились к дядьке...
–––
+7(996)730-00-00, Telegram https://t.me/crealist


миротворец

Ссылка на сообщение 18 февраля 2008 г. 15:32  
Что то я не понимаю как оно работает. ???
–––
…fresh poison each week


философ

Ссылка на сообщение 18 февраля 2008 г. 15:39  

цитата creator

Увы, двумерность поверхности монитора не позволяет отобразить на нём многомерное корреляционное поле. Только две оси, два параметра.
Понимаю, что щёлкать всё перебором — устать можно. Но пока у меня нет корреляционной таблицы всех характеристик со всеми. Собираюсь сделать, т.к. собираюсь на основе её дополнить алгоритм распознавания. Как будет — выложу.

я имею ввиду первого со вторым, первого с третьим, первого с четвертым и т.д. суть в том, что это все отображается сразу, а не надо никуда переключать. и не надо мне тут про монитор сказки рассказывать..


философ

Ссылка на сообщение 18 февраля 2008 г. 18:09  
Огромное спасибо за анализатор.
Каюсь, первым полез смотреть Бушкова. Результат огорчил. В случае, если часть Сварога написана не им, была надежда, что он когда-нибудь начнет писать сам. При таком раскладе получается совсем печально.

Обратил внимание на объем текста. Все короче и короче.

Интересно было бы сравнение с покет-серией "Серый ферзь". Хотя там редакторы, скорее всего, повеселились.


магистр

Ссылка на сообщение 18 февраля 2008 г. 20:11  
One, результат с Бушковым не одного тебя огорчил.
Сегодня перепроверял. Разделил Бушкова на две части: одну, которую предполоительно он писал, и другую, сомнительную. Первую принял за лингвопрофиль автора и книги из второй сравнивал исключительно с ним. Точное совпадение во всех книгах. У меня лично сомнений в Бушковском авторстве не осталось. Но это, действительно, обидно.
–––
+7(996)730-00-00, Telegram https://t.me/crealist


магистр

Ссылка на сообщение 18 февраля 2008 г. 22:32  
creator Но ведь хороший НЕГР вполне может работать под стиль Бушкова, но наполнение будет , совсем нетем, а если еще редактор причесал в нужную сторону, то врятли навверное отличиш...Хотя наверное я ошибаюсь )
Страницы: 12345    🔍 поиск

Вы здесь: Форумы fantlab.ru > Форум «Техподдержка и развитие сайта» > Тема «Лингвистический анализ и распознавание автора»

 
  Новое сообщение по теме «Лингвистический анализ и распознавание автора»
Инструменты   
Сообщение:
 

Внимание! Чтобы общаться на форуме, Вам нужно пройти авторизацию:

   Авторизация

логин:
пароль:
регистрация | забыли пароль?



⇑ Наверх