автор |
сообщение |
Ученик Дьявола
миротворец
|
|
rakinfant
авторитет
|
30 декабря 2020 г. 21:25 [нажмите здесь чтобы увидеть текст поста]
|
Низкая оценка может быть по двум противоположным причинам: либо в книге ничего нового, либо нового столько, что читателя это шокирует. Чтобы выяснить это, можно в случае низкой оценки ввести дополнительный вопрос:" Что не так? " с вариантами ответа "Скучно" (Баян) и "Не понимаю" (Бред)
|
|
|
lena_m
миротворец
|
30 декабря 2020 г. 21:27 [нажмите здесь чтобы увидеть текст поста]
|
цитата rakinfant Низкая оценка может быть по двум противоположным причинам: либо в книге ничего нового, либо нового столько, что читателя это шокирует. Имеет место быть и третья тому причина...
Читать интересно, даже захватывающе, а финал крайне разочаровывает, до превеликого раздражения...
|
––– Helen M., VoS |
|
|
i_bystander
авторитет
|
11 февраля 2021 г. 07:38 [нажмите здесь чтобы увидеть текст поста]
|
Дурацкий вопрос возник — а при вычислении прогноза твоей оценки учитываются только "единомышленники", т.е. статистически значимо и положительно коррелирующие с тобой посетители (с соответствующими весами)? Или все статистически значимые коррелянты?
А то, как бы контринтуитивно оно не звучало, своей прогностической ценностью десятка от абсолютного клона ничем не отличается от единицы от абсолютного антипода. Я бы, правда, предположил, что статистически значимых антиподов у типичного пользователя ощутимо меньше, чем единомышленников, но это ж еще не повод разбрасываться ценной информацией...
|
|
|
Ny
миротворец
|
16 февраля 2021 г. 05:54 [нажмите здесь чтобы увидеть текст поста]
|
цитата i_bystander Дурацкий вопрос возник — а при вычислении прогноза твоей оценки учитываются только "единомышленники", т.е. статистически значимо и положительно коррелирующие с тобой посетители (с соответствующими весами)? Или все статистически значимые коррелянты? Антиподы высчитываются системой, но не учитываются — и для прогноза, и для рекомендации. Там же написано:
цитата Те посетители, оценки которых сильно разнятся с Вашими, являются антиподами, и при ранжировании их оценки не учитываются. Таким образом, индивидуальные рекомендации заведомо определяют, какие книги Вам должны особо понравиться.
|
––– Взял надежду сухим пайком, соль со спичками бросил в ранец, Я готов отправляться в путь - все, что нужно, уже при мне. |
|
|
i_bystander
авторитет
|
16 февраля 2021 г. 06:53 [нажмите здесь чтобы увидеть текст поста]
|
Ny, спасибо, вы меня внимательней. Что ж, остается констатировать, что неучет "абсолютных антиподов" представляется мне методологической небрежностью, хотя и вряд ли принципиальной. Я, правда, в статистике не настолько уж великий специалист, чтобы быть категоричным.
|
|
|
Ny
миротворец
|
16 февраля 2021 г. 07:02 [нажмите здесь чтобы увидеть текст поста]
|
цитата i_bystander Что ж, остается констатировать, что неучет "абсолютных антиподов" представляется мне методологической небрежностью, хотя и вряд ли принципиальной. А действительно... Как Вы предлагаете использовать статистику антиподов? Я не вполне понимаю.
|
––– Взял надежду сухим пайком, соль со спичками бросил в ранец, Я готов отправляться в путь - все, что нужно, уже при мне. |
|
|
technocrator
миротворец
|
16 февраля 2021 г. 08:18 [нажмите здесь чтобы увидеть текст поста]
|
Вполне логично, что "антиподы" не учитываются, так как значительная часть их будет являться просто неадекватами с ненормальной кривой распределения оценок, и ничего полезного использование этого не даст
|
|
|
_Y_
миродержец
|
16 февраля 2021 г. 09:05 [нажмите здесь чтобы увидеть текст поста]
|
цитата technocrator Вполне логично, что "антиподы" не учитываются
Ещё одна причина не учитывать антиподов — графоманская писанина. Если считать, что оценки пользователя будут зеркальными по отношению к антиподу, оцененная антиподом графомань будет лезть в рекомендации. При этом вероятность того, что графомань поучаствует в оценке подобия будет весьма низка, поскольку вряд ли она будет оценена и пользователем, и антиподом (ведь её, я надеюсь, читают мало).
|
––– Человек, нажимающий где-то там пальцами на клавиши, не имеет никакого отношения к тому, что я здесь говорю и думаю. |
|
|
i_bystander
авторитет
|
16 февраля 2021 г. 09:27 [нажмите здесь чтобы увидеть текст поста]
|
цитата technocrator "антиподы" не учитываются, так как значительная часть их будет являться просто неадекватами с ненормальной кривой распределения оценок
Насчет неадекватов вы, вероятно, зря, но те, у кого распределение "аномальное", и корреляцию с (допустим, моим и вашим) "нормальным" распределением дадут на уровне шума. Никакой предсказательной ценности в ней не будет, но и учитывать там нечего. Статистически же значимая отрицательная корреляция означает предсказательную ценность, так сказать, по определению. Я, собственно, не располагаю фантлабовской статистикой, такие корреляции, может, и в природе-то фантлабовской практически не встречаются, но это ж не повод заведомо их сбрасывать со счетов.
Вопрос, что считать "нормальным" распределением оценок, нетривиален сам по себе, однако, если я правильно понимаю, полное распределение может быть каким угодно, для корреляций берется его подмножество, совпадающее у двух испытуемых. Речь не о том, что "неадекват" прочитал, плюясь, все книги автора, которого я в среднем оцениваю на девятку, и поставил им по единице. Достаточно и одной — из этого образуется годная точка. Если мы оба много читаем, много пробуем на вкус, и при этом абсолютно по вкусам не совпадаем, то и точек выйдет достаточно для прогнозов. Согласно которым мне будет совершенно незачем читать книги, высоко оцененные "значимым антиподом", и стоит присмотреться к тем, которые он на дух не переносит.
У меня такое чувство, что как пользователи, так и разработчики системы рекомендаций исходят из того, что вот бывает такое волшебное сродство душ, когда мнение Васи о любой случайной книжке не может не совпасть с мнением Пети. А на самом деле это вот волшебное сродство в смысле высокой вычисленной "меры подобия" обуславливается в первую очередь тем, что и Вася, и Петя обожают одних и тех же нескольких авторов, прочитали у них кучу всего и высоко оценили. Ну вот есть такие авторы, которых многие любят. А убери их из выборки, окажется, что все остальное не коррелирует примерно никак. В этом смысле отрицательная корреляция, она как бы даже и не более настоящая получается...
|
|
|
i_bystander
авторитет
|
16 февраля 2021 г. 09:38 [нажмите здесь чтобы увидеть текст поста]
|
цитата _Y_ оцененная антиподом графомань будет лезть в рекомендации
Это, казалось бы, законное возражение, но если исходить из того, что значимый антипод — зверь ощутимо более редкий, чем значимый единомышленник, то единомышленники-то эту графомань и утопят. Существование подобной графомани (книг, плохих вообще во всех отношениях), вероятно, в первую очередь и препятствует сильным отрицательным корреляциям. Но тут нам на помощь может прийти тот факт, что недочитанные книги на фантлабе оценивать вообще-то запрещено, соответственно, оценок у "ужаса-ужаса" много быть не должно.
|
|
|
Ny
миротворец
|
16 февраля 2021 г. 10:30 [нажмите здесь чтобы увидеть текст поста]
|
цитата i_bystander Если мы оба много читаем, много пробуем на вкус, и при этом абсолютно по вкусам не совпадаем, то и точек выйдет достаточно для прогнозов. Согласно которым мне будет совершенно незачем читать книги, высоко оцененные "значимым антиподом", и стоит присмотреться к тем, которые он на дух не переносит. Оставляя в стороне технический вопрос сведений распределений оценок, я опять-таки плохо понял что Вы предлагаете: заведомо отсекать книги, которые понравились антиподу или рекомендовать Вам то, что антиподу не понравилось? Если первое, то они уже отсекаются системой. Если второе, то "антиродство" также как и "родство" совершенно не гарантирует результата. Бывают книги, которые не нравятся никому.
цитата i_bystander А на самом деле это вот волшебное сродство в смысле высокой вычисленной "меры подобия" обуславливается в первую очередь тем, что и Вася, и Петя обожают одних и тех же нескольких авторов, прочитали у них кучу всего и высоко оценили. Ну вот есть такие авторы, которых многие любят. А убери их из выборки, окажется, что все остальное не коррелирует примерно никак. В этом смысле отрицательная корреляция, она как бы даже и не более настоящая получается... Список единомышленников можно настроить вручную. Выберите тех, что не читают массовую литературу, предпочитая экзотику. Просмотрите их гистограммы распределения, ещё раз отфильтруйте (людей с ненормальным распределением) и пользуйтесь полученной корреляцией.
|
––– Взял надежду сухим пайком, соль со спичками бросил в ранец, Я готов отправляться в путь - все, что нужно, уже при мне. |
|
|
i_bystander
авторитет
|
16 февраля 2021 г. 17:09 [нажмите здесь чтобы увидеть текст поста]
|
цитата Ny я опять-таки плохо понял что Вы предлагаете: заведомо отсекать книги, которые понравились антиподу или рекомендовать Вам то, что антиподу не понравилось?
Уф... Мне реально не хочется лезть в подробности корреляционного анализа, я там сам первым и заблужусь, но пускай. Грубо говоря, есть Вася и Петя, есть произведения, которые они оба оценили. Эти произведения можно представить в виде точек на координатной плоскости, где x — васина оценка, y — петина. Если Вася с Петей — "идеальные" единомышленники, все эти точки окажутся на прямой y = x. Если таких точек очень много, статистик сможет сказать — ага, вот я вижу книгу, которую Вася уже оценил, а Петя еще нет, но я бы ожидал, что петина оценка совпадет с васиной с такой-то вероятностью (она будет зависеть от общего числа оценок). У "реальных" единомышленников Васи с Петей парные оценки будут гулять туда-сюда вокруг этой прямой y = x, но зависимость сохранится, снизится лишь точность предсказания. Мало того, допустим, Вася — эконом и занижает оценки, а Петя, напротив, восторженный читатель и их завышает, при этом их пристрастия по-прежнему совпадают. Тогда может оказаться, что их взаимные оценки болтаются в районе прямой, скажем, y = 1.1 * x с примерно той же самой достоверностью. Статистик говорит — вот, Вася эту книгу оценил на восьмерку, я бы ожидал, что Петя оценит ее на девятку. Существует математический аппарат для оценки как коэффициента корреляции, так и достоверности предсказания. Я не то чтоб утверждаю, что фантлаб именно им и пользуется, поскольку не вполне уверен, что именно означает фантлабовская "мера подобия", но и радикально местный подход вряд ли отличается.
Так вот, я к чему привел этот второй случай, когда оценки Васи и Пети в принципе отличаются, но статистически зависимы? К тому, что предсказательная ценность не требует совпадения оценок, требует лишь корреляции. Если Ваня и Коля — идеальные антиподы, их оценки будут лежать на чем-то вроде y = 10 — x. Коэффициент корреляции здесь минус единица, но предсказательная ценность (при совпадающем количестве парных оценок) ровно та же, что и в первом случае Васи-Пети. Статистик говорит — если Ваня поставил книге единицу, то Коля поставит десятку, с такой-то вот (ровно такой же, что и у Васи-Пети) достоверностью.
Мой дурацкий вопрос в этом примерно и заключался: ЕСЛИ на реальных множествах оценок бывают вот такие высокодостоверные отрицательные корреляции, ТО почему бы и их не учитывать при генерировании прогнозов? С точки зрения математики тут вообще никаких проблем. Я не предлагаю ничего заведомо отсекать/навязывать, просто учитывать при составлении прогнозов все сильные корреляции, а не только положительные. ЕСЛИ они вообще есть, в чем имеются определенные сомнения по ряду соображений, в том числе и высказанных здесь (такие корреляции должны портиться "очень плохими" книгами, которые никто никогда высоко не оценит).
А на самом-то деле я вообще ничего не предлагаю, просто задал вопрос, потому что интересно стало. Ну и отчасти потому, что рекомендации для меня, похоже, не работают от слова "совсем". Опять же, да, я понимаю — нужно поставить в десять раз больше оценок, можно вручную настроить единомышленников и т.п., и я признателен (вполне серьезно) за подобные советы, но они и мой вопрос все же лежат немного в разных плоскостях.
|
|
|
Ny
миротворец
|
16 февраля 2021 г. 17:32 [нажмите здесь чтобы увидеть текст поста]
|
цитата i_bystander ЕСЛИ на реальных множествах оценок бывают вот такие высокодостоверные отрицательные корреляции, ТО почему бы и их не учитывать при генерировании прогнозов? Так я и спрашивал как именно Вы их предлагаете учитывать. Что положительная, что отрицательная корреляция сами по себе не могут повысить точность прогноза. Учёт вкусов антиподов просто увеличит выбор книг и сделает разброс ещё больше (очевидно, в некоторой степени даже понизив точность). Фактически, Вы просто предлагаете расширить выборку, включив в неё больше посетителей. Я сильно не уверен, что это даст какой-то качественный скачок.
|
––– Взял надежду сухим пайком, соль со спичками бросил в ранец, Я готов отправляться в путь - все, что нужно, уже при мне. |
|
|
mahasera
гранд-мастер
|
16 февраля 2021 г. 17:50 [нажмите здесь чтобы увидеть текст поста]
|
i_bystander У вас слишком мало оценок, чтобы рекомендации работали достоверно. Я, например, на «единомышленников», с которыми у меня 100 общих оценок, вообще внимания не обращаю, а если таких оценок меньше— тем более. Т.е., чем больше вы сами выставите оценок, тем бОшая вероятность получить статистически достоверные данные.
|
––– «Если у тебя есть фонтан, заткни его; дай отдохнуть и фонтану» Козьма Прутков |
|
|
i_bystander
авторитет
|
16 февраля 2021 г. 18:06 [нажмите здесь чтобы увидеть текст поста]
|
цитата Ny Что положительная, что отрицательная корреляция сами по себе не могут повысить точность прогноза.
Я не знаю, как именно отфильтровываются рекомендации, но я вижу, что мне показывают как мою предполагаемую оценку, так и достоверность прогноза. Последняя практически наверняка зависит от количества посетителей, которые были учтены при составлении рекомендации. Соответственно, учет дополнительных посетителей (если достоверность прогноза по ним не ниже, чем по уже учтенным; до сих пор они отбрасывались не по достоверности, но по знаку коэффицента корреляции) должен бы повысить общую достоверность?
цитата Ny Учёт вкусов антиподов просто увеличит выбор книг
Предположительно — да. В моем случае (я знаком с уже предлагаемыми авторами, точно знаю, что читать их не хочу, оценки их книгам не ставлю, потому что читал слишком давно) это вряд ли плохо.
цитата Ny и сделает разброс ещё больше (очевидно, в некоторой степени даже понизив точность)
Да нет, казалось бы, повысит, см. первый ответ. Впрочем, нужно понимать механизм отбора книг для рекомендации.
цитата Ny Фактически, Вы просто предлагаете расширить выборку, включив в неё больше посетителей.
Как бы да, но таких посетителей, чье "предсказательное качество" не уступает уже включенным. Это должно повысить качество прогнозов, и да, есть слабый шанс, что в результате вверх поднимутся другие книги.
цитата Ny Я сильно не уверен, что это даст какой-то качественный скачок.
Я тоже сомневаюсь, о чем в принципе неоднократно в разной форме упоминал. И однако сделать это, вообще говоря, почти ничего не стоит, вся математика та же самая, уже реализованная, просто нужно убрать отсечку по знаку коэффициента (правда, может замедлиться выдача, и это тоже важное соображение). Но я еще раз подчеркиваю, что не предлагаю этого, не прошу и тем более не требую. Всего лишь поинтересовался.
|
|
|
Ny
миротворец
|
16 февраля 2021 г. 18:42 [нажмите здесь чтобы увидеть текст поста]
|
цитата i_bystander Соответственно, учет дополнительных посетителей (если достоверность прогноза по ним не ниже, чем по уже учтенным; до сих пор они отбрасывались не по достоверности, но по знаку коэффицента корреляции) должен бы повысить общую достоверность? Сомневаюсь. Здесь ведь не только математические "плюс" и "минус". Если книга нравится, то она будет хорошей для единомышленников даже по разным причинам, а вот подход к "плохости" у антиподов может быть широко различным. Вы уверены, что антипод, наляпавший единиц автору, который Вам нравится стилистически, не понаставил их из-за нелюбви к жанру или из-за неприятия авторской философии, или из-за цвета обложки серии? По-моему, учитывая отрицательную корреляцию, есть приличный шанс добавить себе ложных совпадений, как раз снизив достоверность. Особенно с небольшим количеством оценок. Вообще, не сталкивался с общими случаями, когда отрицательная зависимость использовалась бы для уточнения положительной (кроме, разве что, проверки заданной формулы, правда и опыт у меня небольшой). Обычно такую связь просто отбрасывают.
|
––– Взял надежду сухим пайком, соль со спичками бросил в ранец, Я готов отправляться в путь - все, что нужно, уже при мне. |
|
|
i_bystander
авторитет
|
17 февраля 2021 г. 04:16 [нажмите здесь чтобы увидеть текст поста]
|
цитата Ny Вы уверены, что антипод, наляпавший единиц автору, который Вам нравится стилистически, не понаставил их из-за нелюбви к жанру или из-за неприятия авторской философии, или из-за цвета обложки серии?
Вы сейчас конструируете контрпример, который даже не сферический конь в вакууме (это я такие пытался строить, где у нас с антиподом по "несовпавшим по мнению" авторам ровно одна общая оценка), а единорог какой-то. Реально я бы скорее ожидал, что если значимые отрицательные корреляции и встречаются в природе, то в основном они набираются на диапазоне оценок где-нибудь от 3 до 7. А так-то умозрительный контрпример можно придумать на любой сценарий, например, мы с "единомышленником" могли поставить положительные оценки автору, удачно совместившему в себе сразу несколько достоинств. Условно говоря, я оценил "стиль", единомышленник — "боевку". После этого у меня появляются рекомендации боевой фантастики, которая мне без "стиля" и даром не нужна. Собственно, большие выборки коррелянтов не в последнюю очередь именно для нивелирования подобных эффектов и требуются.
Но я повторюсь, вы все еще исходите, явным или неявным образом, из гипотезы "сродства душ" (в данном случае — "антисродства", которое интуитивно непонятно и потому вызывает отторжение), я же — из сугубо математических соображений (если корреляции есть и имеют предсказательную ценность, давайте ими пользоваться, а гипотезы относительно того, чем именно они обусловлены — вопрос совершенно отдельный).
цитата Ny Обычно такую связь просто отбрасывают.
Ну вот это мне и кажется методологически неверным...
|
|
|
Ny
миротворец
|
17 февраля 2021 г. 05:49 [нажмите здесь чтобы увидеть текст поста]
|
цитата i_bystander я же — из сугубо математических соображений (если корреляции есть и имеют предсказательную ценность, давайте ими пользоваться, а гипотезы относительно того, чем именно они обусловлены — вопрос совершенно отдельный). По-моему, ценность от такого уточнения рекомендации стремится к нулю. Надо бы проверить практически, но сейчас нет доступа к таблице антиподов (раньше он был). Иначе можно было бы просто посмотреть сколько цифр после запятой добавит Ваш метод. Впрочем, Вы можете написать creatorу (создателю сайта и главному разработчику функционала) лично. Раньше он любил разговоры о рекомендациях.
|
––– Взял надежду сухим пайком, соль со спичками бросил в ранец, Я готов отправляться в путь - все, что нужно, уже при мне. |
|
|
pkkp
гранд-мастер
|
17 февраля 2021 г. 07:55 [нажмите здесь чтобы увидеть текст поста]
|
цитата Ny Вы можете написать creatorу (создателю сайта и главному разработчику функционала) лично.
Смешно) По личному опыту последних лет могу сразу сказать, что ответа ждать не стоит
|
|
|