Клинические знания в LLM не применимы к человеческому взаимодействию ( arxiv.org ). См. также https://venturebeat.com/ai/just-add-humans-oxford-medical-st…

брайант 0 минут назад | следующий [–] Для тех, кто хочет разобраться в этом подробнее, они выложили достаточно информации на github, чтобы люди могли подробно проанализировать их подход.
https://github.com/am-bean/HELPMed (также ссылка в статье) 
dosinga 10 минут назад | предыдущая | следующая [–] На самом деле, похоже, там говорится о том, что LLM довольно хороши в выявлении основных причин и рекомендации медицинских мер, но если вы позволите людям использовать LLM для самостоятельной постановки диагноза, то все развалится, если я правильно понял.
majormajor 7 минут назад | родитель | следующий [–] Да, это звучит так: «Студенты LLM плохо взаимодействуют с простыми людьми по сравнению с подсказками экспертов или хорошо сформулированными вопросами, как на экзаменах по лицензированию».
Мне кажется, что это похоже на то, как два года назад “инжиниринг подсказок” вызвал шумиху в технологических компаниях, а теперь его не существует, потому что модели начали обучать и подсказывать специально, чтобы имитировать “рассуждение” для вопросов, которые были у пользователей технологических компаний. Похоже, это не перешло в рассуждение, которое они ведут в разговорах о здоровье, которые мог бы начать немедицинский специалист. 
ekianjo 17 минут назад | предыдущая [–] > выступили не лучше контрольной группы
Это все еще впечатляет. Означает ли это, что он может заменить людей в цикле без потерь? 
jdiff 9 минут назад | родитель | следующий [–] Нет, контрольной группе было поручено «использовать любые методы, которые они обычно используют дома». Так что ChatGPT ничем не лучше WebMD.
ekianjo 7 минут назад | корень | родитель | следующий [–] Это лучше, так как быстрее даст вам ответ, чем читать страницы WebMD.
majormajor 1 минуту назад | корень | родитель | следующий [–] Откуда вы это взяли? (И снова, в «чтении WebMd» не больше «человека в теме», чем в «поговорить с чат-ботом».)
> Участники, использующие степень магистра права, идентифицировали соответствующие состояния менее последовательно, чем участники контрольной группы, идентифицируя по крайней мере одно соответствующее состояние не более чем в 34,5% случаев по сравнению с 47,0% для контрольной группы.
Так что старый добрый подход «проведите собственное исследование» (едва ли это золотой стандарт, но все же он составляет 47%) приносит людям на 35% больше пользы, чем «поговорите с чат-ботом».
А вот что более интересно:
> Мы обнаружили, что магистры права указали по крайней мере одно соответствующее условие в по крайней мере 65,7% разговоров с участниками […], при этом наблюдались случаи, когда участники предоставляли неполную информацию, а магистры права неверно истолковывали подсказки
поскольку это почти вдвое больше, чем скорость, с которой участники на самом деле уходили с соответствующей идентификацией состояния, что говорит о том, что боты намного хуже с взаимодействием , чем с информацией . Это, по-видимому, поддается обучению, но также требует определенного терпения и готовности со стороны человека, что кажется чем-то вроде черной магии для машины, чтобы научиться постоянно выманивать у всех.
Но дело не только в неспособности убедить, но и в неспособности получить правильную информацию и/или понять ее. Магистр права, которому давали подсказки контролируемым образом, а не приходилось вести беседу с участником, еще чаще обнаруживал по крайней мере одно соответствующее условие! 
brianpan 4 минуты назад | корень | родитель | предыдущий | следующий [–] Вы ошибаетесь большую часть времени, но, по крайней мере, вы быстро приходите к выводу.
majormajor 11 минут назад | родитель | предыдущий [–] Какой человек? Контрольной группе было «дано указание вместо этого использовать любые методы, которые они обычно используют дома». У большинства людей нет дома врачей-людей в курсе событий.

Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа
Source: news.ycombinator.com