Клинические знания в LLM не применимы к человеческому взаимодействию ( arxiv.org ). См. также https://venturebeat.com/ai/just-add-humans-oxford-medical-st…
Для тех, кто хочет разобраться в этом подробнее, они выложили достаточно информации на github, чтобы люди могли подробно проанализировать их подход.
https://github.com/am-bean/HELPMed (также ссылка в статье)
На самом деле, похоже, там говорится о том, что LLM довольно хороши в выявлении основных причин и рекомендации медицинских мер, но если вы позволите людям использовать LLM для самостоятельной постановки диагноза, то все развалится, если я правильно понял.

Да, это звучит так: «Студенты LLM плохо взаимодействуют с простыми людьми по сравнению с подсказками экспертов или хорошо сформулированными вопросами, как на экзаменах по лицензированию».
Мне кажется, что это похоже на то, как два года назад “инжиниринг подсказок” вызвал шумиху в технологических компаниях, а теперь его не существует, потому что модели начали обучать и подсказывать специально, чтобы имитировать “рассуждение” для вопросов, которые были у пользователей технологических компаний. Похоже, это не перешло в рассуждение, которое они ведут в разговорах о здоровье, которые мог бы начать немедицинский специалист.
> выступили не лучше контрольной группы
Это все еще впечатляет. Означает ли это, что он может заменить людей в цикле без потерь?
Нет, контрольной группе было поручено «использовать любые методы, которые они обычно используют дома». Так что ChatGPT ничем не лучше WebMD.

Это лучше, так как быстрее даст вам ответ, чем читать страницы WebMD.

Откуда вы это взяли? (И снова, в «чтении WebMd» не больше «человека в теме», чем в «поговорить с чат-ботом».)
> Участники, использующие степень магистра права, идентифицировали соответствующие состояния менее последовательно, чем участники контрольной группы, идентифицируя по крайней мере одно соответствующее состояние не более чем в 34,5% случаев по сравнению с 47,0% для контрольной группы.
Так что старый добрый подход «проведите собственное исследование» (едва ли это золотой стандарт, но все же он составляет 47%) приносит людям на 35% больше пользы, чем «поговорите с чат-ботом».
А вот что более интересно:
> Мы обнаружили, что магистры права указали по крайней мере одно соответствующее условие в по крайней мере 65,7% разговоров с участниками […], при этом наблюдались случаи, когда участники предоставляли неполную информацию, а магистры права неверно истолковывали подсказки
поскольку это почти вдвое больше, чем скорость, с которой участники на самом деле уходили с соответствующей идентификацией состояния, что говорит о том, что боты намного хуже с взаимодействием , чем с информацией . Это, по-видимому, поддается обучению, но также требует определенного терпения и готовности со стороны человека, что кажется чем-то вроде черной магии для машины, чтобы научиться постоянно выманивать у всех.
Но дело не только в неспособности убедить, но и в неспособности получить правильную информацию и/или понять ее. Магистр права, которому давали подсказки контролируемым образом, а не приходилось вести беседу с участником, еще чаще обнаруживал по крайней мере одно соответствующее условие!
Вы ошибаетесь большую часть времени, но, по крайней мере, вы быстро приходите к выводу.

Какой человек? Контрольной группе было «дано указание вместо этого использовать любые методы, которые они обычно используют дома». У большинства людей нет дома врачей-людей в курсе событий.
Source: news.ycombinator.com