Избыточная категоризация - Overcategorization

Избыточная категоризация, чрезмерная категоризация или же беспорядок категорий это процесс присвоения слишком большого количества категорий, классов или условия индекса к данному документ. Это связано с Библиотека и информатика (LIS) концепции классификация документов и предметное указание.

В LIS идеальное количество терминов, которые должны быть назначены для классификации элемента, измеряется переменными точность и отзыв. Назначение нескольких меток категорий, наиболее тесно связанных с содержимым классифицируемого элемента, приведет к поиску с высокой точностью, т. Е., Когда большая часть результатов тесно связана с запросом. Назначение большего количества меток категорий для каждого элемента снизит точность каждого поиска, но увеличит запоминание, получая более релевантные результаты. Связанные концепции LIS включают исчерпывающую индексацию и информационная перегрузка.

Основные принципы

Если данному документу присвоено слишком много категорий, подразумеваемое для пользователей зависит от того, как информативный ссылки есть. Если пользователь может различать полезный и не полезные ссылки, ущерб ограничен: пользователь только тратит время на выбор ссылок. Однако во многих случаях пользователь не может судить, окажется ли данная ссылка полезной. В этом случае он или она должны перейти по ссылке и прочитать или просмотреть другой документ. В худшем случае, конечно, даже после прочтения нового документа пользователь не может решить, может ли он быть полезным, если его предмет не будет тщательно исследован.

Избыточная категоризация также имеет еще одно неприятное значение: она делает систему (например, в Википедии) трудно поддерживать в последовательный путь. Если система непоследовательна, это означает, что когда пользователь рассматривает ссылки в данной категории, он или она не найдет все документы, относящиеся к этой категории.

По сути, проблему чрезмерной категоризации следует понимать с точки зрения актуальность и традиционные меры отзывать и точность. Если слишком мало соответствующий категории присваиваются документу, отзыв может уменьшиться. Если присвоено слишком много нерелевантных категорий, точность снижается. Трудно сказать, какие категории плодотворны или соответствующий для будущего использования документа.

Смотрите также