Метод отслеживания появления нежелательного контента

Ответственность за информационное наполнение веб-форума и жесткие требования ставят администраторов и модераторов в сложное положение. Даже при небольших объемах прироста информационного наполнения работа по отслеживанию и выявлению нежелательных информационного наполнения требует большого количества времени и усилий. За больших объемов прироста информационного наполнения решения этой задачи без автоматизированных средств становится нереальным.

Для уменьшения ресурсоемкости процесса модерирования Веб-форум разработан метод отслеживания появления нежелательного (для собственников) информационного наполнения.

Метод отслеживания появления нежелательного информационного наполнения предусматривает:

  • Фильтрацию текстового информационного наполнения;
  • Отслеживание и классификацию внешних ссылок;
  • Отслеживание прикрепленных файлов.

Фильтрация нежелательного текстового информационного наполнения является самой простой задачей из перечисленного и заключается в нахождении в новом информационном наполнении запрещенных слов, удалении их или замене на другие слова, символы и т.п..

База запрещенных слов формируется в начале создания Веб-сообщества и дополняется на протяжении всего времени ее существования. ее создают администраторы зависимости от выбранного сценария развития Веб-сообщества.

Примером запрещенных слов в Веб-сообществах является:

  • Ненормативная лексика,
  • Суржик;
  • Лексика, которая не имеет эмоционального и смысловой нагрузки, т.е. акультуризация контента Форума;
  • Слов, которые используются в навязчивом, агрессивной и пренебрежительном стиле выражения мыслей;
  • Использовать непонятные для общественности и бессодержательных комбинаций символов (! #$#%#$%!!);
  • Ограничивать свой ответ словами «спасибо», «ха-ха», «+100» и использование более трех знаков препинания подряд («!!!!!!!», «???????», «)) ))))))»), злоупотреблять количеством смайлов, которые не несут полезной информации;
  • Выражение смеха — «ггггг )))»;
  • Слов, которые направлены на разжигание межнациональной, расовой, служебной или иной розни, унижение национального достоинства и недостойные высказывания о пользователях по национальному или половому признаку или политическим, религиозным убеждениям.
  • Пользоваться исключительно символами в верхнем регистре — CAPS LOCK («ПОГОДА»), комбинировать регистры («Политика») и принимать любые символы, кроме букв и цифр, в сообщении;
  • Обозначение междометий (огоооооо. …, Аучччч !!!);
  • Транслитерированных слов русского и английского языков («ван лов, ван хард, лется гет тугезер энд фил Олрайт)», «Ху а СИЗ пипл ???»,» канцерт в америки «);
  • Использование цифр в виде букв («то4но», «4ever»);
  • Использование сленговых слов, например олбанськои языка — стилистического приема, направленного на достижение экспрессивно-комического эффекта путем умышленно ошибочного написания слов, отказ от пунктуации (lol — lutz, «тупая зачод!», «МальчиГ»);
  • Использование фамильярной лексики («дружбан», «чудили»);
  • Размещать слова в сообщении, злоупотребляя цветом текста, выделениями (жирным, курсивом, подчеркнутым, зачеркнутым) и размерами шрифтов.

Схема фильтрации запрещенной лексики

Рис. 1. Схема фильтрации запрещенной лексики

Отслеживание, классификация и фильтрация внешних ссылок происходит по схеме,изображенной на рис.2.

Схема классификации и фильтрации внешних гиперссылок

Рис. 2. Схема классификации и фильтрации внешних гиперссылок

Еще одной важной составляющей отслеживания нежелательного информационного наполнения является отслеживание внешних ссылок с их последующей классификацией и фильтрацией. Отслеживать нежелательные внешние гиперссылки сложнее, чем текстового информационное наполнение, поскольку нежелательных сайтов значительно больше, чем нежелательных слов.

Проверка информационного наполнения, на которое указывает гиперссылка, также требует участия человека. Администратор Веб-форума классифицирует Веб-сайты и страницы, на которые указывают гиперссылки, зачисляя их в «черный» (запрещенного) или «белого» (дозволенного) списка.

Гиперссылки, содержащиеся в запрещенном списке, фильтруются и не отражаются в дискуссиях Веб-форум.

Читайте также:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.