Метод отслеживания появления нежелательного контента

Ответственность за информационное наполнение веб-форума и жесткие требования ставят администраторов и модераторов в сложное положение. Даже при небольших объемах прироста информационного наполнения работа по отслеживанию и выявлению нежелательных информационного наполнения требует большого количества времени и усилий. За больших объемов прироста информационного наполнения решения этой задачи без автоматизированных средств становится нереальным.

Для уменьшения ресурсоемкости процесса модерирования Веб-форум разработан метод отслеживания появления нежелательного (для собственников) информационного наполнения.

Метод отслеживания появления нежелательного информационного наполнения предусматривает:

  • Фильтрацию текстового информационного наполнения;
  • Отслеживание и классификацию внешних ссылок;
  • Отслеживание прикрепленных файлов.

Фильтрация нежелательного текстового информационного наполнения является самой простой задачей из перечисленного и заключается в нахождении в новом информационном наполнении запрещенных слов, удалении их или замене на другие слова, символы и т.п..

База запрещенных слов формируется в начале создания Веб-сообщества и дополняется на протяжении всего времени ее существования. ее создают администраторы зависимости от выбранного сценария развития Веб-сообщества.

Примером запрещенных слов в Веб-сообществах является:

  • Ненормативная лексика,
  • Суржик;
  • Лексика, которая не имеет эмоционального и смысловой нагрузки, т.е. акультуризация контента Форума;
  • Слов, которые используются в навязчивом, агрессивной и пренебрежительном стиле выражения мыслей;
  • Использовать непонятные для общественности и бессодержательных комбинаций символов (! #$#%#$%!!);
  • Ограничивать свой ответ словами “спасибо”, “ха-ха”, “+100” и использование более трех знаков препинания подряд (“!!!!!!!”, “???????”, “)) ))))))”), злоупотреблять количеством смайлов, которые не несут полезной информации;
  • Выражение смеха – “ггггг )))”;
  • Слов, которые направлены на разжигание межнациональной, расовой, служебной или иной розни, унижение национального достоинства и недостойные высказывания о пользователях по национальному или половому признаку или политическим, религиозным убеждениям.
  • Пользоваться исключительно символами в верхнем регистре – CAPS LOCK (“ПОГОДА”), комбинировать регистры (“Политика”) и принимать любые символы, кроме букв и цифр, в сообщении;
  • Обозначение междометий (огоооооо. …, Аучччч !!!);
  • Транслитерированных слов русского и английского языков (“ван лов, ван хард, лется гет тугезер энд фил Олрайт)”, “Ху а СИЗ пипл ???”,” канцерт в америки “);
  • Использование цифр в виде букв (“то4но”, “4ever”);
  • Использование сленговых слов, например олбанськои языка – стилистического приема, направленного на достижение экспрессивно-комического эффекта путем умышленно ошибочного написания слов, отказ от пунктуации (lol – lutz, “тупая зачод!”, “МальчиГ”);
  • Использование фамильярной лексики (“дружбан”, “чудили”);
  • Размещать слова в сообщении, злоупотребляя цветом текста, выделениями (жирным, курсивом, подчеркнутым, зачеркнутым) и размерами шрифтов.

Схема фильтрации запрещенной лексики

Рис. 1. Схема фильтрации запрещенной лексики

Отслеживание, классификация и фильтрация внешних ссылок происходит по схеме,изображенной на рис.2.

Схема классификации и фильтрации внешних гиперссылок

Рис. 2. Схема классификации и фильтрации внешних гиперссылок

Еще одной важной составляющей отслеживания нежелательного информационного наполнения является отслеживание внешних ссылок с их последующей классификацией и фильтрацией. Отслеживать нежелательные внешние гиперссылки сложнее, чем текстового информационное наполнение, поскольку нежелательных сайтов значительно больше, чем нежелательных слов.

Проверка информационного наполнения, на которое указывает гиперссылка, также требует участия человека. Администратор Веб-форума классифицирует Веб-сайты и страницы, на которые указывают гиперссылки, зачисляя их в «черный» (запрещенного) или «белого» (дозволенного) списка.

Гиперссылки, содержащиеся в запрещенном списке, фильтруются и не отражаются в дискуссиях Веб-форум.

Добавить комментарий

Ваш адрес email не будет опубликован.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.