Метод отслеживания появления нежелательного контента
Ответственность за информационное наполнение веб-форума и жесткие требования ставят администраторов и модераторов в сложное положение. Даже при небольших объемах прироста информационного наполнения работа по отслеживанию и выявлению нежелательных информационного наполнения требует большого количества времени и усилий. За больших объемов прироста информационного наполнения решения этой задачи без автоматизированных средств становится нереальным.
Для уменьшения ресурсоемкости процесса модерирования Веб-форум разработан метод отслеживания появления нежелательного (для собственников) информационного наполнения.
Метод отслеживания появления нежелательного информационного наполнения предусматривает:
- Фильтрацию текстового информационного наполнения;
- Отслеживание и классификацию внешних ссылок;
- Отслеживание прикрепленных файлов.
Фильтрация нежелательного текстового информационного наполнения является самой простой задачей из перечисленного и заключается в нахождении в новом информационном наполнении запрещенных слов, удалении их или замене на другие слова, символы и т.п..
База запрещенных слов формируется в начале создания Веб-сообщества и дополняется на протяжении всего времени ее существования. ее создают администраторы зависимости от выбранного сценария развития Веб-сообщества.
Примером запрещенных слов в Веб-сообществах является:
- Ненормативная лексика,
- Суржик;
- Лексика, которая не имеет эмоционального и смысловой нагрузки, т.е. акультуризация контента Форума;
- Слов, которые используются в навязчивом, агрессивной и пренебрежительном стиле выражения мыслей;
- Использовать непонятные для общественности и бессодержательных комбинаций символов (! #$#%#$%!!);
- Ограничивать свой ответ словами “спасибо”, “ха-ха”, “+100” и использование более трех знаков препинания подряд (“!!!!!!!”, “???????”, “)) ))))))”), злоупотреблять количеством смайлов, которые не несут полезной информации;
- Выражение смеха – “ггггг )))”;
- Слов, которые направлены на разжигание межнациональной, расовой, служебной или иной розни, унижение национального достоинства и недостойные высказывания о пользователях по национальному или половому признаку или политическим, религиозным убеждениям.
- Пользоваться исключительно символами в верхнем регистре – CAPS LOCK (“ПОГОДА”), комбинировать регистры (“Политика”) и принимать любые символы, кроме букв и цифр, в сообщении;
- Обозначение междометий (огоооооо. …, Аучччч !!!);
- Транслитерированных слов русского и английского языков (“ван лов, ван хард, лется гет тугезер энд фил Олрайт)”, “Ху а СИЗ пипл ???”,” канцерт в америки “);
- Использование цифр в виде букв (“то4но”, “4ever”);
- Использование сленговых слов, например олбанськои языка – стилистического приема, направленного на достижение экспрессивно-комического эффекта путем умышленно ошибочного написания слов, отказ от пунктуации (lol – lutz, “тупая зачод!”, “МальчиГ”);
- Использование фамильярной лексики (“дружбан”, “чудили”);
- Размещать слова в сообщении, злоупотребляя цветом текста, выделениями (жирным, курсивом, подчеркнутым, зачеркнутым) и размерами шрифтов.
Рис. 1. Схема фильтрации запрещенной лексики
Отслеживание, классификация и фильтрация внешних ссылок происходит по схеме,изображенной на рис.2.
Рис. 2. Схема классификации и фильтрации внешних гиперссылок
Еще одной важной составляющей отслеживания нежелательного информационного наполнения является отслеживание внешних ссылок с их последующей классификацией и фильтрацией. Отслеживать нежелательные внешние гиперссылки сложнее, чем текстового информационное наполнение, поскольку нежелательных сайтов значительно больше, чем нежелательных слов.
Проверка информационного наполнения, на которое указывает гиперссылка, также требует участия человека. Администратор Веб-форума классифицирует Веб-сайты и страницы, на которые указывают гиперссылки, зачисляя их в «черный» (запрещенного) или «белого» (дозволенного) списка.
Гиперссылки, содержащиеся в запрещенном списке, фильтруются и не отражаются в дискуссиях Веб-форум.