Очистка веб-страниц от информационного шума

Алгоритм выделения основного контента со страницы заключается в следующем: 1. На вход подается веб-страница, которая делится на отдельные информационные блоки. 2. На основе регрессионной модели оценки важности информационных блоков сайтов. F = 1.739 + 0.033 *...