Чистка заголовков и статей
Эта опция отвечает за очистку заголовков от лишних символов, повторную генерацию новых заголовков при совпадении с другими статьями или поиском "плохих", по вашему, статей.
Вкладка Чистка заголовков 2
Эти вкладки отвечают за правильность названий статей. Очищает от лишних символов, обрезает длинные названия, есть возможность повторной генерации названия статьи если она короче определённой длины или совпадает с названием другой статьи.
Вкладка Чистка статей
Эта опция отвечает за "правильность" самих статей. Она умеет искать очень короткие статьи и очень длинные статьи, удалять не валидные символы и очищать поле description каждой статьи.
Вкладка Поиск дубликатов
Поиск дубликатов статей используя метод шинглов.
При поиске дубликатов стоит быть очень осторожным, потому что функция немного медленная и при очень большом количестве статей процесс поиска может длится до нескольких часов.
Так же есть возможность удалять HTML теги при поиске и делать лемматизацию слов.
Найденные статьи можно удалять, либо переносить в специальную категорию для дальнейшего определения их судьбы.




Как чистить статьи от такой бадяги:
"
«
–...
Кроме варианта поиск и замена есть что-то?
Только поиском и заменой, потому что это не мусор. С там же успехом можно спросить: "Как мне чистить от слов короче 3 символов так как они мне не нужны?".
Что-то он не чистит от ¬ вот этой хрени ни при импорте ни потом. Да, настройка есть где всё это выставляется, но как это применить и запустить на исполнение? при импорте тоже есть настройка, но ничего не происходит.
Подобные вещи чистятся с помощью поиска и замены. Не все символы которые вам не нужны - не нужны другим.