2. "Шингл – это фрагмент текста длиной в несколько слов, с которым работает программа проверки уникальности. Суть дела заключается в том, что весь текст разбивается на отдельные фрагменты заданной фиксированной величины (от трёх до восьми слов), а программа, которая определяет уникальность текста, проверяет наличие таких же фрагментов текста (шинглов) в размещённых ранее документах в сети Интернет.
Уникальность проверяемого документа зависит от длины шингла. К примеру, если задать размер шингла в одно слово, то в Интернете всегда найдётся хотя бы один документ, в котором будет встречаться каждое слово, существующее в проверяемом документе – соответственно, и уникальность такого документа будет равна нулю. А если, например, создать выборку из девяти слов, то уникальность проверяемого контента резко возрастёт, ведь найти два документа, содержащих одинаковые фрагменты текста из девяти слов, довольно сложно.
Программы-антиплагиаты составляют шинглы по своим алгоритмам. Одним из таких правил является составление шингла внахлёст, т.е. каждый последующий шингл захватывает часть предыдущего." (с) ИСТОЧНИК
Комментариев нет:
Отправить комментарий