Форма каждого произведения может фактически мало отличаться друг от друга (у детей сейчас с выраженем эмоций плохо, поэтому словарный запас значительно сократился), но при этом все они написаны независимо.
Я имею дело со студентами ... через меня "проходит" ежегодно несколько сотен студентов... и по моим наблюдениям 2 человека не могут написать абсолютно одно и то же. Тут можно поставить вопрос о том, к какому объёму текстовой информации можно начинать применять некоторые процентные критерии похожести. Условно, можно сказать, что эти критерии начинают работать, когда размер анализируемого текста составляет более 5000 знаков. Но почему именно 5000, а не 4500... тут надо математически это будет обосновать... и получится не 5000, а некоторое значение ХХХХ знаков.
также непонятно, каким качественно этот процент должен быть ?? Если я не дурак, то я спишу ваше произведение, изменю пару слов в каждом предложении и сразу вылетаю из вашей системы.
В том то и дело, что этот процент должен быть качественными :-)
Это вопрос разработки хорошего алгоритмического обеспечения. Что брать за минимальную неделимую единицу... предложение...? слово...? А может предложение с определённым допуском на отклонение.
Если Вы когда-нибудь занимались списыванием, то понимаете, что если в реферате объёмом 30 000 значов надо в каждом предложении изменить пару слов, то это не так то и просто... Плюс к этому речь уже не будет идти о плагиате... это незаконная переработка произведения... что тоже плохо... но мною пока не рассматривается.
Я это все к тому, что если бы такая система моглы бы существовать-ее бы уже создали, либо бы начались разработки.
Пока вроде глухо,что и понятно: не может произведение оценить машина, хотя бы потому что она не способна его создать.
Такие (или очень похожие) системы используются многими заинтересованными организациями. Другое дело, что Вам никто не скажет про алгоритмы их функционирования... Многие из таких систем самописные... несовершенные... если знать их алгоритмы, то их легко обойти.
Если нужна экспертиза двух текстов, то отправляемся в Российский Федеральный Центр Судебной экспертизы при МИНЮСТЕ РФ. И неужели Вы думаете, что там не используются программные средства для анализа текстовой информации...? Наверняка используются... другой вопрос какие именно... Возможно, программы используемые там используют исключительно теорию статистики.
Неужели Вы будете критиковать возможности программных средств по статистической обработке...?
А по поводу того, что машина не может создать текст... спорно конечно... а зачем машине для рассматриваемой задачи уметь создавать нормальный (не отличающийся от созданного человеком) текст?
Машины, которые используют для обнаружения раковых опухолей, не умеют их создавать (и слава богу), однако умеют находить эти опухоли и распознавать их!
Любая система должна хорошо функционировать в чётко заданных условиях. Не надо придумывать что-то универсальное с нуля... должны пройти определённые этапы... Мы пока только в начале этого пути.