scispace - formally typeset
Open AccessJournal ArticleDOI

Plagiarism detection problems and analysis software tools for its solve

Reads0
Chats0
TLDR
The proposed schemes complement the existing hierarchical taxonomy of plagiarism and allow it to identify more fully articulate to the functional performance requirements, the input and output of the developed software, as well as to identify the features of such software.
Abstract
Purpose. This study is aimed at: 1) the definition of plagiarism in texts on formal and natural languages, building a taxonomy of plagiarism; 2) identify major problems of plagiarism detection when using automated tools to solve them; 3) Analysis and systematization of information obtained during the review, testing and analysis of existing detection systems. Methodology. To identify the requirements of the software to detect plagiarism apply methods of analysis of normative documentation (legislative base) and competitive tools. To check the requirements of the testing methods used and GUI interfaces review. Findings. The paper considers the concept of plagiarism issues of proliferation and classification. A review of existing systems to identify plagiarism: desktop applications, and online resources. Highlighting their functional characteristics, determine the format of the input and output data and constraints on them, customization features and access. Drill down system requirements is made. Originality. The authors proposed schemes complement the existing hierarchical taxonomy of plagiarism. Analysis of existing systems is done in terms of functionality and possibilities for use of large amounts of data. Practical value. The practical significance is determined by the breadth of the problem of plagiarism in various fields. In Ukraine, develops the legal framework for the fight against plagiarism, which requires the active solution development tasks, improvement and delivery of relevant software (PO). This work contributes to the solution of these problems. Review of existing programs, Anti-plagiarism, as well as study and research experience in the field and update the concept of plagiarism, the strategy allows it to identify more fully articulate to the functional performance requirements, the input and output of the developed software, as well as to identify the features of such software. The article focuses on the features of solving the problem of identification of borrowing in an academic environment.

read more

Content maybe subject to copyright    Report

ISSN 2307–3489 (Print), ІSSN 2307–6666 (Online)
Наука та прогрес транспорту. Вісник Дніпропетровського
національного університету залізничного транспорту, 2017, 1 (67)
doi 10.15802/stp2017/94034 © В. И. Шинкаренко, Е. С. Куропятник, 2017
ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ
ТА МАТЕМАТИЧНЕ МОДЕЛЮВАННЯ
УДК 004.42:378.014.6
В. И. ШИНКАРЕНКО
1*
, Е. С. КУРОПЯТНИК
2*
1*
Каф. «Компьютерные информационные технологии», Днепропетровский национальный университет
железнодорожного транспорта имени академика В. Лазаряна, ул. Лазаряна, 2, Днипро, Украина, 49010,
тел. +38 (056) 373 15 35, эл. почта shinkarenko_vi@ua.fm, ORCID 0000-0001-8738-7225
2
Каф. «Компьютерные информационные технологии», Днепропетровский национальный университет
железнодорожного транспорта имени академика В. Лазаряна, ул. Лазаряна, 2, Днипро, Украина, 49010,
тел. +38 (056) 373 15 35, эл. почта elenadiit@rambler.ru, ORCID 0000-0003-2286-884X
ПРОБЛЕМЫ ВЫЯВЛЕНИЯ ПЛАГИАТА И АНАЛИЗ
ИНСТРУМЕНТАЛЬНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
ДЛЯ ИХ РЕШЕНИЯ
Цель. Данное исследование направлено на: 1) определение понятия «плагиата» в текстах на формальных
и естественных языках, построение таксономии плагиата; 2) выявление основных проблем обнаружения
плагиата при использовании автоматизированных средств их решения; 3) анализ и систематизацию инфор-
мации, полученной в ходе обзора, тестирования и анализа работы существующих систем обнаружения за-
имствований. Методика. Для выявления требований к п
рограммному обеспече
нию по обнаружению пла-
гиата применяются методы анализа нормативной документации (законодательной базы) и конкурентного
инструментария. Для проверки требований используются методы тестирования и обзора интерфейсов GUI.
Результаты. В работе рассмотрено понятие «плагиата», вопросы его распространения и классификации.
Выполнен обзор существующих систем выявления плагиата: настольных приложений и онлайн-ресурсов.
Выделены их функцио
нальных характери
стики, определены форматы входных и выходных данных и огра-
ничения на них, особенности настройки и доступа. Выполнена детализация требований к рассмотренным
системам. Научная новизна. Авторами предложено дополнение к существующим иерархическим схемам
таксономии плагиата. Выполнен анализ существующих систем с точки зрения функциональности
и возможности использования для больших объемов данных. Практическая знач
имость. Практическая зна-
чимость оп
ределяется широтой проблемы плагиата в различных сферах. В Украине развивается законода-
тельная база для борьбы с плагиатом, что требует активного решения задач разработки, совершенствования
и внедрения соответствующего программного обеспечения (ПО). Данная работа способствует решению ука-
занных задач. Обзор существующих программ-антиплагиатов, а также изучение и исследова
ние опыта в
этой области, уточнение по
нятия «плагиата», стратегии его выявления позволяет более полно сформулиро-
вать требования к функциональным характеристикам, входным и выходным данным разрабатываемого ПО,
а также выявить особенности работы подобного ПО. В статье сделан акцент на особенности решения задачи
выявления заимствований в академической среде.
Ключевые слова: плагиат; таксономия плагиата; заимство
вание фрагме
нтов; системы обнаружения пла-
гиата
131

ISSN 2307–3489 (Print), ІSSN 2307–6666 (Online)
Наука та прогрес транспорту. Вісник Дніпропетровського
національного університету залізничного транспорту, 2017, 1 (67)
ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ ТА МАТЕМАТИЧНЕ МОДЕЛЮВАННЯ
doi 10.15802/stp2017/94034 © В. И. Шинкаренко, Е. С. Куропятник, 2017
Введение
Интенсивность развития всех отраслей об-
щественного производства, а также средств их
информационной поддержки приводят к резко-
му росту объемов информации, в том числе
представленной в текстовом виде. Одной из
задач обработки текстов является их синтакси-
ческое и семантическое сравнение с целью вы-
явления заимствований.
Решению данной проблемы посвящено
множество работ в правой и акад
емической от-
раслях [
4, 20, 24], а также в сфере информаци-
онных технологий [3, 15, 22].
Проблема выявления плагиата усложнена
множеством вариантов определения понятия
плагиата в разных контекстах. «Плагиатакт
взятия рукописей другого человека и выдачи их
как свои собственные. Мошенничество тесно
связанное с подделкой и пиратством на практи-
ке, как правило, в нарушение закон
а об автор-
ских правах» [14
]. Согласно Закону Украины
«Про авторське право та суміжні права» редак-
ции от 13.01.16 «плагіатоприлюднення
(опублікування), повністю або частково, чужо-
го твору під іменем особи, яка не є автором
цього твору…». На сегодня существует ряд
объектов, охраняемых авторским правом: лите-
ратурные произведения различного жанра, вы-
сту
пления, лекции, пр
оизведения искусства,
производные произведения, а также «другие
произведения» [11, 13], определены неохраняе-
мые объекты [9]. Степень производности
и специфика произведения требует особого
внимания и подходов для решения задачи оп-
ределении плагиата. В настоящее время полу-
чает все большую практику решение этой зада-
чи с помощью IT-технологий, сфокусирован-
ных на выявление прежде всего текстовых за-
имствований, которые имеют широкое
распространение в сфер
е науки
, образовании,
профессиональной деятельности, особенно
в СМИ [10]. В таких случаях применяется тер-
мин «плагиат». В данной работе понятие «пла-
гиат» используется в более широких семанти-
ческих пределах, чем рамки нормативно-
законодательной базы, что является традици-
онным для сферы разработки программного
обеспечения. Под плагиатом будем понимать
наличи
е в текстовых и иных документах фраг-
ментов, заимствованных с различных источни-
ков без указания их автора и/или с нарушения-
ми правил цитирования.
Существуют разные подходы для его клас-
сификации: по техническим средствам маски-
ровки, по объему, степени маскировки [21, 23],
сфере использования [10].
Одной из актуальных проблем является ус
т-
ранение последствий маскировки плагиат
а.
В связи с этим выделяют такие типы плагиата
[23]: дословный; скрытый плагиат с помощью
перефразирования; скрытый плагиат с помо-
щью технических трюков, использующих не-
достатки существующих систем антиплагиата,
умышленное неточное использование ссылок;
«жесткий плагиат» – тип плагиата, который
особенно тяжело выявлять.
Для студенческих работ характерны такие
виды пл
агиат
а [14]:
текстуальные плагиаты: этот тип плагиата
обычно делается студентами или исследовате-
лями в научных учреждениях, где документы
являются идентичными или типичными для
исходных документов, докладов, эссе научных
работ и дизайнерского искусства;
плагиат исходного кода компьютерных
программ: также используется студентами
в университетах, где студенты пытаются сдать
копию полного или частей исходного кода, на-
писанного ке
м-то друг
им, как свой собствен-
ный.
Таким образом, определение понятия пла-
гиата неоднозначно, имеет много формулиро-
вок и включает множество различных аспектов.
Цель
Основной целью данной работы является
построение таксономии видов плагиата, выяв-
ление основных проблем в задачах обнаруже-
ния плагиата и использовании автоматизиро-
ванных сред
ств для их решения; а также анали
з
и систематизирование информации, получен-
ной в ходе обзора, тестирования и анализа ра-
боты существующих систем обнаружения за-
имствований.
Методика
Для выявления требований к программному
обеспечению по выявлению плагиата приме-
няются методы анализа нормативной докумен-
тации (законодательной базы) и конкурентных
132

ISSN 2307–3489 (Print), ІSSN 2307–6666 (Online)
Наука та прогрес транспорту. Вісник Дніпропетровського
національного університету залізничного транспорту, 2017, 1 (67)
ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ ТА МАТЕМАТИЧНЕ МОДЕЛЮВАННЯ
doi 10.15802/stp2017/94034 © В. И. Шинкаренко, Е. С. Куропятник, 2017
продуктов, а также метод анализа и черного
ящика. Для проверки требований используются
методы тестирования и обзора GUI.
Результаты
В работе рассмотрено понятие плагиата, во-
просы его распространения и классификации.
Выполнен обзор существующих систем выяв-
ления плагиата: настольных приложений и он-
лайн-ресурсов. Выделены их функциональные
характеристики, определены форматы входных
и выходных данных и ограничения на них, осо-
бенности настройки. Выполнена де
тализация
требований к рассмотренным системам.
Таксономия плагиата. Таксономия плагиата
предполагают выделения различных его уров-
ней по типу (виду материала, рис. 1), сложно-
сти и путям его реализации. Каждый тип работ
(студенческая, исследовательская) может со-
держать заимствования такие, как цитаты пер-
воисточника, ссылки на резу
льтаты экспери-
ментов и апробаций
. Правильное оформление
подобных вставок является нормальной прак-
тикой в научно-образовательной сфере, пре-
небрежение нимиплагиатом.
Рис. 1. Формы представления материалов,
подвергаемых заимствованию
Fig. 1. The forms of presentation materials subjected
to borrow
Умышленное неточное использование ссы-
лок является одним из способов, применяемых
при выполнении учебных заданий. Студенты
могут использовать неправильные и неточные
цитаты, проявляя неспособность определить ци-
тируемый текст с необходимой точностью. Ме-
тоды такого типа плагиата включают в себя [23]:
обеспечение поддельной ссылки, то есть
выдуманной ссылки, которой не существуют,
и, следовательно, невозможно цитировать
и текст сс
ылки точно;
предоставление ложных ссылок: ссылк
а
существует, но материал по ней не соответст-
вует приведенному в работе;
использование «забытых» или аннулиро-
ванных ссылок на источники: добавление цитат
или скобок, но непредставление информации
о ссылке на источники.
Плагиат может быть полным и частичным
в зависимости от процента заимс
твованных
фрагментов. Классификация плагиата пред-
ставлена в табл. 1.
Таблица 1
Характеристика плагиата
Table 1
Characteristics of plagiarism
Признак Значение
Полный Объем
Частичный
Один Простой плагиат Количество
источников
Много Сложный плагиат
Обзор
Постановка задачи
Основная часть
Примеры
Структурный
источник
Выводы (результаты)
Сплошной Непрерывность
Фрагментарный
Степень важно-
сти
Насколько заимствованный
фрагмент важен для данного
документа (текста)
Отсутствуют
Использованы «маскировоч-
ные трюки»
Перевод на другой язык
Наличие изме-
нений
Перестановка фраз и/или дру-
гих фрагментов
Полный плагиат может быть классифициро-
ван как простой и сложный. К первому типу
можно отнести получение псевдо оригинально-
го текста на основе одного документа: манипу-
ляции с таким документом минимальны
и не требуют сложного интеллектуального тру-
да, и отчасти могут быть реализованы по сред-
ствам онлайн-сервисов или компьютерных про-
133

ISSN 2307–3489 (Print), ІSSN 2307–6666 (Online)
Наука та прогрес транспорту. Вісник Дніпропетровського
національного університету залізничного транспорту, 2017, 1 (67)
ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ ТА МАТЕМАТИЧНЕ МОДЕЛЮВАННЯ
doi 10.15802/stp2017/94034 © В. И. Шинкаренко, Е. С. Куропятник, 2017
грамм. Сложный плагиат, характеризующийся
наличием нескольких источников, предполага-
ет более сложную работу, связанную не только
с поиском материалов, но и требует понимание
предметной области исходных текстов.
Маскирование плагиата, или так званый ла-
тентный плагиат, является актуальным вопро-
сом не только в сфере образования, но и ин-
формационных технологий, так как ряд про-
грамм, напр
авленных на выявления заимство-
ваний, не имеют стопроцентной защиты
от
данной проблемы. Параллельно с программа-
ми-антиплагиатами разрабатываются антипла-
гиаты-киллеры, направленные на сокрытия за-
имствований в автоматическом режиме.
К приемам маскировки можно отнести:
использование символов с разной кодиров-
кой [23]: замена кириллических символов похо-
жими по написанию латинскими симв
олами;
вставка в текст неп
ечатных символов,
в том числе добавление последовательностей
из двух и более пробелов;
допущения орфографических ошибок
с определенной вероятностью;
изменение регистра (изменение больших
букв на малые и наоборот);
добавление пустых абзацев и замена сим-
вола абзаца на символ разрыва строки;
замена сокращений единиц измерения на
их полные названия и наоборот;
замен
а цифр их наименованием пропи-
сью.
При оценке текста на плаги
ат можно выде-
лить такие задачи (табл. 2): определение типа
документа по языку; определение уровня, на
котором будет вестись поиск заимствований;
определения лексических конструкций, на уров-
не которых будет вестись поиск заимствований;
проверка на уникальность; анализ резул
ьтатов.
Текст может быть написан на естес
твенном
языке или формализованном, а также содер-
жать фрагменты обоих типов (табл. 3). Провер-
ка текстов на естественном языке предполагает
учет таких его особенностей:
нестрогий порядок слов в предложении;
наличие многозначных слов, синонимов,
омонимов;
изменения порядка слов может приводить
к изменению смысла высказываний;
эволюция языка.
Таблица 2
Этапы обнаружения плагиата
Table 2
Stages of plagiarism detection
Этап Основные характеристики
Определение типа
документа
ЕЯ, формальный язык,
смесь (гибрид)
Определение уровня Синтаксический, семанти-
ческий, гибридный
Определение мас-
штаба
Слова, словосочетания,
предложения (фразы, аб-
зацы)
Проверка на уни-
кальность
Анализ результатов Объем, цитирование, пере-
сечение фрагментов,
структурный источник,
важность фрагмента
Таблица 3
Типы документов
Table 3
Document Types
Документы Примеры
Издания СМИ Естественноязыковые
Худ. лит-ра
Мат. выкладки
Программы
UML-модели
Формальноязыковые
прочее
Техническая литература
Пособия, монографии
Диссертации
Чертежи и конструктор-
ская документация
Учебные работы
Смешанные докумен-
ты
Документация к ПО
Общими проблемами являются:
определение «границ» идиоматических
единиц;
изменения знаков препинания может при-
водить к изменению смысла фразыКазнить
134

ISSN 2307–3489 (Print), ІSSN 2307–6666 (Online)
Наука та прогрес транспорту. Вісник Дніпропетровського
національного університету залізничного транспорту, 2017, 1 (67)
ІНФОРМАЦІЙНО-КОМУНІКАЦІЙНІ ТЕХНОЛОГІЇ ТА МАТЕМАТИЧНЕ МОДЕЛЮВАННЯ
doi 10.15802/stp2017/94034 © В. И. Шинкаренко, Е. С. Куропятник, 2017
нельзя помиловать»).
Ряд языков, подобных uml [25], имеют гра-
фическую интерпретацию в виде геометриче-
ских фигур; распознания символов в формулах
также является проблемой (частично она обу-
словлена различиями форматов редакторов
формул).
Анализ результатов может быть выполнен
по нескольким критериям (табл. 2), исходя из
характеристик плагиата (табл. 1). По объему
плагиат может быть единим, целым фрагмен-
том, а может быть выборочными (от
дельными,
разрозненными) частями доку
мента. По при-
надлежности текст может быть: свой (в том
числе самоцитирование), общеизвестные вещи
(например, народное творчество, правила язы-
ка), чужой.
Цитирование может быть сторонних источ-
ников и авторское (самоцитирование).
По принадлежности к структурному источ-
нику фрагменты могут быть справочными или
теоретическими све
дениями (например, в лабо-
раторных работах сту
дентов), основным тек-
стом, обзором аналогов, литературы, фрагмен-
тами, которые дополняют картину или вносят
ясность в дальнейший текст. Последние могут
быть допустимыми лишь в отдельных разделах
документа (например, в докторской диссерта-
ции). По важности заимствованные фрагменты
могут передавать основные мысли, а могут
вспомогательные элементы работы (перифе-
рию): примеры решения за
дач, примеры на-
чальных усл
овий и т.п. По количеству источ-
ников фрагменты могут быть моно- и полиза-
имствованными.
Системы обнаружения плагиата. На сегодня
существует ряд программ (настольных приложе-
ний и онлайн-сервисов), позволяющих выявлять
заимствования текстов на естественном языке
и на языках программирования. Среди них обще-
го назначения: Et
xt Анти плагіат
, Advego Plagia-
tus, Double Content Finder (DCFinder), Praide
Unique Content Analyser 2, Copyscape, istio.com
и другие. А также специализированныедля
использования в вузах: Anti-Plagiarism [6],
пакет «Антиплагиат. ВУЗ», «Plagiarism» [12],
strikeplagiarism.com, unplag.com. Описанию
и сравнению различных систем антиплагиата по-
священо ряд работ [5, 15, 19].
Рассмотрено 27 ресурсов по обнаружению
плагиата: онлайн и настольные приложения
с различными типами баз данных исходных
текстов (рис. 2). Далее приведен перечень ре-
сурсов:
1. eTXT А
нтиплагиат [1, 3, 5]
2. Advego Plagiatus [3, 5]
3. Double Content Finder [3, 5, 18]
4. Praide Unique Content Analyser II [5]
5. Viper [5]
6. Плагиата.НЕТ [5]
7. Duplichecker [5]
8. PaperRater [5]
9. Anti-Plagiarism [6]
10. strikeplagiarism.com [33]
11. Plagiarisma.Net [5, 26]
12. PlagiarismChecker [5, 27]
13. Plagium [5, 28]
14. PlagTracker [5, 31]
15. SeeSources [5]
16. PlagScan [5, 30]
17. Plagiarism Detector [5, 29]
18. Защита уникальности контента [5]
19. FindCopy [3, 5]
20. Docol©c [5, 17]
21. Grammarly [5]
22. Text.ru [5, 7]
23. Антиплагиат ру [3, 5, 8]
24. Copyscape [10, 16]
25. Miratools [3]
26. smallSeoTools.com/plagiarismChecker
[32]
27. unplag.com [34].
В результате анализа [3, 5–8, 10, 16, 17, 26–
34] были сформулированы требования к вход-
ным и выходным данным программ-
антиплагиатов, а также их функциональным
характеристикам. Непосредственная работа
с ресурсом начинается с подачи документа на
проверку, которая может быть осуществлена
такими способами:
– url сайта, контент которого необходимо
проверить (ресу
рсы 1–4, 7, 11, 12, 13, 16, 24, 25,
26);
отдельный файл (1–4, 7, 28, 11, 13, 16, 17,
20, 27);
пакет файлов (1, 25), несколько докумен-
тов одним zip-архивом (16);
проверяемый текст вводится в специаль-
ную экранную форму (1, 3, 4, 7, 8, 11–14, 17, 22,
26, 27).
135

Citations
More filters
Journal ArticleDOI

Testing of support tools for plagiarism detection

TL;DR: The sobering results show that although some web-based text-matching systems can indeed help identify some plagiarized content, they clearly do not find all plagiarism and at times also identify non-plagiarized material as problematic.

Text Borrowings Detection System for Natural Language Structured Digital Documents

TL;DR: In article method comparison of structured document is developed for comparison digital structured natural language documents and the features of the system and its advantages are presented.
References
More filters
Journal ArticleDOI

State-of-the-art in detecting academic plagiarism

TL;DR: In the future, plagiarism detection systems may benefit from combining traditional character-based detection methods with these emerging detection approaches, including intrinsic, cross-lingual and citation-based plagiarism Detection.

Overview and Comparison of Plagiarism Detection Tools

TL;DR: An overview of eective plagiarism detection methods that have been used for natural language text plagia- rism detection, external plagiarisms detection, clustering-base plagiarism Detection and some methods used in code source plagiarism detecting are done.
Journal ArticleDOI

Automatic Student Plagiarism Detection: Future Perspectives

TL;DR: Limits in automatic detection of student plagiarism are investigated and ways on how these issues could be tackled in future systems by applying various natural language processing and information retrieval technologies are proposed.

A review of electronic services for plagiarism detection in student submissions

TL;DR: The need for widespread plagiarism detection systems is reviewed and four services are discussed: the Measure of Software Similarity (MOSS) service for program source code and the plagiarism.org, Integriguard and copycatch.com services for free-text submissions.
Journal ArticleDOI

A Survey on Plagiarism Detection Systems

TL;DR: A survey on plagiarism detection systems is presented, a summary of several plagiarism types, techniques, and algorithms is provided and a web enabled system to detect plagiarism in documents, code and images is proposed.
Related Papers (5)