Proč skandálů se zkopírovanými diplomovými pracemi pozvolna ubude

Magistr švindléř

Proč skandálů se zkopírovanými diplomovými pracemi pozvolna ubude
Magistr švindléř

Obsah dostupný jen pro předplatitele.
Přihlásit se můžete zde.

Pokud nemáte předplatné, nebo vám vypršelo, objednat si ho můžete zde.

Obsah dostupný jen pro předplatitele.
Předplatné můžete objednat zde.

Pokud nemáte předplatné, nebo vám vypršelo, objednat si ho můžete zde.

Akademické podvádění je staré jako akademie sama. Hrubého plagiarismu, který spočívá v opisování celých odstavců od jiných autorů, se neštítily ani osobnosti, jako byl Martin Luther King. Jeho doktorská práce z roku 1955 obsahuje nepřiznané citace. Bostonská univerzita v roce 1991 konstatovala, že se King dopustil plagiátorství, ale doktorský titul mu posmrtně neodebrala – se zdůvodněním, že práce byla dostatečně hodnotná i tak. Je otázka, zda někdo méně politicky proslulý, než byla zavražděná ikona hnutí za práva černých Američanů, by mohl počítat se stejnou velkodušností vyšetřovací komise.

Čeští politici s ní obecně počítat nemohou. Jejich opsané diplomky se stávají ničivými nášlapnými minami číhajícími pod povrchem kariérních cest. Dva čerství ministři, Taťána Malá a Petr Krčál, byli nuceni rezignovat poté, co jejich diplomové práce vykázaly značný stupeň nepůvodnosti. Třetí provinilec, ministr Lubomír Metnar, svoje problémy zatím ustál. Jeho alma mater, Ostravská univerzita, nepovažuje neoznačené citace v textu za plagiátorství potud, pokud je zdrojová kniha alespoň uvedena v seznamu referencí na konci práce.

Závody ve zbrojení

Podobně jako ve světě počítačových virů nebo válečných zbraní probíhá i v oboru plagiátorství tichý a intenzivní zápas mezi dvěma silami: ohromnou vynalézavostí těch, kdo v dnešní době posedlé tituly nějaký diplom získat chtějí, i když na něj třeba nemají (duševně či třeba jen časově), a rostoucí silou počítačových systémů, které se na detekci podvádění specializují.

Opisování je ve skutečnosti daleko nebezpečnější a obtížnější počin, než se na první pohled zdá. Sdílí totiž jednu charakteristiku se sportovním dopingem: podvodník se nesnaží obejít pravidla jen v konkrétním čase Č, ale i na řadu dalších let dopředu, a v tomto období se mohou detekční technologie vyvinout.

Švýcarská laboratoř LAD, sídlící v Lausanne, uchovává vzorky moči a krve sportovců z dřívějších olympijských her až deset let poté, co byly odebrány. Kdykoli je smí znovu rozmrazit a podrobit dalším testům, které nebylo možno provést – buď z časových, nebo z technických důvodů – přímo při konání her. Některé z těchto testů nemusely být tou dobou ještě ani vynalezeny. V roce 2016 provedli Švýcaři rozsáhlé zkoumání zamrazených vzorků z pekingské olympiády roku 2008. Jedenatřicet atletů z dvanácti různých zemí, neodhalených v Pekingu samém, mělo při tomto dodatečném testování pozitivní nález. V podobné situaci se ocitli akademičtí hříšníci. Metody detekce plagiarismu se průběžně zlepšují, kdežto jednou obhájená práce se už měnit nemůže. Mezi odevzdáním definitivního textu práce a vrcholem osobní kariéry, který přitahuje pozornost veřejnosti, může uplynout značná doba (u exministryně Malé to bylo třináct roků, u Krčála devět). Dříve osvědčené metody podvádění se mezitím mohou stát jednoduše odhalitelnými.

Všechny dnes rozšířené systémy, které odhalují plagiátorství, pracují na základě analýzy textu a potřebují ke své funkcionalitě „zaindexovat“ co nejvíce existujících odborných prací. Práce bývají rozloženy na kratší řetězce (například sekvence čtyř či pěti slov), které pak systém vyhledává v jiných textech. Právě tyto kratší řetězce jsou výborným způsobem, jak odhalit kopírování. Vezmeme-li tento článek, detekčním řetězcem by mohla být třeba slova „rozsáhlé zkoumání zamrazených vzorků“, která se vyskytují v předchozím odstavci. Je to česky a srozumitelně, ale zároveň jde o netypický textový úsek, například pomocí vyhledávače Google se najít nedá. Náhlý výskyt takového řetězce uprostřed nějakého cizího článku by byl dobrým varovným znamením (tzv. red flag), že je potřeba se na něj podívat důkladněji. A ještě lepším znamením jsou stejné překlepy.

Táňa Malá byla ministryní spravedlnosti čtrnáct dní. Na snímku s premiérem Andrejem Babišem. - FOTO: Jan Zatorsky

Je zřejmé, že čím větší databázi existujících prací systém k dispozici má, tím účinněji dokáže odhalovat plagiáty. Proto nemá smysl vytvářet „lokální“ systémy, které by indexovaly třeba jen výstup studentů jedné univerzity. Skutečně funkční kontrola musí zahrnovat maximum akademické produkce v daném jazykovém prostředí. V dávných 80. letech 20. století by ještě vytvoření takových obřích databází stálo neúměrné peníze. Dnes však ceny počítačových komponent poklesly natolik, že náklady na techniku nepředstavují problém.

Problém představuje zejména logistika. Novější práce jsou již odevzdávány v digitálních formátech (např. PDF) a jejich zaindexování je technicky jednoduché. Starší práce, někdy psané ještě na stroji, představují
daleko větší potíž. Některé z nich už ani nemusejí fyzicky existovat. Například v roce 2002 zpustošila povodeň v Praze celkem 44 knihoven, mezi nimi knihovnu matematické sekce MFF UK v Karlíně, kde byly zničeny prakticky všechny zde uložené diplomové a disertační práce za poslední dvě generace. (Mezi nimi byla i diplomka autora tohoto článku, Celistvé uzávěry noetherovských okruhů. Bez obav, jednu kopii mám ještě doma.)

Právě nedokonalosti databází vděčí za několik let beztrestnosti i Taťána Malá. Svoji poslední práci odevzdala na vysoké škole v Bratislavě, ale slovenský systém pro záchyt plagiátů neindexoval práce z České republiky.

Řekni to jinak

Obejít detekci krátkých řetězců je možné zejména parafrázováním. Znamená to, že se maximální množství převzatého textu snažíte nějak přeformulovat, aby znamenalo víceméně totéž, ale řečeno jinými slovy. Vezmeme-li si výše zmíněný úryvek textu „rozsáhlé zkoumání zamrazených vzorků“, mohli bychom jej přepsat do znění „důkladné zkoumání uchovávaných vzorků“, které už není tak snadné automatickou kontrolou odhalit.

Hlavním problémem parafrázování je to, že provést jej skutečně důkladně a poctivě představuje nesmírnou dřinu, možná srovnatelnou s napsáním vlastní originální práce. Zkopírovaný text musí být přeorán kompletně, nesmí zbýt ani jedna zapomenutá věta, ani jedna poznámka pod čarou, protože pokud přece jen něco takového v odevzdané práci zapomenete, příslušnou shodu už algoritmy odhalí a upozorní na ni. Podezřelá práce pak může být podrobena lidskému zkoumání, a živý člověk dokáže detekovat parafrázování daleko snáze.

Existují softwarové nástroje, které provádějí parafrázování automaticky. Jejich principem je opět rozsáhlá databáze, tentokrát slov se shodným významem. Program potom proběhne původní text a nahradí co nejvíce původních pojmů pojmy obsahově shodnými. Činí tak ale mechanicky, takže výsledné věty mohou být kostrbaté či nesmyslné. Navíc některá slova znamenají totéž jen v určitém kontextu. Příklad takového jevu: hovoříme-li o dekompozici mrtvých těl, je „rozklad“ a „hniloba“ víceméně totéž. V právním žargonu však „rozklad“ znamená něco zcela jiného, opravný prostředek proti rozhodnutí některých státních orgánů. Zde takové nahrazení jednoho slova za druhé provést nejde, formulace „podat hnilobu k Nejvyššímu správnímu soudu“ by okamžitě připoutala pozornost každého živého kontrolora. Počítačový program ovšem takové nuance nechápe a klidně zde záměnu provede. Použití automatického parafrázování je tedy dost riskantní i v angličtině, natož v českém jazyce, jehož skloňování a časování je záludné.

V moderní historii šizení digitálních systémů najdeme i originálnější postupy. Počítač „nevidí“ text stejně jako člověk, vyhodnocuje jej za pomoci znakových tabulek. Vhodnými náhradami jej někdy lze ošálit.  Američtí studenti například kdysi přišli na to, že písmeno „e“ vypadá shodně v latinské abecedě i v cyrilici, ale v Unicode reprezentaci má „latinské“ a „cyrilské“ písmeno různé číselné hodnoty. Text, v němž jsou všechna „latinská“ písmena „e“ zaměněna za „cyrilská“, se pak člověku na pohled jeví stejně, ale počítačový program, který s takovou možností nepočítá, jej vyhodnotí jako jiný, protože číselné hodnoty znaků v tabulce Unicode se liší. Na podobném principu je založen další podvod, spočívající v tom, že v odevzdaném textu jsou místo mezer mezi slovy vepsány znaky bílým (tj. neviditelným) písmem. Člověk bílé písmo na bílém pozadí nevidí, počítač ano.

Oba postupy jsou však dnes již detekovatelné. Obecně platí, že cokoli, co se dostane na internet, zapracují autoři kontrolních systémů do svého softwaru během několika dní.

Autoři ve stínu

Zdaleka nejhůře odhalitelným způsobem akademického podvádění je najmutí jiného člověka, který práci napíše za vás. Tedy za předpokladu, že alespoň on je poctivý a nezjednoduší si život tím, že ji také odněkud zkopíruje.

Ghostwriting je velmi rozšířený zejména v anglosaském akademickém světě. Součástí tamní výukové tradice je totiž časté psaní esejů, kterých může být i několik desítek za školní rok. Ne každý student takovou slovní produkci zvládá; zvláště ti, kteří při studiu ještě pracují, nemívají dostatek času na domácí úkoly. Výsledkem je ohromný trh se službami nájemných autorů.

Psát akademické eseje na objednávku není v anglosaském právním prostředí obecně trestný čin. Prohřešku se dopouští ten, kdo je pod svým jménem odevzdá, ale je to „jen“ prohřešek vůči akademickým
pravidlům jeho univerzity, nikoli vůči zákonu. Podniky, které produkují texty na objednávku, tedy operují zcela veřejně na internetu jako každá jiná firma; říká se jim „essay mills“ a běžná cena jejich produktů se pohybuje mezi 20 a 30 dolary za stránku.

Nabídka „essay mills“ je velmi široká, jak co se témat týče, tak co do kvality. Horší studenti si například mohou úmyslně objednat esej „na trojku“ nebo s gramatickými chybami, aby nevzbudili podezření svého učitele tím, že najednou odevzdají brilantní práci. Lze si připlatit i za to, že ghostwriter bude pocházet ze stejného jazykového prostředí jako vy (například Kubánec) a v angličtině bude dělat ten samý druh typických chyb.

Téma ghostwritingu rozvířil absolvent Rutgersovy univerzity Dave Tomar, který v roce 2010 vydal článek o své vlastní činnosti coby „stínového akademika“, Shadow Scholar. Tomar, který vystudoval bakalářský obor komunikace, tvrdí, že za rok napíše až 5000 stran akademického textu na zakázku, a to v tak rozdílných oborech, jako je psychologie, sociologie, marketing, filozofie, historie a (paradoxně) etika. Tvrdým vědeckým oborům se vyhýbá, ale v těch se zase pohybují jiní odborníci, často z chudších zemí východní Evropy či Asie.

Důsledně provedený ghostwriting je vůči běžným automatickým nástrojům kontroly imunní, protože jde o originální práci. Snad by proti němu mohla pomoci analýza autorského stylu, která je ovšem neprůkazná. Daleko větší riziko představuje pro zákazníky ghostwriterů možnost, že budou jednoho dne vydíráni, buď samotným autorem práce, nebo třeba někým, kdo se úspěšně vloupal do jeho počítačového systému a odcizil tam data prokazující, že skutečným autorem zveřejněné práce nějakého prominenta je někdo jiný.

Kombinovaný evoluční tlak zlepšujících se nástrojů na detekci hrubého plagiarismu a trvajících požadavků na zisk akademických hodností i u lidí, kteří by je snad ani nemuseli mít, nejspíš povede právě k nárůstu ghostwritingu i v České republice. Pokud se tak skutečně stane, projeví se to časem tím, že skandálů se zkopírovanými diplomkami pozvolna ubude – primitivnější, snadno odhalitelné metody budou prostě studenty podvodníky opuštěny, stejně jako byl v železniční technice opuštěn parní stroj.

Marian Kechlibar