Jump to content

Příručka:Fronta úloh

From mediawiki.org
This page is a translated version of the page Manual:Job queue and the translation is 100% complete.

V roce 2009 (MediaWiki 1.6) byla zavedena fronta úloh (job queue), která provádí asynchronně dlouhodobé úkoly. Fronta úloh je navržena tak, aby pojala mnoho krátkých úloh pomocí dávkového zpracování.

Nastavení

Doporučuje se naplánovat spouštění úloh zcela na pozadí pomocí příkazového řádku. Ve výchozím nastavení jsou úlohy spouštěny na konci webové žádosti. Toto výchozí chování zakažte nastavením $wgJobRunRate na 0.

Měli byste spouštět runJobs.php jako uživatel spojený s webovým serverem, aby se zajistilo, že oprávnění pro souborový systém jsou správně vyhodnocena, pokud se úlohy dotknou nahraných souborů.

Cron

Můžete použít Cronu ke spuštění úloh každou hodinu. Přidejte do souboru crontab následující text:

0 * * * * /usr/bin/php /var/www/wiki/maintenance/runJobs.php --maxtime=3600 > /var/log/runJobs.log 2>&1

Používání Cronu usnadňuje začátek, ale může zpomalit e-mailová upozornění a kaskádové šablony (čekání až hodinu). Zvažte místo toho použití jednoho z níže uvedených přístupů k nastavení nepřetržité úlohy.

Nepřetržitá služba

Máte-li přístup k shellu a máte možnost vytvářet iniciační skripty, můžete vytvořit jednoduchou službu pro spouštění úloh, jakmile budou k dispozici a také je omezit, aby se zabránilo tomu, aby běh úlohy monopolizoval prostředky CPU serveru:

Vytvořte bash skript, například za /usr/local/bin/mwjobrunner:

Vytvoření skriptu

#!/bin/bash
# Napište instalační cestu MediaWiki na řádek níže
MW_INSTALL_PATH="/home/www/www.mywikisite.example/mediawiki"
RUN_JOBS="$MW_INSTALL_PATH/maintenance/runJobs.php --maxtime=3600"
echo Zahájení práce ...
# Počkejte minutu po spuštění serveru, aby se umožnil start všech procesů
sleep 60
echo Spuštění.
while true; do
	# Typy úloh, které je třeba spustit ASAP, bez ohledu na to, kolik z nich ve frontě je
	# Tyto úkoly by měly být velmi "jednoduché", aby mohly být spuštěny
	php $RUN_JOBS --type="enotifNotify"
	# Všechno ostatní omezuje počet úloh v každé dávce
	# Parametr --wait pozastaví provádění, dokud se nepřidají nové úlohy,
	# abyste se vyhnuli spuštění smyčky aniž byste měli cokoli dělat
	php $RUN_JOBS --wait --maxjobs=20
	# Počkejte několik sekund, než CPU umožní provádět jiné činnosti, jako je zpracování webových požadavků atd.
	echo Čekání 10 sekund ...
	sleep 10
done

V závislosti na rychlosti serveru a zatížení, které zpracovává, můžete upravit počet úloh, které se mají spustit v každém cyklu, a počet sekund, které se má v každém cyklu čekat.

Vytvořte spustitelný skript (chmod 755).

Vytvoření služby

Pokud používáte systemd, vytvořte novou servisní jednotku vytvořením souboru /etc/systemd/system/mw-jobqueue.service. Změňte parametr User na uživatele, který spouští PHP na vašem webovém serveru:

[Unit]
Description=MediaWiki Job runner

[Service]
ExecStart=/usr/local/bin/mwjobrunner
Nice=10
ProtectSystem=full
User=php-fpm
OOMScoreAdjust=200
StandardOutput=journal

[Install]
WantedBy=multi-user.target

Povolte jej a spusťte jej pomocí těchto příkazů:

sudo systemctl enable mw-jobqueue
sudo systemctl start mw-jobqueue
sudo systemctl status mw-jobqueue

Provedení úlohy na žádostech o stránky

Ve výchozím nastavení je na konci každé webové žádosti odebrána z fronty úloh jedna úloha a provedena. Toto chování je řízeno konfigurační proměnnou $wgJobRunRate . Pokud nastavíte tuto proměnnou na 1, spustí se úloha při každém požadavku. Nastavení této proměnné na 0 se zakáže provádění úloh během webových požadavků úplně, takže místo toho můžete runJobs.php spouštět ručně nebo periodicky z příkazového řádku.

Verze MediaWiki:
1.23

Pokud je to povolené, budou úlohy prováděny otevřením soketu a provedením interního požadavku HTTP na neuvedenou speciální stránku: Special:RunJobs. Viz také asynchronní část.

Problém s výkonem

Pokud je výkonové zatížení při spouštění úloh na každém webovém požadavku příliš velké, ale nemůžete spustit úlohy z příkazového řádku, můžete snížit $wgJobRunRate na číslo mezi 1 a 0. To znamená, že úloha provede v průměru (on average) každou 1 / $wgJobRunRate žádost.

$wgJobRunRate = 0.01;

Ruční nastavení

Existuje také způsob, jak frontu úloh vyprázdnit ručně, například po změně šablony, která se nachází na mnoha stránkách. Jednoduše spusťte servisní skript maintenance/runJobs.php . Například:

/path-to-my-wiki/maintenance$ php ./runJobs.php

Opuštěné úlohy

Úloha může z určitých důvodů selhat. Abyste pochopili proč, musíte si prohlédnout související soubor protokolu.

V každém případě, pokud úloha selže 3krát (takže pokud systém provedl tento počet pokusů), úloha se pak považuje za "opuštěnou" a znovu se nespustí.

Relevantní zdrojový kód:

https://doc.wikimedia.org/mediawiki-core/master/php/JobQueue_8php_source.html#l00085

Opuštěná úloha:

Historie

Asynchronní spouštění

Byla přidána konfigurační proměnná $wgRunJobsAsync , která vynucuje synchronní provádění úloh, ve scénářích, kde není požadováno provádění interního požadavku HTTP na provedení úlohy.

Při asynchronním spouštění úloh se otevře interní připojení HTTP pro zpracování provádění úloh a obsah stránky se okamžitě vrátí klientovi bez čekání na dokončení úlohy. Jinak bude úloha provedena ve stejném procesu a klient bude muset počkat, až bude úloha dokončena. Pokud úloha neběží asynchronně, dojde k závažné chybě během provádění úlohy, přenese se na klienta a přeruší načítání stránky.

Všimněte si, že i když je $wgRunJobsAsync nastaveno na hodnotu true, pokud PHP nemůže otevřít soket pro provedení interního požadavku HTTP, vrátí se zpět k provádění synchronní úlohy. Existují však různé situace, kdy může dojít k selhání tohoto interního požadavku a úlohy nebudou spuštěny, aniž by došlo k návratu k synchronnímu provádění úlohy. Počínaje MediaWiki 1.28.1 a 1.27.2 je nyní $wgRunJobsAsync nastaveno na false.

Odložené aktualizace

Mechanismus odložené aktualizace umožňuje naplánovat spuštění kódu na konec požadavku poté, co byl veškerý obsah odeslán do prohlížeče. Je to podobné jako zařazování úlohy do fronty, s tím rozdílem, že se spustí okamžitě a ne až o několik minut/hodin v budoucnu.

DeferredUpdates byl zaveden v MediaWiki verze 1.23. U MediaWiki verze 1.27 a 1.28 došlo k zásadním změnám. Cílem tohoto mechanismu je urychlit reakce webu tím, že uděláte méně práce, a také upřednostnit některé práce, které by dříve byly úkolem, aby se spustily co nejdříve po skončení odezvy.

Odložitelná aktualizace může implementovat EnqueueableDataUpdate, aby mohla být zařazena do fronty také jako úloha. To je například používáno v jádru RefreshSecondaryDataUpdate, což znamená, že pokud se aktualizace z nějakého důvodu nezdaří, MediaWiki se vrátí do fronty jako úkol a zkusí to znovu později, aby splnil dotyčnou smlouvu.

Změny v MediaWiki verze 1.22

V MediaWiki 1.22 se změnilo provádění fronty úloh při každém požadavku na stránku (Gerrit change 59797), takže místo provádění úlohy ve stejném procesu PHP, který vykresluje stránku, se vytvoří nový příkaz PHP cli, který spustí runJobs.php na pozadí. Funguje to pouze v případě, že je $wgPhpCli nastavena na skutečnou cestu nebo je vypnutý bezpečný režim. Jinak bude použita stará metoda.

Tato nová metoda spuštění může způsobit některé problémy:

  • Pokud je $wgPhpCli nastavena na nekompatibilní verzi PHP (např.: zastaralá verze), úlohy nemusí fungovat (opraveno v 1.23).
  • Platí omezení PHP open_basedir a $wgPhpCli je zakázáno (úkol T62208, opraveno ve verzi 1.23).
  • Provedení: I když je fronta úloh prázdná, nový proces PHP je přesto spuštěn (úkol T62210, opraveno ve verzi 1.23).
  • Někdy způsobí proces třídění PHP zablokování serveru nebo pouze CLI procesu kvůli nesprávně přesměrovaným popisovačům stdout a stderr (úkol T60719, opraveno ve verzi 1.22).
  • Nefunguje pro sdílený kód (farem wiki), protože nepředává další požadované parametry ke spuštění souboru runJobs.php určených k identifikaci wiki, která úlohu spouští (úkol T62698, opraveno ve verzi 1.23).
  • Normální limity prostředí jako $wgMaxShellMemory , $wgMaxShellTime , $wgMaxShellFileSize jsou vynucovány v procesu runJobs.php, který se provádí na pozadí.

Neexistuje způsob, jak se vrátit ke starému zpracování front úloh na vyžádání, kromě nastavení $wgPhpCli na false, což může způsobit další problémy (úkol T63387). Lze ji zcela zakázat nastavením $wgJobRunRate = 0;, ale úlohy se již nebudou na žádostech o stránku spouštět. Chcete-li pravidelně spouštět čekající úlohy, musíte explicitně spustit runJobs.php.

Změny v MediaWiki verze 1.23

V MediaWiki verze 1.23 je metoda prováděná ve verzi 1.22 opuštěna a úlohy jsou spouštěny MediaWiki vytvářejícím HTTP připojení společně.

Nejprve byl navržen jako vstupní bod API (Gerrit change 113038), ale později se změnil na neveřejnou speciální stránku Special:RunJobs (Gerrit change 118336).

Přestože řeší různé chyby zavedené verzí 1.22, stále vyžaduje načtení mnoha tříd PHP do paměti pro nový proces k provedení úlohy a také vytvoří nový požadavek HTTP, který musí server zpracovat.

Změny v MediaWiki verze 1.27

V programech MediaWiki verze 1.25 a MediaWiki verze 1.26 by použití $wgRunJobsAsync , pokud má wiki vlastní konfiguraci $wgServerName někdy mohlo způsobit, že úlohy nebudou spuštěny. Toto bylo opraveno v MediaWiki verze 1.27. úkol T107290

Změny v MediaWiki verze 1.28

Mezi verzemi MediaWiki 1.23 a MediaWiki 1.27 použití $wgRunJobsAsync způsobí, že úlohy nebudou spuštěny, pokud se požadavky MediaWiki týkají názvu serveru nebo protokolu, který neodpovídá aktuálně nakonfigurovanému názvu serveru (např. Když podporuje HTTP i HTTPS nebo když MediaWiki je za reverzním proxy serverem, který přesměruje na HTTPS). Toto bylo opraveno v MediaWiki verze 1.28. úkol T68485

Změny v MediaWiki verze 1.29

V prostředí verzí MediaWiki 1.27.0 až 1.27.3 a 1.28.0 až 1.28.2, je-li $wgJobRunRate nastavena na hodnotu větší než 0, může se v protokolech chyb nebo na stránce objevit tato chyba:

PHP Notice: JobQueueGroup::__destruct: 1 buffered job(s) never inserted

aktualizováno na stránkách kategorií nebo nedávných změn zobrazujících úpravy smazaných stránek - i když ručně spustíte runJobs.php pro vymazání fronty úloh. Byl ohlášen jako chyba (úkol T100085) a byl vyřešen ve verzích 1.27.4 a 1.28.3.

Ukázky

Aktualizace tabulek odkazů, když se změní šablona

Když se změní šablona, MediaWiki přidá úlohu do fronty úloh pro každý článek, který tuto šablonu převádí. Každá úloha je příkazem k přečtení článku, rozbalení všech šablon a odpovídajícím způsobem aktualizování tabulky odkazů. Dříve by hostitelské články zůstaly zastaralé, dokud nevyprší platnost jejich parserové mezipaměti nebo dokud uživatel neupraví článek.

Zrušení platnosti mezipaměti HTML

Širší třída operací může mít za následek zneplatnění mezipaměti HTML pro velký počet stránek:

  • Změna obrázku (všechny miniatury musí být znovu vykresleny a jejich velikosti přepočítány).
  • Mazání stránky (všechny odkazy na jiné stránky se musí změnit z modré na červenou).
  • Vytváření nebo odvíjení stránky (jako výše, ale z červené na modrou).
  • Změna šablony (je třeba aktualizovat všechny stránky, které tuto šablonu převádějí).

S výjimkou změn šablon tyto operace nezruší platnost tabulek odkazů, ale zneplatní mezipaměť HTML všech stránek, které odkazují na tuto stránku nebo používají tento obrázek. Zrušení platnosti mezipaměti stránky je krátká operace. Vyžaduje pouze aktualizaci jediného databázového pole a odeslání paketu vícesměrového vysílání, aby se vyčistily mezipaměti. Ale pokud jich je více než 1000, trvá to dlouho. Ve výchozím nastavení je jedna operace přidána na 300 operací (viz $wgUpdateRowsPerJob )

Mějte však na paměti, že i když je vymazání mezipaměti stránky krátkou operací, může být oprava složité stránky, která není v mezipaměti, náročná. Zejména pokud je upravena velmi používaná šablona a způsobí, že se mnoho stránek vyčistí v krátké době a vaše wiki má spoustu souběžných návštěvníků, kteří načítají širokou škálu stránek. To lze zmírnit snížením počtu stránek vymazaných v krátkém časovém období, snížením $wgUpdateRowsPerJob na malé číslo (například 20) a také nastavením $wgJobBackoffThrottling za htmlCacheUpdate na nízké číslo (například 5).

Překódování zvuku a videa

Při zpracování místního nahrávání zvukových a obrazových souborů pomocí TimedMediaHandler se fronta úloh používá ke spuštění potenciálně velmi pomalého vytváření odvozených transkódů v různých rozlišeních případně formátech.

Ty nejsou vhodné pro provoz na webových požadavcích - budete potřebovat běh na pozadí.

Pokud je to možné, doporučujeme nastavit samostatné běhy pro typy úloh webVideoTranscode a webVideoTranscodePrioritized. Tyto dvě fronty zpracovávají různé podmnožiny souborů - první pro HD videa ve vysokém rozlišení a druhá pro videa a zvukové soubory s nižším rozlišením, které se zpracovávají rychleji.

Typické hodnoty

Během období nízkého zatížení může být fronta úloh nulová. V praxi ve Wikimedii není fronta úloh téměř nikdy prázdná. V době mimo špičku to může být několik stovek až tisíc. Během rušného dne to může být několik milionů, ale údaj může rychle kolísat o 10 % nebo i více. [1]

Speciální statistiky

Až do MediaWiki 1.16 byla hodnota fronty úloh zobrazena na Special:Statistics. Od verze 1.17 (rev:75272) však toto bylo odstraněno a nyní je vidět v API:Siteinfo :

Počet úloh vrácených ve výsledku API může být při použití MySQL, který odhaduje počet úloh v databázi, mírně nepřesný. Toto číslo může kolísat na základě počtu úloh, které byly nedávno přidány nebo odstraněny. U ostatních databází, které nepodporují rychlý odhad velikosti výsledku, je uveden skutečný počet úloh.

Pro vývojáře

Správce kódu

Související odkazy