Korankorpus af arabisk

Korankorpus af arabisk
URL	corpus.quran.com
Kommerciel	GNU General Public License
Site type	korpus af tekster
Sprog)	Arabisk / engelsk
Serverplacering	Storbritanien
Ejer	Leeds Universitet
Begyndelse af arbejdet	2009
Nuværende status	virker og udvikler sig

The Arabic Qur'anic Corpus er et søgbart online elektronisk korpus af korantekster, der indeholder 77.430 arabiske ord. Formålet med projektet er at levere morfologiske og syntaktiske data til forskere, der ønsker at studere klassisk arabisk [1] [2] [3] [4] [5] .

Funktioner

Grammatiktekstanalyse hjælper brugerne med at afdække de tilsigtede betydninger af hvert vers og hver sætning. Hvert ord i teksten i Koranen tilskrives en indikation af dets orddel og adskillige morfologiske karakteristika. I modsætning til andre arabiske korpus er grammatikken brugt af Korankorpus den traditionelle arabiske grammatik Irab (إعراب). The Qur'anic Corpus of Arabic er et forskningsprojekt ledet af datalog Kays Dukes fra University of Leeds [4] og er en del af det arabiske sprogstudieprojekt på School of Computing ledet af Eric Atwell [6] .

Det kommenterede korpus omfatter [1] [7] :

manuelt verificeret delvis markering af teksten på arabisk;
en kommenteret træstruktur af det klassiske arabiske korpus;
ny visualisering af traditionel arabisk grammatik gennem afhængighedsgrafer ;
morfologisk søgning i Koranens tekst;
maskinlæsbar morfologisk arabisk-engelsk ordbog;
delvis overensstemmelse af det arabiske sprog i Koranen, med lemmatisering ;
en online opslagstavle for frivillige i lokalsamfundet .

Taleledsopmærkning tildeler hvert ord i korpuset et ordledelsesmærke og morfologiske træk - for eksempel en indikation af, om det givne ord er et substantiv eller et verbum , er i maskulinum eller feminin . I projektets første fase blev der anvendt automatisk delmærkning. Karakteristikaene for hvert af de 77.430 ord i Koranen bliver derefter forfinet trin for trin af to annotatorer, og justeringerne fortsætter til i dag.

Sproglig forskning, der bruger Koranens korpus, omfatter undervisning i en skjult Markov -model af arabisk ordstemmemarkering [8] , automatisk kategorisering af kapitler i Koranen [9] og prosodisk tekstanalyse [10] .

Derudover sørger projektet for en bogstavelig oversættelse af Koranen baseret på accepterede engelske kilder i stedet for en ny oversættelse af Koranen [4] .

Se også

Noter

↑ 1 2 K. Dukes, E. Atwell og N. Habash (2011). Overvåget samarbejde for syntaktisk annotering af koran-arabisk. Arkiveret 10. maj 2012 i Wayback Machine Language Resources and Evaluation Journal (LREJ) . Særligt nummer om samarbejdet opbyggede sprogressourcer.
↑ Overvåget samarbejde for syntaktisk annotering af koran-arabisk Arkiveret 6. april 2018 på Wayback Machine på ResearchGate . Uploadet af Nizar Habash, Columbia University .
↑ K. Dukes og T. Buckwalter (2010). En afhængighedstræbank af Koranen ved hjælp af traditionel arabisk grammatik. Arkiveret 10. maj 2012 på Wayback Machine In Proceedings af den 7. internationale konference om informatik og systemer (INFOS). Kairo, Egypten.
↑ 1 2 3 The Quranic Arabic Corpus Arkiveret 23. februar 2013 på Wayback Machine på The Muslim Tribune. 20. juni 2011
↑ Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha og Abdul-Baquee Sharaf. En kunstig intelligens-tilgang til arabisk og islamisk indhold på internettet (link utilgængeligt) , s. 2. Riyadh : King Saud University , 2011.
↑ Ingeniørprofil for Dr. Eric Atwell - School of Computing - University of Leeds . www.comp.leeds.ac.uk . Hentet 6. april 2018. Arkiveret fra originalen 9. august 2017. (ubestemt)
↑ K. Dukes og N. Habash (2011). Et-trins statistisk parsing af hybride afhængigheds-valgkredssyntaktiske repræsentationer. Arkiveret 10. maj 2012 på Wayback Machine International Conference on Parsing Technologies (IWPT) . Dublin, Irland.
↑ M. Albared, N. Omar og M. Ab Aziz (2011). Udvikling af en konkurrencedygtig HMM arabisk POS-tagger ved hjælp af Small Training Corpora. (ikke tilgængeligt link) Intelligente informations- og databasesystemer. Springer Berlin, Heidelberg.
↑ A. M. Sharaf og E. Atwell (2011). Automatisk kategorisering af korankapitlerne. Arkiveret 8. januar 2014 på Wayback Machine 7th International Computing Conference in Arabic (ICCA11) . Riyadh, Saudi-Arabien.
↑ C. Brierley, M. Sawalha og E. Atwell (2012). Grænsekommentareret Korankorpus for arabisk sætningsbrudsforudsigelse. Arkiveret 15. december 2018 på Wayback Machine IVACS Annual Symposium. Cambridge.

Links

Koranens arabiske korpus

Arabisk sprog • العربية

Anmeldelser

Skrivning

arabisk alfabet

Arabiske tal
østlige figurer
Diakritiske tegn ( fatha , kasra , damma , sukun )
Hamza
Ta marbuta
Alif khanjaria

Breve

periodisering

Sorter

standard	moderne litterær
regional	arabisk egyptisk - sudanesisk Mesopotamisk Maghribin syro-palæstinensisk Centralasiatisk
Andet	maltesisk jødisk-arabisk kontakt sprog

Akademisk

Kalligrafi

" traditionelle seks "	muhakak naskh rayhani rica thulus tauki
andre	andalusi Bihari sofaer kirvani kufi maghrebi madani makki mashk nastaliq hånd blå sudanesisk fasi hijazi shekaste nastalik

Lingvistik

Korpuslingvistik
engelske korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language britiske nationale korps Brunt Corpus Buckeye Corpus Cambridge engelsk korpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford engelsk korpus Prop Bank Talt engelsk korpus TID VerbNet Wellington Corpus af talt newzealandsk engelsk
Russisksprogede korpus	Generelt internetkorpus af det russiske sprog Russisk nationalkorpus Åbent korpus af det russiske sprog SinTagRus Tübingen Corpus af det russiske sprog Uppsala korpus af russiske tekster Helsinki kommenterede korpus af det russiske sprog
Corpora på andre sprog	Bijankhan Corpus BØRN Korpus af kroatisk Kroatisk nationalkorpus Europarl Corpus Mannheim Corpus tysk Hamshahri korps polsk nationalkorpus Neo-assyrisk tekstkorpusprojekt Koranens korpus Scottish National Corpus Slovensk nationalkorpus talebank Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGE