Korankorpus af arabisk

Korankorpus af arabisk
URL corpus.quran.com
Kommerciel GNU General Public License
Site type korpus af tekster
Sprog) Arabisk / engelsk
Serverplacering Storbritanien
Ejer Leeds Universitet
Begyndelse af arbejdet 2009
Nuværende status virker og udvikler sig

The Arabic Qur'anic Corpus er  et søgbart online elektronisk korpus af korantekster, der indeholder 77.430 arabiske ord. Formålet med projektet er at levere morfologiske og syntaktiske data til forskere, der ønsker at studere klassisk arabisk [1] [2] [3] [4] [5] .

Funktioner

Grammatiktekstanalyse hjælper brugerne med at afdække de tilsigtede betydninger af hvert vers og hver sætning. Hvert ord i teksten i Koranen tilskrives en indikation af dets orddel og adskillige morfologiske karakteristika. I modsætning til andre arabiske korpus er grammatikken brugt af Korankorpus den traditionelle arabiske grammatik Irab (إعراب). The Qur'anic Corpus of Arabic er et forskningsprojekt ledet af datalog Kays Dukes fra University of Leeds [4] og er en del af det arabiske sprogstudieprojekt på School of Computing ledet af Eric Atwell [6] .

Det kommenterede korpus omfatter [1] [7] :

Taleledsopmærkning tildeler hvert ord i korpuset et ordledelsesmærke og morfologiske træk  - for eksempel en indikation af, om det givne ord er et substantiv eller et verbum , er i maskulinum eller feminin . I projektets første fase blev der anvendt automatisk delmærkning. Karakteristikaene for hvert af de 77.430 ord i Koranen bliver derefter forfinet trin for trin af to annotatorer, og justeringerne fortsætter til i dag.

Sproglig forskning, der bruger Koranens korpus, omfatter undervisning i en skjult Markov -model af arabisk ordstemmemarkering [8] , automatisk kategorisering af kapitler i Koranen [9] og prosodisk tekstanalyse [10] .

Derudover sørger projektet for en bogstavelig oversættelse af Koranen baseret på accepterede engelske kilder i stedet for en ny oversættelse af Koranen [4] .

Se også

Noter

  1. 1 2 K. Dukes, E. Atwell og N. Habash (2011). Overvåget samarbejde for syntaktisk annotering af koran-arabisk. Arkiveret 10. maj 2012 i Wayback Machine Language Resources and Evaluation Journal (LREJ) . Særligt nummer om samarbejdet opbyggede sprogressourcer.
  2. Overvåget samarbejde for syntaktisk annotering af koran-arabisk Arkiveret 6. april 2018 på Wayback MachineResearchGate . Uploadet af Nizar Habash, Columbia University .
  3. K. Dukes og T. Buckwalter (2010). En afhængighedstræbank af Koranen ved hjælp af traditionel arabisk grammatik. Arkiveret 10. maj 2012 på Wayback Machine In Proceedings af den 7. internationale konference om informatik og systemer (INFOS). Kairo, Egypten.
  4. 1 2 3 The Quranic Arabic Corpus Arkiveret 23. februar 2013 på Wayback Machine på The Muslim Tribune. 20. juni 2011
  5. Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha og Abdul-Baquee Sharaf. En kunstig intelligens-tilgang til arabisk og islamisk indhold på internettet  (link utilgængeligt) , s. 2. Riyadh : King Saud University , 2011.
  6. Ingeniørprofil for Dr. Eric Atwell - School of Computing - University of Leeds . www.comp.leeds.ac.uk . Hentet 6. april 2018. Arkiveret fra originalen 9. august 2017.
  7. K. Dukes og N. Habash (2011). Et-trins statistisk parsing af hybride afhængigheds-valgkredssyntaktiske repræsentationer. Arkiveret 10. maj 2012 på Wayback Machine International Conference on Parsing Technologies (IWPT) . Dublin, Irland.
  8. M. Albared, N. Omar og M. Ab Aziz (2011). Udvikling af en konkurrencedygtig HMM arabisk POS-tagger ved hjælp af Small Training Corpora.  (ikke tilgængeligt link) Intelligente informations- og databasesystemer. Springer Berlin, Heidelberg.
  9. A. M. Sharaf og E. Atwell (2011). Automatisk kategorisering af korankapitlerne. Arkiveret 8. januar 2014 på Wayback Machine 7th International Computing Conference in Arabic (ICCA11) . Riyadh, Saudi-Arabien.
  10. C. Brierley, M. Sawalha og E. Atwell (2012). Grænsekommentareret Korankorpus for arabisk sætningsbrudsforudsigelse. Arkiveret 15. december 2018 på Wayback Machine IVACS Annual Symposium. Cambridge.

Links