Hamshahri-korpuset ( persisk پیکره همشهری ) er et korpus af tekster på persisk baseret på indholdet af den iranske avis Hamshahri , en af de første onlinepublikationer på persisk . Oprindeligt indsamlet og kompileret af Ehsan Darrudi fra DBRG Group [1] , baseret på University of Teheran . Senere oprettede en gruppe ledet af Ali Ahmad [2] baseret på dette korpus den første database med persiske tekster, der var egnede til informationssøgningsopgaver.
Hamshahri-korpuset blev skabt ved at scanne nyhedsartikler fra Hamshahri-avisens hjemmeside og derefter behandle HTML-sider for at skabe et standardtekstkorpus, der er egnet til standardinformationssøgning.
Denne version indeholdt over 160.000 artikler, der dækkede følgende emnekategorier: Politik, Bynyheder, Økonomi, Rapporter, Ledere, Litteratur, Videnskab, Samfund, Udenlandske Nyheder, Sport osv. Dokumenter varierer i størrelse fra korte nyheder (mindre end 1 KB) til ret lange artikler (ca. 140 KB) med et gennemsnit på 1,8 KB.
Korpuset er tilgængeligt i flere downloadformater [2] :
Denne version blev lanceret den 20. oktober 2008, sammenlignet med den forrige, den har flere nye funktioner:
Korpuset kan downloades i XML-format .
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |