Hamshahri korps

Hamshahri-korpuset ( persisk پیکره همشهری ‎) er et korpus af tekster på persisk baseret på indholdet af den iranske avis Hamshahri , en af ​​de første onlinepublikationerpersisk . Oprindeligt indsamlet og kompileret af Ehsan Darrudi fra DBRG Group [1] , baseret på University of Teheran . Senere oprettede en gruppe ledet af Ali Ahmad [2] baseret på dette korpus den første database med persiske tekster, der var egnede til informationssøgningsopgaver.

Hamshahri-korpuset blev skabt ved at scanne nyhedsartikler fra Hamshahri-avisens hjemmeside og derefter behandle HTML-sider for at skabe et standardtekstkorpus, der er egnet til standardinformationssøgning.

Version 1.0

Denne version indeholdt over 160.000 artikler, der dækkede følgende emnekategorier: Politik, Bynyheder, Økonomi, Rapporter, Ledere, Litteratur, Videnskab, Samfund, Udenlandske Nyheder, Sport osv. Dokumenter varierer i størrelse fra korte nyheder (mindre end 1 KB) til ret lange artikler (ca. 140 KB) med et gennemsnit på 1,8 KB.

Korpuset er tilgængeligt i flere downloadformater [2] :

Version 2.0

Denne version blev lanceret den 20. oktober 2008, sammenlignet med den forrige, den har flere nye funktioner:

Korpuset kan downloades i XML-format .

Noter

  1. DBRG News Arkiveret 15. maj 2017 hos Wayback Machine Database Research Group
  2. 1 2 Hamshahri Arkiveret 14. maj 2017 hos Wayback Machine Database Research Group

Links