Hamshahri korps

Hamshahri-korpuset ( persisk پیکره همشهری ‎) er et korpus af tekster på persisk baseret på indholdet af den iranske avis Hamshahri , en af de første onlinepublikationer på persisk . Oprindeligt indsamlet og kompileret af Ehsan Darrudi fra DBRG Group [1] , baseret på University of Teheran . Senere oprettede en gruppe ledet af Ali Ahmad [2] baseret på dette korpus den første database med persiske tekster, der var egnede til informationssøgningsopgaver.

Hamshahri-korpuset blev skabt ved at scanne nyhedsartikler fra Hamshahri-avisens hjemmeside og derefter behandle HTML-sider for at skabe et standardtekstkorpus, der er egnet til standardinformationssøgning.

Version 1.0

Denne version indeholdt over 160.000 artikler, der dækkede følgende emnekategorier: Politik, Bynyheder, Økonomi, Rapporter, Ledere, Litteratur, Videnskab, Samfund, Udenlandske Nyheder, Sport osv. Dokumenter varierer i størrelse fra korte nyheder (mindre end 1 KB) til ret lange artikler (ca. 140 KB) med et gennemsnit på 1,8 KB.

Korpuset er tilgængeligt i flere downloadformater [2] :

tekst med tags: 560 MB
I SQL Server 2000 -tabeller : 712 MB.

Version 2.0

Denne version blev lanceret den 20. oktober 2008, sammenlignet med den forrige, den har flere nye funktioner:

I andre nyheder: 323.616 teksthistorier i 3.206 XML-filer (fil for hver dag);
Forlængelse af udgivelsesperioden: fra 22. juni 1996 til 13. maj 2007;
Større kapacitet: 1,42 GB ukomprimeret;
Standardkodning: Unicode XML;
Inkluderede billeder: billeder er blevet udtrukket fra nyhederne og gemt (tilgængelig i en valgfri pakke), hvilket gør dem velegnede til billedsøgningsopgaver;
Kategoriserede nyheder: Nyhedshistorier blev klassificeret semi-automatisk (til tekstklassificering og kategoriseringsopgaver).

Korpuset kan downloades i XML-format .

Noter

↑ DBRG News Arkiveret 15. maj 2017 hos Wayback Machine Database Research Group
↑ 1 2 Hamshahri Arkiveret 14. maj 2017 hos Wayback Machine Database Research Group

Links

Hamshahri Corpus hjemmeside
irBlogs Collection Hjemmeside

Korpuslingvistik
engelske korpus	National Corpus of American English Bank of English Bergen Corpus of London Teenage Language britiske nationale korps Brunt Corpus Buckeye Corpus Cambridge engelsk korpus Corpus of Modern American English Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford engelsk korpus Prop Bank Talt engelsk korpus TID VerbNet Wellington Corpus af talt newzealandsk engelsk
Russisksprogede korpus	Generelt internetkorpus af det russiske sprog Russisk nationalkorpus Åbent korpus af det russiske sprog SinTagRus Tübingen Corpus af det russiske sprog Uppsala korpus af russiske tekster Helsinki kommenterede korpus af det russiske sprog
Corpora på andre sprog	Bijankhan Corpus BØRN Korpus af kroatisk Kroatisk nationalkorpus Europarl Corpus Mannheim Corpus tysk Hamshahri korps polsk nationalkorpus Neo-assyrisk tekstkorpusprojekt Koranens korpus Scottish National Corpus Slovensk nationalkorpus talebank Tatoeba Teheran Monolingual Corpus Tekstaro de Esperanto Tesaurus Linguae Graecae
Organisationer	BNC konsortium SAMBYGGE