Vektor repræsentation af ord

En vektorrepræsentation  er en generel betegnelse for forskellige tilgange til sprogmodellering og repræsentationstræning i naturlig sprogbehandling rettet mod at matche ord (og muligvis sætninger) fra en ordbog over vektorer fra for , et meget mindre antal ord i ordbogen. Det teoretiske grundlag for vektorrepræsentationer er distributiv semantik .

Der er flere metoder til at konstruere en sådan kortlægning. De bruger således neurale netværk [1] , dimensionsreduktionsmetoder anvendt på ord co-forekomst matricer [2] og eksplicitte repræsentationer læring på kontekster af ord omtaler (eksplicitte repræsentationer) [3] .

Demonstreret[ af hvem? ] at vektorrepræsentationer af ord og sætninger væsentligt kan forbedre kvaliteten af ​​nogle metoder til automatisk naturlig sprogbehandling (f.eks. parsing [4] og sentimentanalyse [5] ).

Links

  1. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg & Dean, Jeffrey (2013), Distribuerede repræsentationer af ord og sætninger og deres sammensætning, arΧiv : 1310.4546 [cs.CL]. 
  2. Lebret, Rémi & Collobert, Ronan (2013), Word Emdeddings through Hellinger PCA, arΧiv : 1312.5542 [cs.CL]. 
  3. Levy, Omer; Goldberg, Yoav. Sproglige Regularities in Sparse and Explicit Word Representations  //  Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Baltimore, Maryland, USA, juni. Foreningen for Datalingvistik. 2014: journal.
  4. Socher, Richard; Bauer, John; Manning, Christopher; Nej, Andrew. Parsing med kompositoriske vektorgrammatikker  (ubestemt)  // Proceedings of the ACL conference. 2013.
  5. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris. Rekursive Deep Models for Semantic Compositionality Over a Sentiment Treebank  //  Konference om empiriske metoder i naturlig sprogbehandling: tidsskrift.