NAME

Lingua::Interset::Tagset::Conll - Common code for drivers of tagsets from files in CoNLL 2006 format.

VERSION

version 2.014

Zatím mám čistě conllí (2006) ovladače pro bulharštinu a dánštinu, ale i ty jsou odvozené z jiných tagsetů, akorát je nemám podchycené. Taky vlastně neodvozuju arabštinu (Conll a Conll2007). Společné rysy:

- značka se skládá ze tří částí, CPOS, POS a FEATS; rysy (FEATS) lze ještě dále rozložit - seznam rysů je pro každý jazyk jiný; pořadí rysů se může lišit i podle slovního druhu - při encode je občas potřeba trochu čarovat, protože někdy se rys má prostě vynechat a jindy se má uvést, ale s nějakou všeobjímající hodnotou (unmarked) - při decode se občas čaruje taky, aby se dovyplnily rysy, které daný tagset neznačí, ale automaticky vyplývají; zlepší to spolupráci s jinými ovladači

DESCRIPTION # ABSTRACT: Common code for drivers of tagsets from files in CoNLL 2006 format. # This will be the common ancestor of e.g. BG::Conll and DA::Conll. # It will not be used for tagsets that are derived from non-Conll tagsets, e.g. CS::Conll and EN::Conll. # (Most Conll tagsets are derived from non-Conll tagsets but we do not care unless we also have a driver for the non-Conll ancestor.)

Common code for drivers of tagsets from files in the CoNLL 2006 format. These tags always consists of three tab-separated parts: pos (from the CoNLL CPOS column), subpos (from the CoNLL POS column), and features (from the CoNLL FEATS column). Features are always separated by a vertical bar. The values of CPOS, POS and features differ across tagsets/treebanks. Nevertheless, there is some minimal code that repeats for every CoNLL tagset. This module provides the code and is thus intended as a common predecessor of the language-specific CoNLL drivers.

Most CoNLL tagsets are derived from other pre-existing tagsets that use a different format. If we have a driver for such pre-existing tagset, then its CoNLL variant will be probably derived from that driver rather than from this common CoNLL module.

SEE ALSO

Lingua::Interset, Lingua::Interset::Tagset, Lingua::Interset::Tagset::BG::Conll, Lingua::Interset::Tagset::DA::Conll, Lingua::Interset::FeatureStructure

AUTHOR

Dan Zeman <zeman@ufal.mff.cuni.cz>

COPYRIGHT AND LICENSE

This software is copyright (c) 2014 by Univerzita Karlova v Praze (Charles University in Prague).

This is free software; you can redistribute it and/or modify it under the same terms as the Perl 5 programming language system itself.