Lingua::Interset::Tagset::Conll - Common code for drivers of tagsets from files in CoNLL 2006 format.
version 2.014
Zatím mám čistě conllí (2006) ovladače pro bulharštinu a dánštinu, ale i ty jsou odvozené z jiných tagsetů, akorát je nemám podchycené. Taky vlastně neodvozuju arabštinu (Conll a Conll2007). Společné rysy:
- značka se skládá ze tří částí, CPOS, POS a FEATS; rysy (FEATS) lze ještě dále rozložit - seznam rysů je pro každý jazyk jiný; pořadí rysů se může lišit i podle slovního druhu - při encode je občas potřeba trochu čarovat, protože někdy se rys má prostě vynechat a jindy se má uvést, ale s nějakou všeobjímající hodnotou (unmarked) - při decode se občas čaruje taky, aby se dovyplnily rysy, které daný tagset neznačí, ale automaticky vyplývají; zlepší to spolupráci s jinými ovladači
Common code for drivers of tagsets from files in the CoNLL 2006 format.
These tags always consists of three tab-separated parts: pos
(from the CoNLL CPOS
column),
subpos
(from the CoNLL POS
column),
and features
(from the CoNLL FEATS
column).
Features are always separated by a vertical bar.
The values of CPOS
,
POS
and features differ across tagsets/treebanks.
Nevertheless,
there is some minimal code that repeats for every CoNLL tagset.
This module provides the code and is thus intended as a common predecessor of the language-specific CoNLL drivers.
Most CoNLL tagsets are derived from other pre-existing tagsets that use a different format. If we have a driver for such pre-existing tagset, then its CoNLL variant will be probably derived from that driver rather than from this common CoNLL module.
Lingua::Interset, Lingua::Interset::Tagset, Lingua::Interset::Tagset::BG::Conll, Lingua::Interset::Tagset::DA::Conll, Lingua::Interset::FeatureStructure
Dan Zeman <zeman@ufal.mff.cuni.cz>
This software is copyright (c) 2014 by Univerzita Karlova v Praze (Charles University in Prague).
This is free software; you can redistribute it and/or modify it under the same terms as the Perl 5 programming language system itself.