> secondo me, con opportuni adattamenti, varrebbe la pena di provare a vedere
> se migliora un LLM 'pure Italian'

Prima, secondo me, andrebbe perfezionato 'stanza'.
Ad esempio: 
nlp = stanza.Pipeline('it')
doc = nlp("agnello")
...
Result: a-nnlo-lo

"id": 1,
"lemma": "a",
"upos": "ADP",
"xpos": "E",
"deprel": "case"
--
"id": 2,
"lemma": "nnlo",
"upos": "NOUN",
"xpos": "S",
"feats": "Gender=Masc|Number=Sing",
"head": 0,
"deprel": "root"
--
"id": 3,
"lemma": "lo",
"upos": "PRON",
"xpos": "PC",
"feats": "Clitic=Yes|Gender=Masc|Number=Sing|Person=3|PronType=Prs",
"deprel": "discourse"

I clitici in genere li trova:
doc = nlp("mangiarselo")
"lemma": "se",
"feats": "Clitic=Yes|Person=3|PronType=Prs",
...
"lemma": "lo",
"feats": "Clitic=Yes|Person=3|PronType=Prs",

Ma, come con "agnello", anche dove "lo" non è una particella pronominale.
Oppure in "abitazione":
"lemma": "ne",
"upos": "PRON",
"feats": "Clitic=Yes|PronType=Prs",

Per finire, "andirivieni", trova che è composto da:
"id": 1,
"text": "andirivi",
"lemma": "andirire",
"upos": "VERB",
"feats": "Mood=Ind|Number=Sing|Person=2|Tense=Imp|Verbform=Fin",
"deprel": "root"

"id": 2,
"text": "ne",
"lemma": "ne",
"upos": "PRON",
"xpos": "PC",
"feats": "Clitic=Yes|PronType=Prs",
"head": 1,
"deprel": "iob"

un po' 'fuzzy' ...

A.

Reply via email to