> secondo me, con opportuni adattamenti, varrebbe la pena di provare a vedere > se migliora un LLM 'pure Italian'
Prima, secondo me, andrebbe perfezionato 'stanza'. Ad esempio: nlp = stanza.Pipeline('it') doc = nlp("agnello") ... Result: a-nnlo-lo "id": 1, "lemma": "a", "upos": "ADP", "xpos": "E", "deprel": "case" -- "id": 2, "lemma": "nnlo", "upos": "NOUN", "xpos": "S", "feats": "Gender=Masc|Number=Sing", "head": 0, "deprel": "root" -- "id": 3, "lemma": "lo", "upos": "PRON", "xpos": "PC", "feats": "Clitic=Yes|Gender=Masc|Number=Sing|Person=3|PronType=Prs", "deprel": "discourse" I clitici in genere li trova: doc = nlp("mangiarselo") "lemma": "se", "feats": "Clitic=Yes|Person=3|PronType=Prs", ... "lemma": "lo", "feats": "Clitic=Yes|Person=3|PronType=Prs", Ma, come con "agnello", anche dove "lo" non è una particella pronominale. Oppure in "abitazione": "lemma": "ne", "upos": "PRON", "feats": "Clitic=Yes|PronType=Prs", Per finire, "andirivieni", trova che è composto da: "id": 1, "text": "andirivi", "lemma": "andirire", "upos": "VERB", "feats": "Mood=Ind|Number=Sing|Person=2|Tense=Imp|Verbform=Fin", "deprel": "root" "id": 2, "text": "ne", "lemma": "ne", "upos": "PRON", "xpos": "PC", "feats": "Clitic=Yes|PronType=Prs", "head": 1, "deprel": "iob" un po' 'fuzzy' ... A.