论文标题
Addestramento con数据集Sbilanciati
Addestramento con Dataset Sbilanciati
论文作者
论文摘要
英语。以下文档追求比较一些有用的方法来平衡数据集并获得训练有素的模型的目标。用于培训的数据集由简短和中长的句子组成,例如简单的短语或从网络渠道上进行的对话中的提取物。该模型的训练将在Apache Spark Framework提供的结构的帮助下进行,这些模型随后可能对实现能够使用分布式环境进行分类的解决方案有用,如“文本分类的新边界:大数据和分布式计算”,Massimiliano Morrellie Morrelleli等人。 意大利裔。 il seguente docutso persegue l'obiettivo di mettere a confronto alcuni metodi utiri a bilanciare un dataset e otterere unotello adello addestrato。 IL数据集Utilizzato Perl'Addestramentoècostosto da frasi di lunghezza breve e Media,frasi semplici o estratte o estratte da conversazioni avvenute avvenute su canali web。 L'addestramento dei modelli avverrà con l'ausilio delle strutture messe a disposizione dal framework Apache Spark, i modelli successivamente potranno essere utili a un eventuale implementazione di una soluzione in grado di classificare frasi sfruttando l'ambiente distribuito, come descritto in "Nuova frontiera Della Classificazione testuale:大数据E Calcolo Distribulo“ di Massimiliano Morrelli等。
English. The following document pursues the objective of comparing some useful methods to balance a dataset and obtain a trained model. The dataset used for training is made up of short and medium length sentences, such as simple phrases or extracts from conversations that took place on web channels. The training of the models will take place with the help of the structures made available by the Apache Spark framework, the models may subsequently be useful for a possible implementation of a solution capable of classifying sentences using the distributed environment, as described in "New frontier of textual classification: Big data and distributed calculation" by Massimiliano Morrelli et al. Italiano. Il seguente documento persegue l'obiettivo di mettere a confronto alcuni metodi utili a bilanciare un dataset e ottenere un modello addestrato. Il dataset utilizzato per l'addestramento è composto da frasi di lunghezza breve e media, come frasi semplici o estratte da conversazioni avvenute su canali web. L'addestramento dei modelli avverrà con l'ausilio delle strutture messe a disposizione dal framework Apache Spark, i modelli successivamente potranno essere utili a un eventuale implementazione di una soluzione in grado di classificare frasi sfruttando l'ambiente distribuito, come descritto in "Nuova frontiera della classificazione testuale: Big data e calcolo distribuito" di Massimiliano Morrelli et al.