剧情介绍:
中??国网??络空间安全??协会人工智能??安全??治理专业委??员会委??员 薛智慧:大语言模型??本质上是一种统计语言模型??,使用的多层神经网??络架??构具有高度??的非线性特征。在??模型??训练??阶段,如??果训练??数据集中??混入了污染数据,模型??可??能??误将??污染数据判定为?“有特点、有代表性、高信息量”的内??容,这??种错觉就会使模型??提高污染数据整体在??数据集当中??的重要性,最终??导致少量的污染数据也能??对模型??权重产生微小影响。而当模型??输出内??容时,这??种微小的影响会在??神经网??络架??构的多层传播中??被逐层放大,最终??导致输出结??果出现明显??偏??差。