Kategoria: BitNet

Metoda MatMul-Free osiąga wysoką wydajność przy 61% mniejszym zużyciu pamięci
—
in AdderNet, Artificial Intelligence, BERT, binary or ternary quantization, BitNet, channel mixer, Computational Cost, Convolutional Neural Networks, Deep Learning, FPGA, Gated Recurrent Unit, GPU-efficient implementation, Hardware Efficiency, Large Language Models, lightweight operations, MatMul operations, MatMul-free Language Modeling, matrix multiplication, Memory Usage, Quantization-Aware Training, Stratix 10 programmable acceleration card., token mixer, TransformersNaukowcy z Uniwersytetu Kalifornijskiego w Santa Cruz, Uniwersytetu Soochow, Uniwersytetu Kalifornijskiego w Davis i LuxiTech opracowali skalowalny model językowy, który eliminuje potrzebę mnożenia macierzy (MatMul), kosztownej obliczeniowo operacji. Opracowane przez zespół modele bez MatMul utrzymują wysoką wydajność w skali miliardów parametrów, zmniejszając zużycie pamięci nawet o 61% podczas uczenia i ponad 10 razy podczas wnioskowania.…
