ml-sensei-lora-tinyllama-1.1b

This model is a fine-tuned version of TinyLlama/TinyLlama-1.1B-Chat-v1.0 on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 1.6066

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0002
train_batch_size: 4
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.03
num_epochs: 3
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss
2.8594	0.0393	15	1.9046
2.4739	0.0787	30	1.7265
2.05	0.1180	45	1.7067
1.8142	0.1574	60	1.6546
1.5286	0.1967	75	1.6166
1.5	0.2361	90	1.6162
1.4038	0.2754	105	1.6018
1.2995	0.3148	120	1.6022
1.3093	0.3541	135	1.6032
1.2117	0.3934	150	1.6145
1.1118	0.4328	165	1.6274
1.1538	0.4721	180	1.6210
1.0646	0.5115	195	1.6283
1.1285	0.5508	210	1.6304
1.006	0.5902	225	1.6373
1.065	0.6295	240	1.6509
0.9566	0.6689	255	1.6314
0.6742	0.7082	270	1.6383
1.0047	0.7475	285	1.6416
0.9875	0.7869	300	1.6411
0.7826	0.8262	315	1.6394
0.8697	0.8656	330	1.6336
1.0298	0.9049	345	1.6206
0.8058	0.9443	360	1.6169
0.8027	0.9836	375	1.6173
0.7878	1.0210	390	1.6153
0.8025	1.0603	405	1.6224
0.692	1.0997	420	1.6190
0.6411	1.1390	435	1.6204
0.9752	1.1784	450	1.6118
0.6924	1.2177	465	1.6118
0.7394	1.2570	480	1.6087
0.7693	1.2964	495	1.6087
0.6297	1.3357	510	1.6291
0.6826	1.3751	525	1.6112
0.7757	1.4144	540	1.6087
0.8989	1.4538	555	1.6085
0.6616	1.4931	570	1.6093
0.7302	1.5325	585	1.6115
0.6299	1.5718	600	1.6040
0.6561	1.6111	615	1.5980
0.5918	1.6505	630	1.6086
0.8289	1.6898	645	1.6095
0.7857	1.7292	660	1.6042
0.7051	1.7685	675	1.6019
0.9246	1.8079	690	1.6025
0.6273	1.8472	705	1.6005
0.6623	1.8866	720	1.5987
0.7065	1.9259	735	1.5980
0.6825	1.9652	750	1.5980
0.6312	2.0026	765	1.6017
0.5763	2.0420	780	1.6047
0.5929	2.0813	795	1.6165
0.7816	2.1207	810	1.6028
0.6843	2.16	825	1.6029
0.5449	2.1993	840	1.6111
0.6792	2.2387	855	1.6171
0.432	2.2780	870	1.6127
0.628	2.3174	885	1.6101
0.7821	2.3567	900	1.6148
0.8216	2.3961	915	1.6080
0.6769	2.4354	930	1.6004
0.7323	2.4748	945	1.6001
0.7147	2.5141	960	1.6043
0.6696	2.5534	975	1.6071
0.682	2.5928	990	1.6048
0.7797	2.6321	1005	1.6080
0.7817	2.6715	1020	1.6029
0.6107	2.7108	1035	1.6060
0.5616	2.7502	1050	1.6095
0.6871	2.7895	1065	1.6084
0.6163	2.8289	1080	1.6086
0.6479	2.8682	1095	1.6092
0.6093	2.9075	1110	1.6088
0.7314	2.9469	1125	1.6063
0.8122	2.9862	1140	1.6066

Framework versions

PEFT 0.18.0
Transformers 4.57.1
Pytorch 2.6.0+cu124
Datasets 4.4.1
Tokenizers 0.22.1

Downloads last month: 484

Model tree for mackenzietechdocs/ml-sensei-lora-tinyllama-1.1b

Base model

TinyLlama/TinyLlama-1.1B-Chat-v1.0

Adapter

(1272)

this model

mackenzietechdocs
/

ml-sensei-lora-tinyllama-1.1b

ml-sensei-lora-tinyllama-1.1b

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for mackenzietechdocs/ml-sensei-lora-tinyllama-1.1b

Space using mackenzietechdocs/ml-sensei-lora-tinyllama-1.1b 1

Evaluation results