Papers reimplemented

casinca 's Collections

updated Mar 15

List of research papers, architectures, and techniques reimplemented in LLM-quest or Hugging Face's TRL. Missing: Qwen3.5, Qwen3-Next, GPT-2

Upvote

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Paper • 2602.10693 • Published Feb 11 • 221
Reinforced Attention Learning

Paper • 2602.04884 • Published Feb 4 • 30
Learning to Reason in 13 Parameters

Paper • 2602.04118 • Published Feb 4 • 6
LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters

Paper • 2405.17604 • Published May 27, 2024 • 3
mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations

Paper • 2601.05732 • Published Jan 9 • 1
mHC: Manifold-Constrained Hyper-Connections

Paper • 2512.24880 • Published Dec 31, 2025 • 328
Hyper-Connections

Paper • 2409.19606 • Published Sep 29, 2024 • 27
MiMo-V2-Flash Technical Report

Paper • 2601.02780 • Published Jan 6 • 40
NVIDIA Nemotron 3: Efficient and Open Intelligence

Paper • 2512.20856 • Published Dec 24, 2025 • 44
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Paper • 2512.02556 • Published Dec 2, 2025 • 268
Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

Paper • 2510.11370 • Published Oct 13, 2025 • 4
Soft Adaptive Policy Optimization

Paper • 2511.20347 • Published Nov 25, 2025 • 43
Kimi K2: Open Agentic Intelligence

Paper • 2507.20534 • Published Jul 28, 2025 • 16
Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9, 2025 • 265
Min P Sampling: Balancing Creativity and Coherence at High Temperature

Paper • 2407.01082 • Published Jul 1, 2024 • 1
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Paper • 2505.06708 • Published May 10, 2025 • 11
Gated Delta Networks: Improving Mamba2 with Delta Rule

Paper • 2412.06464 • Published Dec 9, 2024 • 17
Approximating Two-Layer Feedforward Networks for Efficient Transformers

Paper • 2310.10837 • Published Oct 16, 2023 • 11
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

Paper • 2006.16236 • Published Jun 29, 2020 • 4
Qwen3 Technical Report

Paper • 2505.09388 • Published May 14, 2025 • 341
Fast Inference from Transformers via Speculative Decoding

Paper • 2211.17192 • Published Nov 30, 2022 • 11
Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models

Paper • 2411.02083 • Published Nov 4, 2024 • 2
Group Sequence Policy Optimization

Paper • 2507.18071 • Published Jul 24, 2025 • 320
DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Paper • 2503.14476 • Published Mar 18, 2025 • 146
Understanding R1-Zero-Like Training: A Critical Perspective

Paper • 2503.20783 • Published Mar 26, 2025 • 60
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 61
The Curious Case of Neural Text Degeneration

Paper • 1904.09751 • Published Apr 22, 2019 • 3
Hierarchical Neural Story Generation

Paper • 1805.04833 • Published May 13, 2018
Transformers without Normalization

Paper • 2503.10622 • Published Mar 13, 2025 • 172
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Paper • 2010.11929 • Published Oct 22, 2020 • 20
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

Paper • 2402.03300 • Published Feb 5, 2024 • 145
Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

Paper • 2312.08935 • Published Dec 14, 2023 • 4
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22, 2025 • 452
Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 66
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7, 2024 • 26
DeepSeek-V3 Technical Report

Paper • 2412.19437 • Published Dec 27, 2024 • 86
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

Paper • 2401.06066 • Published Jan 11, 2024 • 62
Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

Paper • 2408.15664 • Published Aug 28, 2024 • 15
Instruction Tuning With Loss Over Instructions

Paper • 2405.14394 • Published May 23, 2024 • 1
Mixtral of Experts

Paper • 2401.04088 • Published Jan 8, 2024 • 161
ST-MoE: Designing Stable and Transferable Sparse Expert Models

Paper • 2202.08906 • Published Feb 17, 2022 • 3
Gemma 3 Technical Report

Paper • 2503.19786 • Published Mar 25, 2025 • 57
Scaling Vision Transformers to 22 Billion Parameters

Paper • 2302.05442 • Published Feb 10, 2023 • 2
GLU Variants Improve Transformer

Paper • 2002.05202 • Published Feb 12, 2020 • 5
Gemma 2: Improving Open Language Models at a Practical Size

Paper • 2408.00118 • Published Jul 31, 2024 • 79
Effective Approaches to Attention-based Neural Machine Translation

Paper • 1508.04025 • Published Aug 17, 2015 • 3
Longformer: The Long-Document Transformer

Paper • 2004.05150 • Published Apr 10, 2020 • 4
The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31, 2024 • 119
Root Mean Square Layer Normalization

Paper • 1910.07467 • Published Oct 16, 2019 • 2
Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning

Paper • 1702.03118 • Published Feb 10, 2017
Language Modeling with Gated Convolutional Networks

Paper • 1612.08083 • Published Dec 23, 2016
Searching for Activation Functions

Paper • 1710.05941 • Published Oct 16, 2017 • 1
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Paper • 2305.13245 • Published May 22, 2023 • 6
RoFormer: Enhanced Transformer with Rotary Position Embedding

Paper • 2104.09864 • Published Apr 20, 2021 • 17
YaRN: Efficient Context Window Extension of Large Language Models

Paper • 2309.00071 • Published Aug 31, 2023 • 85
Layer Normalization

Paper • 1607.06450 • Published Jul 21, 2016 • 4
Gaussian Error Linear Units (GELUs)

Paper • 1606.08415 • Published Jun 27, 2016
Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 122
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 20

Upvote

Collection guide
Browse collections