Васильев Сергей's picture

Васильев Сергей

miljones2024

·

AI & ML interests

None yet

Recent Activity

liked a model 2 days ago

tencent/Hy-MT2-1.8B

upvoted a paper 3 days ago

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

liked a dataset 5 days ago

wegrthj/l36l5h-v654-data

View all activity

Organizations

None yet

upvoted a paper 3 days ago

DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards

Paper • 2605.21467 • Published 7 days ago • 201

upvoted a paper 6 days ago

Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

Paper • 2605.11609 • Published 15 days ago • 191

upvoted a paper 12 days ago

Mean Mode Screaming: Mean--Variance Split Residuals for 1000-Layer Diffusion Transformers

Paper • 2605.06169 • Published 20 days ago • 229

upvoted a paper 15 days ago

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Paper • 2604.28075 • Published 27 days ago • 20

upvoted a paper 20 days ago

MolmoAct2: Action Reasoning Models for Real-world Deployment

Paper • 2605.02881 • Published 23 days ago • 341

upvoted a paper about 1 month ago

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Paper • 2604.20796 • Published Apr 22 • 242

upvoted 7 papers about 2 months ago

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Paper • 2604.02721 • Published Apr 3 • 630

Adam's Law: Textual Frequency Law on Large Language Models

Paper • 2604.02176 • Published Apr 2 • 504

AgentWatcher: A Rule-based Prompt Injection Monitor

Paper • 2604.01194 • Published Apr 1 • 3

CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

Paper • 2603.28032 • Published Mar 30 • 342

Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio

Paper • 2603.25926 • Published Mar 26 • 8

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Paper • 2603.19835 • Published Mar 20 • 351

AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Paper • 2603.22327 • Published Mar 20 • 10

upvoted 3 papers 2 months ago

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Paper • 2603.19235 • Published Mar 19 • 95

InCoder-32B: Code Foundation Model for Industrial Scenarios

Paper • 2603.16790 • Published Mar 17 • 311

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Paper • 2603.04597 • Published Mar 4 • 211

upvoted 2 papers 3 months ago

Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Paper • 2602.08354 • Published Feb 9 • 266

A Very Big Video Reasoning Suite

Paper • 2602.20159 • Published Feb 23 • 524