Tri Dao

Tri Dao

researcher

author at FlashAttention

USA

LLM Systems. author at FlashAttention.

@tri_dao OpenAlex

16 papers found

Long-Context State-Space Video World Models

arXiv (Cornell University)2025

DOI arXiv OpenAlex

Log-Linear Attention

arXiv (Cornell University)2025

DOI arXiv OpenAlex

Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners

arXiv (Cornell University)2025

DOI arXiv OpenAlex

Hardware-Efficient Attention for Fast Decoding

arXiv (Cornell University)2025

DOI arXiv OpenAlex

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

arXiv (Cornell University)2025

DOI arXiv OpenAlex

Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining

arXiv (Cornell University)2025

DOI arXiv OpenAlex

HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model

arXiv (Cornell University)20255 citations

DOI arXiv OpenAlex

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

arXiv (Cornell University)202411 citations

DOI arXiv OpenAlex

Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers

20246 citations

Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

PubMed202448 citations

DOI arXiv OpenAlex

An Empirical Study of Mamba-based Language Models

arXiv (Cornell University)20249 citations

DOI arXiv OpenAlex

RedPajama: an Open Dataset for Training Large Language Models

20241 citations

Effectively Modeling Time Series with Simple Discrete State Spaces

arXiv (Cornell University)202313 citations

DOI arXiv OpenAlex

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

arXiv (Cornell University)2023952 citations

DOI arXiv OpenAlex

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

arXiv (Cornell University)2023139 citations

DOI arXiv OpenAlex

Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time

arXiv (Cornell University)202319 citations

DOI arXiv OpenAlex