LLM Course documentation
Tokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!
0. စတင်ပြင်ဆင်ခြင်း
1. Transformer models များ
2. 🤗 Transformers ကို အသုံးပြုခြင်း
3. Pretrained Model တစ်ခုကို Fine-tuning လုပ်ခြင်း
4. Models နှင့် Tokenizers များကို မျှဝေခြင်း
5. The 🤗 Datasets library
6. The 🤗 Tokenizers library
နိဒါန်းOld Tokenizer တစ်ခုမှ New Tokenizer တစ်ခုကို Training လုပ်ခြင်းFast Tokenizers များ၏ ထူးခြားသော စွမ်းအားများQA Pipeline ရှိ Fast Tokenizers များNormalization နှင့် Pre-tokenizationByte-Pair Encoding TokenizationWordPiece TokenizationUnigram TokenizationTokenizer တစ်ခုကို Block အလိုက် တည်ဆောက်ခြင်းTokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!အခန်း (၆) ဆိုင်ရာ မေးခွန်းများ
7. Classical NLP Tasks များ
8. အကူအညီတောင်းခံနည်း
9. Demos များ တည်ဆောက်ခြင်းနှင့် မျှဝေခြင်း
10. အရည်အသွေးမြင့် Datasets များကို စုစည်းခြင်း
11. Large Language Models များကို Fine-tune လုပ်ခြင်း
12. Reasoning Models များ တည်ဆောက်ခြင်း new
သင်တန်း ဆိုင်ရာ အခမ်းအနားများ
Tokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ!
ဒီအခန်းကို ပြီးဆုံးအောင် လေ့လာနိုင်ခဲ့တဲ့အတွက် ဂုဏ်ယူပါတယ်။
tokenizers တွေအကြောင်း နက်နက်နဲနဲ လေ့လာပြီးနောက်၊ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်သင့်ပါတယ်…
- tokenizer အဟောင်းတစ်ခုကို template အဖြစ် အသုံးပြုပြီး tokenizer အသစ်တစ်ခုကို train လုပ်နိုင်ခြင်း။
- tokens တွေရဲ့ positions တွေကို ၎င်းတို့ရဲ့ မူရင်း text span တွေနဲ့ map လုပ်ဖို့ offsets တွေကို ဘယ်လိုအသုံးပြုရမယ်ဆိုတာ နားလည်ခြင်း။
- BPE, WordPiece, နဲ့ Unigram တို့ကြားက ကွာခြားချက်တွေကို သိရှိခြင်း။
- 🤗 Tokenizers library က ပံ့ပိုးပေးထားတဲ့ blocks တွေကို ရောနှောပြီး သင့်ကိုယ်ပိုင် tokenizer ကို တည်ဆောက်နိုင်ခြင်း။
- အဲဒီ tokenizer ကို 🤗 Transformers library အတွင်းမှာ အသုံးပြုနိုင်ခြင်း။
ဝေါဟာရ ရှင်းလင်းချက် (Glossary)
- Tokenizer: စာသား (သို့မဟုတ် အခြားဒေတာ) ကို AI မော်ဒယ်များ စီမံဆောင်ရွက်နိုင်ရန် tokens တွေအဖြစ် ပိုင်းခြားပေးသည့် ကိရိယာ သို့မဟုတ် လုပ်ငန်းစဉ်။
- Train a New Tokenizer: အစကနေ သို့မဟုတ် လက်ရှိ tokenizer တစ်ခုကို အခြေခံ၍ စာသား corpus အသစ်တစ်ခုပေါ်တွင် tokenizer အသစ်တစ်ခုကို လေ့ကျင့်တည်ဆောက်ခြင်း။
- Template (Tokenizer): tokenizer အသစ်တစ်ခုကို တည်ဆောက်ရာတွင် အခြေခံအဖြစ် အသုံးပြုသော လက်ရှိ tokenizer။
- Offsets: token တစ်ခုစီသည် မူရင်းစာသား၏ မည်သည့်စတင်ခြင်းနှင့် အဆုံးသတ် character index များကြားတွင် ရှိနေသည်ကို ဖော်ပြသော map။
- Map Tokens’ Positions: tokens များ၏ အနေအထားများကို မူရင်းစာသားရှိ ၎င်းတို့၏ နေရာများနှင့် တွဲဖက်သတ်မှတ်ခြင်း။
- Original Span of Text: token တစ်ခု (သို့မဟုတ် အုပ်စု) ထွက်ပေါ်လာသော မူရင်းစာသားအပိုင်းအစ။
- BPE (Byte-Pair Encoding): Subword tokenization algorithm တစ်မျိုး။
- WordPiece: Subword tokenization algorithm တစ်မျိုး။
- Unigram: Subword tokenization algorithm တစ်မျိုး။
- 🤗 Tokenizers Library: Rust ဘာသာနဲ့ ရေးသားထားတဲ့ Hugging Face library တစ်ခုဖြစ်ပြီး မြန်ဆန်ထိရောက်တဲ့ tokenization ကို လုပ်ဆောင်ပေးသည်။
- Blocks (Tokenizer): Tokenizer တစ်ခု၏ ဖွဲ့စည်းပုံကို တည်ဆောက်ရန် အသုံးပြုနိုင်သော normalization, pre-tokenization, post-processing စသည့် အစိတ်အပိုင်းများ။
- 🤗 Transformers Library: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး Transformer မော်ဒယ်တွေကို အသုံးပြုပြီး Natural Language Processing (NLP), computer vision, audio processing စတဲ့ နယ်ပယ်တွေမှာ အဆင့်မြင့် AI မော်ဒယ်တွေကို တည်ဆောက်ပြီး အသုံးပြုနိုင်စေပါတယ်။