Bonus material: extending tokenizers (#496)

* Bonus material: extending tokenizers * small wording update
2026-04-10 12:33:42 +00:00 · 2025-01-22 09:26:54 -06:00
parent 9175590ea4
commit dcaac28b92
7 changed files with 1224 additions and 2 deletions
--- a/README.md
+++ b/README.md
@@ -120,6 +120,7 @@ Several folders contain optional materials as a bonus for interested readers:
  - [Converting GPT to Llama](ch05/07_gpt_to_llama)
  - [Llama 3.2 From Scratch](ch05/07_gpt_to_llama/standalone-llama32.ipynb)
  - [Memory-efficient Model Weight Loading](ch05/08_memory_efficient_weight_loading/memory-efficient-state-dict.ipynb)
+  - [Extending the Tiktoken BPE Tokenizer with New Tokens](ch05/09_extending-tokenizers/extend-tiktoken.ipynb)
 - **Chapter 6: Finetuning for classification**
  - [Additional experiments finetuning different layers and using larger models](ch06/02_bonus_additional-experiments)
  - [Finetuning different models on 50k IMDB movie review dataset](ch06/03_bonus_imdb-classification)