Fix encoding of multiple preceding spaces in BPE tokenizer. (#945)

* Fix encoding of multiple preceding spaces in BPE tokenizer. * Add test --------- Co-authored-by: rasbt <mail@sebastianraschka.com>
2026-04-10 12:33:42 +00:00 · 2026-01-10 11:27:23 -05:00
parent 90e0f3cc15
commit e0dbec3331
2 changed files with 13 additions and 2 deletions
--- a/ch02/05_bpe-from-scratch/bpe-from-scratch.ipynb
+++ b/ch02/05_bpe-from-scratch/bpe-from-scratch.ipynb
@@ -609,9 +609,9 @@
    "                else:\n",
    "                    word = m.group(2)\n",
    "                    if pending_spaces > 0:\n",
    "                        tokens.append(\"Ġ\" + word) # one leading space\n",
    "                        for _ in range(pending_spaces - 1):\n",
    "                            tokens.append(\"Ġ\")  # remaining spaces as standalone\n",
    "                        tokens.append(\"Ġ\" + word) # one leading space\n",
    "                        pending_spaces = 0\n",
    "                    else:\n",
    "                        tokens.append(word)\n",
--- a/ch02/05_bpe-from-scratch/tests.py
+++ b/ch02/05_bpe-from-scratch/tests.py
@@ -239,3 +239,14 @@ def test_space_newline_space_patterns(imported_module, gpt2_files):
    ]
    for s in samples:
        assert tok.encode(s) == tik.encode(s), f"Mismatch vs tiktoken: {repr(s)}"
 def test_multiple_leading_spaces_roundtrip(imported_module, gpt2_files):
    BPETokenizerSimple = getattr(imported_module, "BPETokenizerSimple", None)
    tok = BPETokenizerSimple()
    tok.load_vocab_and_merges_from_openai(
        vocab_path=gpt2_files["encoder.json"], bpe_merges_path=gpt2_files["vocab.bpe"]
    )
    text = "  Hello World."
    assert tok.decode(tok.encode(text)) == text