the_information_nexus/transformer_llm.md at efbad62c1fec48275e4ad32c6358859e11cf74a8

Files

medusa 843d0b055e Add tech_docs/llm/transformer_llm.md

2024-06-14 08:06:48 +00:00

3.3 KiB

Raw Blame History

When working with Transformers in libraries like Hugging Face's transformers, dictionaries and indices play crucial roles in handling data efficiently. Here's a concise explanation with rich context:

Dictionaries in Transformers

Tokenization:

Tokenizers convert text into tokens, outputting a dictionary with keys such as input_ids, attention_mask, and token_type_ids.

Example:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
inputs = tokenizer("Hello, how are you?", return_tensors="pt")
print(inputs)
# {'input_ids': tensor([[  101,  7592,  1010,  2129,  2024,  2017,   102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1]])}

Model Outputs:

Model outputs are often dictionaries containing elements like logits, hidden_states, and attentions.

Example:

from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
outputs = model(**inputs)
print(outputs)
# SequenceClassifierOutput(loss=None, logits=tensor([[0.2438, -0.1436]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)

Training and Configuration:

Training arguments and configurations are managed through dictionaries.

Example:

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
    output_dir='./results', num_train_epochs=3, per_device_train_batch_size=16,
    per_device_eval_batch_size=16, warmup_steps=500, weight_decay=0.01, logging_dir='./logs'
)

Indices in Transformers

Token Indices:

Each token is assigned a unique index. The tokenizer maps tokens to these indices.

Example:

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer.tokenize("Hello, how are you?")
token_indices = tokenizer.convert_tokens_to_ids(tokens)
print(token_indices)
# [7592, 1010, 2129, 2024, 2017, 102]

Positional Encoding:
- Positional indices are used to maintain the order of tokens in the sequence, crucial for the Transformer's attention mechanism.

Practical Example

Combining dictionaries and indices in a text classification task:

Tokenization:

from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
text = "Transformers are powerful models for NLP tasks."
inputs = tokenizer(text, return_tensors="pt")

Model Inference:

model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
outputs = model(**inputs)
logits = outputs.logits

Post-Processing:

import torch
predicted_class = torch.argmax(logits, dim=1).item()
print(f"Predicted class: {predicted_class}")

Summary

Dictionaries: Used for managing complex data (e.g., tokenized inputs, model outputs, configurations).
Indices: Used to represent tokens and positions, enabling efficient encoding and decoding.

Together, they facilitate the efficient processing and manipulation of text data in Transformer models.

3.3 KiB Raw Blame History

Dictionaries in Transformers

Indices in Transformers

Practical Example

Summary

3.3 KiB

Raw Blame History