Python é feito basicamente de dicionários cobertos por muitas camadas de açúcar sintático
pioneiro do nomadismo digital e pythonista
Usamos dicionários em todos os nossos programas Python.
Se não diretamente em nosso código, então indiretamente,
pois o tipo dict é um elemento fundamental da implementação de Python.
Atributos de classes e de instâncias,
espaços de nomes de módulos e argumentos nomeados de funções são alguns dos
elementos fundamentais de Python representados na memória por dicionários.
O __builtins__.__dict__ armazena todos os tipos, funções e objetos embutidos.
Por seu papel crucial, os dicts de Python são extremamente otimizados—e continuam recebendo melhorias. As tabelas de hash são o motor por trás do alto desempenho dos dicts de Python.
Outros tipos embutidos baseados em tabelas de hash são set e frozenset.
Eles oferecem uma API mais completa e operadores mais robustos que
os conjuntos que você pode ter encontrado em outras linguagens populares.
Em especial, os conjuntos de Python implementam todas as operações fundamentais da teoria dos conjuntos,
como união, interseção, testes de subconjuntos, etc.
Com eles, podemos expressar algoritmos de forma mais declarativa,
evitando o excesso de laços e condicionais aninhados.
Aqui está um breve esquema do capítulo:
-
A sintaxe moderna para criar e manipular
dictse mapeamentos, incluindo desempacotamento aumentado e casamento de padrões (pattern matching) -
Métodos comuns dos tipos de mapeamentos
-
Tratamento especial para chaves ausentes
-
Variantes de
dictna biblioteca padrão -
Os tipos
setefrozenset -
As implicações das tabelas de hash no comportamento de conjuntos e dicionários.
A maior parte das mudanças nessa segunda edição se concentra em novos recursos relacionados a tipos de mapeamento:
-
A A sintaxe moderna dos dicts fala da sintaxe aperfeiçoada de desempacotamento e de diferentes maneiras de mesclar mapeamentos—incluindo os operadores
|e|=, suportados pelosdictsdesde o Python 3.9. -
A Pattern matching com mapeamentos ilustra o manuseio de mapeamentos com
match/case, recurso que surgiu no Python 3.10. -
A collections.OrderedDict agora se concentra nas pequenas mas ainda relevantes diferenças entre
dicteOrderedDict—levando em conta que, desde o Python 3.6,dictpassou a manter a ordem de inserção das chaves. -
Novas seções sobre os objetos view devolvidos por
dict.keys,dict.items, edict.values: a Views de dicionários e a Operações de conjuntos em views de dict.
A implementação interna de dict e set ainda está alicerçada em tabelas de hash,
mas o código de dict teve duas otimizações importantes,
que economizam memória e preservam o ordem de inserção das chaves.
A Consequências práticas da forma como dict funciona e a Consequências práticas da forma de funcionamento dos conjuntos
resumem o que você precisa saber sobre isso para usar bem essas estruturas.
|
Note
|
Após acrescentar mais de 200 páginas a essa segunda edição, transferi a seção opcional "Internals of sets and dicts" (As entranhas dos sets e dos dicts) (EN) para o http://fluentpython.com, o site que complementa o livro. O post de 18 páginas (EN) foi atualizado e expandido, e inclui explicações e diagramas sobre:
|
As próximas seções descrevem
os recursos avançados de sintaxe para criação, desempacotamento e processamento de mapeamentos.
Alguns desses recursos não são novos na linguagem, mas podem ser novidade para você.
Outros requerem Python 3.9 (como o operador |) ou Python 3.10 (como match/case).
Vamos começar por um dos melhores e mais antigos desses recursos.
Desde Python 2.7, a sintaxe das listcomps e genexps foi adaptada para compreensões de dict
(e também compreensões de set, que veremos em breve).
Uma dictcomp (compreensão de dict) cria uma instância de dict, recebendo pares key:value de qualquer iterável.
O Exemplos de compreensões de dict mostra o uso de compreensões de dict para criar dois dicionários a partir de uma mesma lista de tuplas.
dict>>> dial_codes = [ # (1)
... (880, 'Bangladesh'),
... (55, 'Brazil'),
... (86, 'China'),
... (91, 'India'),
... (62, 'Indonesia'),
... (81, 'Japan'),
... (234, 'Nigeria'),
... (92, 'Pakistan'),
... (7, 'Russia'),
... (1, 'United States'),
... ]
>>> country_dial = {country: code for code, country in dial_codes} # (2)
>>> country_dial
{'Bangladesh': 880, 'Brazil': 55, 'China': 86, 'India': 91, 'Indonesia': 62,
'Japan': 81, 'Nigeria': 234, 'Pakistan': 92, 'Russia': 7, 'United States': 1}
>>> {code: country.upper() # (3)
... for country, code in sorted(country_dial.items())
... if code < 70}
{55: 'BRAZIL', 62: 'INDONESIA', 7: 'RUSSIA', 1: 'UNITED STATES'}-
Um iterável de pares chave-valor como
dial_codespode ser passado diretamente para o construtor dedict, mas… -
…aqui permutamos os pares:
countryé a chave, ecodeé o valor. -
Ordenando
country_dialpor nome, revertendo novamente os pares, colocando os valores em maiúsculas e filtrando os itens comcode < 70.
Se você já usa listcomps, as dictcomps são um próximo passo natural. Caso contrário, a propagação da sintaxe de compreensão mostra que agora é mais valioso que nunca se tornar fluente nessa técnica.
A PEP 448—Additional Unpacking Generalizations (Generalizações de Desempacotamento Adicionais) melhorou o suporte ao desempacotamento de mapeamentos de duas formas, desde o Python 3.5.
Primeiro, podemos
aplicar ** a mais de um argumento em uma chamada de função.
Isso funciona quando todas as chaves são strings e únicas,
para todos os argumentos (porque argumentos nomeados duplicados são proibidos):
>>> def dump(**kwargs):
... return kwargs
...
>>> dump(**{'x': 1}, y=2, **{'z': 3})
{'x': 1, 'y': 2, 'z': 3}Em segundo lugar, ** pode ser usado dentro de um literal dict—também múltiplas vezes:
>>> {'a': 0, **{'x': 1}, 'y': 2, **{'z': 3, 'x': 4}}
{'a': 0, 'x': 4, 'y': 2, 'z': 3}Nesse caso, chaves duplicadas são permitidas.
Cada ocorrência sobrescreve ocorrências anteriores—observe o valor mapeado para x no exemplo.
Essa sintaxe também pode ser usada para mesclar mapas, mas isso pode ser feito de outras formas. Siga comigo.
Desde a versão 3.9, Python
suporta o uso de | e |= para mesclar mapeamentos.
Isso faz todo sentido,
já que estes são também os operadores de união de conjuntos.
O operador | cria um novo mapeamento:
>>> d1 = {'a': 1, 'b': 3}
>>> d2 = {'a': 2, 'b': 4, 'c': 6}
>>> d1 | d2
{'a': 2, 'b': 4, 'c': 6}O tipo do novo mapeamento normalmente será o mesmo do operando da esquerda—no exemplo,
d1—mas ele pode ser do tipo do segundo operando se tipos definidos pelo usuário estiverem envolvidos na operação,
dependendo das regras de sobrecarga de operadores, que exploraremos no [ch_op_overload].
Para atualizar mapeamentos existentes internamente, use |=.
Retomando o exemplo anterior, ali d1 não foi modificado.
Mas aqui sim:
>>> d1
{'a': 1, 'b': 3}
>>> d1 |= d2
>>> d1
{'a': 2, 'b': 4, 'c': 6}|
Tip
|
Se você precisa manter código rodando no Python 3.8 ou anterior, a seção "Motivation" (Motivação) (EN) da PEP 584—Add Union Operators To dict (Acrescentar Operadores de União a dict) (EN) inclui um bom resumo das outras formas de mesclar mapeamentos. |
Agora vamos ver como o casamento de padrões se aplica aos mapeamentos.
A
instrução match/case suporta sujeitos que sejam objetos mapeamento.
Padrões para mapeamentos se parecem com literais dict,
mas podem casar com instâncias de qualquer subclasse real ou virtual de collections.abc.Mapping.[1]
No [ch_sequences] nos concentramos apenas nos padrões de sequência,
mas tipos diferentes de padrões podem ser combinados e aninhados.
Graças à desestruturação, o casamento de padrões é uma ferramenta poderosa para
processar registros estruturados como sequências e mapeamentos aninhados,
que frequentemente precisamos ler de APIs JSON ou bancos de dados
que suportam registros ou campos semi-estruturados,
como o MongoDB, o EdgeDB, ou o PostgreSQL.
O creator.py: get_creators() extrai o nome dos criadores em registros de mídia demonstra isso.
As dicas de tipo simples em get_creators tornam claro que ela recebe um dict e devolve uma list.
get_creators() extrai o nome dos criadores em registros de mídialink:../code/03-dict-set/py3.10/creator.py[role=include]-
Casa com qualquer mapeamento na forma
'type': 'book', 'api' :2, e uma chave'authors'mapeada para uma sequência. Devolve os itens da sequência, como uma novalist. -
Casa com qualquer mapeamento na forma
'type': 'book', 'api' :1, e uma chave'author'mapeada para qualquer objeto. Devolve aquele objeto dentro de umalist. -
Qualquer outro mapeamento na forma
'type': 'book'é inválido e gera umValueError. -
Casa qualquer mapeamento na forma
'type': 'movie'e uma chave'director'mapeada para um único objeto. Devolve o objeto dentro de umalist. -
Qualquer outro sujeito é inválido e gera um
ValueError.
O creator.py: get_creators() extrai o nome dos criadores em registros de mídia mostra algumas práticas úteis para lidar com dados semi-estruturados, como registros JSON:
-
Incluir um campo descrevendo o tipo de registro (por exemplo,
'type': 'movie') -
Incluir um campo identificando a versão do schema (por exemplo,
'api': 2'), para permitir evoluções futuras das APIs públicas. -
Ter cláusulas
casepara processar registros inválidos de um tipo específico (por exemplo,'book'), bem como umcasefinal para capturar tudo que tenha passado pelas condições anteriores.
Agora vamos ver como get_creators se comporta com alguns doctests concretos:
link:../code/03-dict-set/py3.10/creator.py[role=include]Observe que a ordem das chaves nos padrões é irrelevante, mesmo se o sujeito for um OrderedDict como b2.
Diferente de patterns de sequência, patterns de mapeamento funcionam com matches parciais.
Nos doctests, os sujeitos b1 e b2 incluem uma chave 'title',
que não aparece em nenhum padrão 'book', mas mesmo assim casam.
Não há necessidade de usar **extra para casar pares chave-valor adicionais,
mas se você quiser capturá-los como um dict, pode prefixar uma variável com **.
Ela precisa ser a última do padrão, e **_ é proibido, pois seria redundante.
Um exemplo simples:
>>> food = dict(category='ice cream', flavor='vanilla', cost=199)
>>> match food:
... case {'category': 'ice cream', **details}:
... print(f'Ice cream details: {details}')
...
Ice cream details: {'flavor': 'vanilla', 'cost': 199}Na Tratamento automático de chaves ausentes, vamos estudar o defaultdict e
outros mapeamentos onde buscas com chaves via __getitem__
(isto é, d[chave]) funcionam porque itens ausentes são criados na hora.
No contexto do casamento de padrões,
um match é bem sucedido apenas se o sujeito já tem as chaves necessárias no início do bloco match.
|
Tip
|
O tratamento automático de chaves ausentes não é acionado porque
o casamento de padrões sempre usa o método |
Vistas a sintaxe e a estrutura, vamos estudar a API dos mapeamentos.
O
módulo collections.abc contém as ABCs Mapping e MutableMapping,
descrevendo as interfaces de dict e de tipos similares.
Veja a Diagrama de classe simplificado para MutableMapping e suas superclasses de collections.abc (as setas de herança apontam das subclasses para as superclasses; nomes em itálico indicam classes e métodos abstratos.
A maior utilidade dessas ABCs é documentar e formalizar as interfaces padrão para os mapeamentos,
e servir e critério para testes com isinstance em código que precise suportar mapeamentos de forma geral:
>>> my_dict = {}
>>> isinstance(my_dict, abc.Mapping)
True
>>> isinstance(my_dict, abc.MutableMapping)
True|
Tip
|
Usar |
MutableMapping e suas superclasses de collections.abc (as setas de herança apontam das subclasses para as superclasses; nomes em itálico indicam classes e métodos abstratosPara implementar uma mapeamento customizado, é mais fácil estender collections.UserDict,
ou envolver um dict por composição, ao invés de criar uma subclasse dessas ABCs.
A classe collections.UserDict e todas as classes concretas de mapeamentos da biblioteca padrão
encapsulam o dict básico em suas implementações, que por sua vez é criado sobre uma tabela de hash.
Assim, todas elas compartilham a mesma limitação:
as chaves precisam ser hashable
(os valores não precisam ser hashable, só as chaves).
Se você precisa de uma recapitulação, a próxima seção explica isso.
Aqui está parte da definição de hashable, adaptado do Glossário de Python:
Um objeto é hashable se tem um código de hash que nunca muda durante seu ciclo de vida (precisa ter um método
__hash__) e pode ser comparado com outros objetos (precisa ter um método__eq__). Objetos hashable que são comparados como iguais devem ter o mesmo código de hash.[2]
Tipos numéricos e os tipos planos imutáveis str e bytes são todos hashable.
Tipos contêineres são hashable se forem imutáveis e se todos os objetos por eles contidos forem também hashable.
Um frozenset é sempre hashable, pois todos os elementos que ele contém devem ser, por definição, hashable.
Uma tuple é hashable apenas se todos os seus itens também forem.
Observe as tuplas tt, tl, e tf:
>>> tt = (1, 2, (30, 40))
>>> hash(tt)
8027212646858338501
>>> tl = (1, 2, [30, 40])
>>> hash(tl)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'list'
>>> tf = (1, 2, frozenset([30, 40]))
>>> hash(tf)
-4118419923444501110O código de hash de um objeto pode ser diferente dependendo da versão de Python, da arquitetura da máquina, e pelo sal acrescentado ao cálculo do hash por razões de segurança.[3] O código de hash de um objeto corretamente implementado tem a garantia de ser constante apenas dentro de um processo Python.
Tipos definidos pelo usuário são hashble por default, pois seu código de hash é seu id(), e o método __eq__()
herdado da classe objetct apenas compara os IDs dos objetos.
Se um objeto implementar seu próprio __eq__(), que leve em consideração seu estado interno,
ele será hashable apenas se seu __hash__() sempre devolver o mesmo código de hash.
Na prática, isso exige que __eq__() e __hash__() levem em conta apenas
atributos de instância que nunca mudem durante a vida do objeto.
Vamos agora revisar a API dos tipos de mapeamento mais comumente usado no Python: dict, defaultdict, e OrderedDict.
A
API básica para mapeamentos é bem completa.
A Métodos do tipos de mapeamento dict, collections.defaultdict, e collections.OrderedDict (métodos comuns de object omitidos por concisão); argumentos opcionais então entre […] mostra os métodos implementados por dict e pelas variantes mais usadas:
defaultdict e OrderedDict, ambas classes definidas no módulo collections.
dict, collections.defaultdict, e collections.OrderedDict (métodos comuns de object omitidos por concisão); argumentos opcionais então entre […]| dict | defaultdict | OrderedDict | ||
|---|---|---|---|---|
|
● |
● |
● |
Remove todos os itens. |
|
● |
● |
● |
|
|
● |
● |
● |
Cópia rasa |
|
● |
Suporte a |
||
|
● |
Invocável que |
||
|
● |
● |
● |
|
|
● |
● |
● |
Novo mapeamento com chaves no iterável |
|
● |
● |
● |
Obtém item com chave |
|
● |
● |
● |
d[k]—obtém item com chave |
|
● |
● |
● |
Obtém uma view dos itens—pares |
|
● |
● |
● |
Obtém iterador das chaves |
|
● |
● |
● |
Obtém view das chaves |
|
● |
● |
● |
|
|
● |
Chamado quando |
||
|
● |
Move |
||
|
● |
● |
● |
Suporte a |
|
● |
● |
● |
Suporte a |
|
● |
● |
● |
Remove e devolve valor em |
|
● |
● |
● |
Remove e devolve, na forma |
|
● |
● |
● |
Suporte a |
|
● |
● |
● |
Suporte a |
|
● |
● |
● |
Se |
|
● |
● |
● |
|
|
● |
● |
● |
Atualiza |
|
● |
● |
● |
Obtém uma view dos valores |
A forma como d.update(m) lida com seu primeiro argumento, m,
é um excelente exemplo de duck typing (tipagem pato):
ele primeiro verifica se m tem um método keys e, em caso afirmativo,
assume que m é um mapeamento.
Caso contrário, update() reverte para uma iteração sobre m,
presumindo que seus item são pares (chave, valor).
O construtor da maioria dos mapeamentos de Python usa internamente a lógica de update(),
o que quer dizer que eles podem ser inicializados por outros mapeamentos
ou a partir de qualquer objeto iterável que produza pares (chave, valor).
Um método sutil dos mapeamentos é setdefault().
Ele evita buscas redundantes de chaves quando precisamos atualizar o valor em um item no mesmo lugar.
A próxima seção mostra como ele pode ser usado.
Alinhada
à filosofia de falhar rápido de Python, a consulta a um dict com d[k] gera um erro quando k não é uma chave existente.
Pythonistas sabem que d.get(k, default) é uma alternativa a d[k] quando receber um valor default é
mais conveniente que tratar um KeyError.
Entretanto, se você está buscando um valor mutável e quer atualizá-lo, há um jeito melhor.
Considere um script para indexar texto, produzindo um mapeamento no qual cada chave é uma palavra,
e o valor é uma lista das posições onde aquela palavra ocorre, como mostrado no Saída parcial do [index0_ex] processando o texto "Zen of Python"; cada linha mostra uma palavra e uma lista de ocorrências na forma de pares (line_number, column_number) (número da linha, número da coluna)..
(line_number, column_number) (número da linha, número da coluna).$ python3 index0.py zen.txt
a [(19, 48), (20, 53)]
Although [(11, 1), (16, 1), (18, 1)]
ambiguity [(14, 16)]
and [(15, 23)]
are [(21, 12)]
aren [(10, 15)]
at [(16, 38)]
bad [(19, 50)]
be [(15, 14), (16, 27), (20, 50)]
beats [(11, 23)]
Beautiful [(3, 1)]
better [(3, 14), (4, 13), (5, 11), (6, 12), (7, 9), (8, 11), (17, 8), (18, 25)]
...O index0.py usa dict.get para obter e atualizar uma lista de ocorrências de palavras de um índice (uma solução melhor é apresentada no [index_ex]) é um script aquém do ideal, para mostrar um caso onde dict.get
não é a melhor maneira de lidar com uma chave ausente.
Ele foi adaptado de um exemplo de Alex Martelli.[7]
dict.get para obter e atualizar uma lista de ocorrências de palavras de um índice (uma solução melhor é apresentada no [index_ex])link:../code/03-dict-set/index0.py[role=include]-
Obtém a lista de ocorrências de
word, ou[]se a palavra não for encontrada. -
Acrescenta uma nova localização a
occurrences. -
Coloca a
occurrencesmodificada no dictindex; isso exige uma segunda busca emindex. -
Não estou chamando
str.upperno argumentokey=desorted, apenas passando uma referência àquele método, para que a funçãosortedpossa usá-lo para normalizar as palavras antes de ordená-las.[8]
As três linhas tratando de occurrences no index0.py usa dict.get para obter e atualizar uma lista de ocorrências de palavras de um índice (uma solução melhor é apresentada no [index_ex]) podem ser substituídas por uma única linha
usando dict.setdefault. O index.py usa dict.setdefault para obter e atualizar uma lista de ocorrências de uma palavra em uma única linha de código; compare com o [index0_ex] fica mais próximo do código apresentado por Alex Martelli.
dict.setdefault para obter e atualizar uma lista de ocorrências de uma palavra em uma única linha de código; compare com o [index0_ex]link:../code/03-dict-set/index.py[role=include]-
Obtém a lista de ocorrências de
word, ou a define como[], se não for encontrada;setdefaultdevolve o valor, então ele pode ser atualizado sem uma segunda busca.
Em outras palavras, o resultado final desta linha…
my_dict.setdefault(key, []).append(new_value)…é o mesmo que executar…
if key not in my_dict:
my_dict[key] = []
my_dict[key].append(new_value)…exceto que este último trecho de código executa pelo menos duas buscas por key—três se
a chave não for encontrada—enquanto setdefault faz tudo isso com uma única busca.
Uma questão relacionada, o tratamento de chaves ausentes em qualquer busca (e não apenas para inserção de valores), é o assunto da próxima seção.
Algumas vezes
é conveniente que os mapeamentos devolvam algum valor padronizado quando se busca por uma chave ausente.
Há duas abordagem principais para esse fim: uma é usar um defaultdict em vez de um dict simples.
A outra é criar uma subclasse de dict ou de qualquer outro tipo de mapeamento e acrescentar um método __missing__.
Vamos ver as duas soluções a seguir.
Uma instância de collections.defaultdict cria itens com um valor default sob demanda,
sempre que uma chave ausente é buscada usando a sintaxe d[k].
O index_default.py: usando um defaultdict em vez do método setdefault usa defaultdict para fornecer outra solução elegante para o índice de palavras do index.py usa dict.setdefault para obter e atualizar uma lista de ocorrências de uma palavra em uma única linha de código; compare com o [index0_ex].
Funciona assim: ao instanciar um defaultdict,
você fornece um invocável que produz um valor default sempre que __getitem__ recebe uma chave inexistente como argumento.
Por exemplo, dado um defaultdict criado por dd = defaultdict(list),
se 'new-key' não estiver em dd, a expressão dd['new-key'] segue os seguintes passos:
-
Chama
list()`para criar uma nova lista. -
Insere a lista em
ddusando'new-key'como chave. -
Devolve uma referência para aquela lista.
O invocável que produz os valores default é mantido em um atributo de instância chamado default_factory.
defaultdict em vez do método setdefaultlink:../code/03-dict-set/index_default.py[role=include]-
Cria um
defaultdictcom o construtor delistcomodefault_factory. -
Se
wordnão está inicialmente noindex, odefault_factoryé chamado para produzir o valor ausente, que neste caso é umalistvazia, que então é atribuída aindex[word]e devolvida, de forma que a operação.append(location)é sempre bem sucedida.
Se nenhum default_factory é fornecido, o KeyError usual é gerado para chaves ausente.
|
Warning
|
O |
O mecanismo que faz defaultdict funcionar, chamando default_factory,
é o método especial __missing__, apresentado a seguir.
Por trás da forma como os mapeamentos
lidam com chaves ausentes está o método muito apropriadamente chamado __missing__.[9]
Esse método não é definido na classe base dict, mas dict está ciente de sua possibilidade:
se você criar uma subclasse de dict e incluir um método __missing__, o dict.__getitem__
padrão vai chamar seu método sempre que uma chave não for encontrada, em vez de gerar um KeyError.
Suponha que você queira um mapeamento onde as chaves são convertidas para str quando são procuradas.
Um caso de uso concreto seria uma biblioteca para dispositivos IoT
(Internet of Things, Internet das Coisas)[10],
onde uma placa programável com portas genéricas programáveis (por exemplo, uma Raspberry Pi ou uma Arduino)
é representada por uma classe "Placa" com um atributo minha_placa.portas,
que é uma mapeamento dos identificadores das portas físicas para objetos de software portas.
O identificador da porta física pode ser um número ou uma string como "A0" ou "P9_12".
Por consistência, é desejável que todas as chaves em placa.portas seja strings,
mas também é conveniente buscar uma porta por número, como em meu-arduino.porta[13],
para evitar que iniciantes tropecem quando quiserem fazer piscar o LED na porta 13 de seus Arduinos.
O Ao buscar por uma chave não-string, StrKeyDict0 a converte para str quando ela não é encontrada mostra como tal mapeamento funcionaria.
StrKeyDict0 a converte para str quando ela não é encontradalink:../code/03-dict-set/strkeydict0.py[role=include]O StrKeyDict0 converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests]) implementa a classe StrKeyDict0, que passa nos doctests acima.
|
Tip
|
Uma forma melhor de criar uma mapeamento definido pelo usuário é criar uma subclasse de
|
StrKeyDict0 converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests])link:../code/03-dict-set/strkeydict0.py[role=include]-
StrKeyDict0herda dedict. -
Verifica se
keyjá é umastr. Se é, e está ausente, gera umKeyError. -
Cria uma
strdekeye a procura. -
O método
getdelega para__getitem__usando a notaçãoself[key]; isso dá oportunidade para nosso__missing__agir. -
Se um
KeyErrorfoi gerado,__missing__já falhou, então devolvemos odefault. -
Procura pela chave não-modificada (a instância pode conter chaves não-
str), depois por umastrcriada a partir da chave.
Considere por um momento o motivo do teste isinstance(key, str) ser necessário na implementação de __missing__.
Sem aquele teste, nosso método __missing__ funcionaria bem com qualquer chave k—str ou não—sempre que str(k)
produzisse uma chave existente.
Mas se str(k) não for uma chave existente, teríamos uma recursão infinita.
Na última linha de __missing__, self[str(key)] chamaria __getitem__,
passando aquela chave str, e __getitem__, por sua vez, chamaria
__missing__ novamente.
O método __contains__ também é necessário para que
o comportamento nesse exemplo seja consistente, pois a operação k in d o chama,
mas o método herdado de dict não invoca __missing__ com chaves ausentes.
Há um detalhe sutil em nossa implementação de __contains__:
não verificamos a existência da chave da forma pythônica normal—k in d—porque str(key) in self chamaria
__contains__ recursivamente.
Evitamos isso procurando a chave explicitamente em self.keys().
Uma busca como k in my_dict.keys() é eficiente em Python 3 mesmo para mapeamentos muito grandes,
porque dict.keys() devolve uma view, que é similar a um set, como veremos na Operações de conjuntos em views de dict.
Entretanto, lembre-se de que k in my_dict faz o mesmo trabalho,
e é mais rápido porque evita a busca nos atributos para encontrar o método .keys.
Eu tinha uma razão específica para usar self.keys() no método __contains__ do
StrKeyDict0 converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests]).
A verificação da chave não-modificada key in self.keys() é necessária por correção,
pois StrKeyDict0 não obriga todas as chaves no dicionário a serem do tipo str.
Nosso único objetivo com esse exemplo simples foi fazer a busca "mais amigável",
e não forçar tipos.
|
Warning
|
Classes definidas pelo usuário derivadas de mapeamentos da biblioteca padrão podem ou não usar
|
Considere os seguintes cenários, e como eles afetam a busca de chaves ausentes:
- subclasse de
dict -
Uma subclasse de
dictque implemente apenas__missing__e nenhum outro método. Nesse caso,__missing__pode ser chamado apenas emd[k], que usará o__getitem__herdado dedict. - subclasse de
collections.UserDict -
Da mesma forma, uma subclasse de
UserDictque implemente apenas__missing__e nenhum outro método. O métodogetherdado deUserDictchama__getitem__. Isso significa que__missing__pode ser chamado para tratar de consultas comd[k]e comd.get(k). - subclasse de
abc.Mappingcom o__getitem__mais simples possível -
Uma subclasse mínima de
abc.Mapping, implementando__missing__e os métodos abstratos obrigatórios, incluindo uma implementação de__getitem__que não chama__missing__. O método__missing__nunca é acionado nessa classe. - subclasse de
abc.Mappingcom__getitem__chamando__missing__ -
Uma subclasse mínima de
abc.Mapping, implementando__missing__e os métodos abstratos obrigatórios, incluindo uma implementação de__getitem__que chama__missing__. O método__missing__é acionado nessa classe para consultas por chaves ausentes feitas comd[k],d.get(k), ek in d.
Veja missing.py no repositório de exemplos de código para demonstrações dos cenários descritos acima.
Os quatro cenários que acabo de descrever supõem implementações mínimas.
Se a sua subclasse implementa __getitem__, get, e __contains__,
então você pode ou não fazer tais métodos usarem __missing__, dependendo de suas necessidades.
O ponto aqui é mostrar que é preciso ter cuidado ao criar subclasses dos mapeamentos da biblioteca padrão
para usar __missing__, porque as classes base suportam comportamentos default diferentes.
Não se esqueça que o comportamento de setdefault e update também é afetado pela consulta de chaves.
E por fim, dependendo da lógica de seu __missing__,
pode ser necessário implementar uma lógica especial em __setitem__,
para evitar inconsistências ou comportamentos surpreendentes.
Veremos um exemplo disso na Criando subclasses de UserDict em vez de dict.
Até aqui tratamos dos tipos de mapeamentos dict e defaultdict,
mas a biblioteca padrão traz outras implementações de mapeamentos,
que discutiremos a seguir.
Nessa seção falaremos brevemente sobre
os tipos de mapeamentos incluídos na biblioteca padrão diferentes de defaultdict, já visto na defaultdict: outra perspectiva sobre as chaves ausentes.
Agora que o dict embutido
também mantém as chaves ordenadas (desde o Python 3.6),
o motivo mais comum para usar OrderedDict é escrever código compatível com versões anteriores de Python.
Dito isso, a documentação lista algumas diferenças entre dict e OrderedDict que
ainda persistem e que cito aqui:
-
A operação de igualdade para
OrderedDictverifica a igualdade da ordenação. -
O método
popitem()deOrderedDicttem uma assinatura diferente, que aceita um argumento opcional especificando qual item será devolvido. -
OrderedDicttem um métodomove_to_end(), que reposiciona de um elemento para uma ponta do dicionário de forma eficiente. -
O
dictcomum foi projetado para ser muito bom nas operações de mapeamento. Preservar a ordem de inserção era uma preocupação secundária. -
OrderedDictfoi projetado para ser bom em operações de reordenamento. Eficiência espacial, velocidade de iteração e o desempenho de operações de atualização eram preocupações secundárias. -
Em termos do algoritmo, um
OrderedDictlida melhor que um dict com operações frequentes de reordenamento. Isso o torna adequado para monitorar acessos recentes (em um cache LRU[11], por exemplo).
Uma instância de ChainMap mantém
uma lista de mapeamentos que podem ser consultados como se fossem um mapeamento único.
A busca é realizada em cada mapa incluído, na ordem em que eles aparecem na chamada ao construtor,
e é bem sucedida assim que a chave é encontrada em um daqueles mapeamentos.
Por exemplo:
>>> d1 = dict(a=1, b=3)
>>> d2 = dict(a=2, b=4, c=6)
>>> from collections import ChainMap
>>> chain = ChainMap(d1, d2)
>>> chain['a']
1
>>> chain['c']
6A instância de ChainMap não cria cópias dos mapeamentos, mantém referências para eles.
Atualizações ou inserções a um ChainMap afetam apenas o primeiro mapeamento passado.
Continuando do exemplo anterior:
>>> chain['c'] = -1
>>> d1
{'a': 1, 'b': 3, 'c': -1}
>>> d2
{'a': 2, 'b': 4, 'c': 6}Um ChainMap é útil na implementação de linguagens com escopos aninhados,
onde cada mapeamento representa um contexto de escopo,
desde o escopo aninhado mais interno até o mais externo.
A seção
"Objetos ChainMap",
na documentação de collections, apresenta vários exemplos do uso de Chainmap,
incluindo esse trecho inspirado nas regras básicas de consulta de variáveis no Python:
import builtins
pylookup = ChainMap(locals(), globals(), vars(builtins))A [lispy_environ_sec] explica uma subclasse de ChainMap usada para implementar
um interpretador parcial da linguagem de programação Scheme.
Um mapeamento que mantém uma contagem para cada chave.
Atualizar uma chave existente adiciona à sua contagem.
Isso pode ser usado para contar instâncias de objetos hashable ou como um multiset (conjunto múltiplo),
discutido adiante nessa seção.
Counter implementa os operadores + e - para combinar contagens,
e outros métodos úteis tal como o most_common([n]),
que devolve uma lista ordenada de tuplas com os n itens mais comuns e suas contagens; veja a
documentação.
Aqui temos um Counter usado para contar as letras em palavras:
>>> ct = collections.Counter('abracadabra')
>>> ct
Counter({'a': 5, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
>>> ct.update('aaaaazzz')
>>> ct
Counter({'a': 10, 'z': 3, 'b': 2, 'r': 2, 'c': 1, 'd': 1})
>>> ct.most_common(3)
[('a', 10), ('z', 3), ('b', 2)]Observe que as chaves 'b' e 'r' estão empatadas em terceiro lugar, mas
ct.most_common(3) mostra apenas três contagens.
Para usar collections.Counter como um conjunto múltiplo, trate cada chave como um elemento de um conjunto,
e a contagem será o número de ocorrências daquele elemento no conjunto.
O módulo shelve
na biblioteca padrão fornece armazenamento persistente a um mapeamento de chaves
em formato string para objetos Python serializados no formato binário pickle.
O nome curioso, shelve, faz sentido quando você percebe que potes de pickle são armazenadas em
prateleiras.[12]
A função de módulo shelve.open devolve uma instância de shelve.Shelf—um banco de dados DBM simples de chave-valor,
baseado no módulo dbm, com as seguintes características:
-
shelve.Shelfé uma subclasse deabc.MutableMapping, então fornece os métodos essenciais esperados de um tipo mapeamento. -
Além disso,
shelve.Shelffornece alguns outros métodos de gerenciamento de E/S, comosynceclose. -
Uma instância de
Shelfé um gerenciador de contexto, então é possível usar um blocowithpara garantir que ela seja fechada após o uso. -
Chaves e valores são salvos sempre que um novo valor é atribuído a uma chave.
-
As chaves devem ser strings.
-
Os valores devem ser objetos que o módulo
picklepossa serializar.
A documentação para os módulos shelve, dbm (EN), e pickle traz mais detalhes e também algumas ressalvas.
|
Warning
|
O |
As classes OrderedDict, ChainMap, Counter, e Shelf podem ser usadas diretamente,
mas também podem ser customizadas por subclasses.
UserDict, por outro lado, foi planejada apenas como uma classe base a ser estendida.
É
melhor criar um novo tipo de mapeamento estendendo collections.UserDict em vez de dict.
Percebemos isso quando tentamos estender nosso StrKeyDict0 do StrKeyDict0 converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests])
para assegurar que qualquer chave adicionada ao mapeamento seja armazenada como str.
A principal razão pela qual é melhor criar uma subclasse de UserDict em vez de dict é
que o tipo embutido tem alguns atalhos de implementação,
que acabam nos obrigando a sobrescrever métodos que poderíamos apenas herdar de UserDict
sem maiores problemas.[13]
Observe que UserDict não herda de dict, mas usa uma composição:
a classe tem uma instância interna de dict, chamada data, que mantém os itens propriamente ditos.
Isso evita recursão indesejada quando escrevemos métodos especiais, como __setitem__,
e simplifica a programação de __contains__, quando comparado com o StrKeyDict0 converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests]).
Graças a UserDict, o StrKeyDict (StrKeyDict sempre converte chaves que não sejam strings para str na inserção, atualização e busca)
é mais conciso que o StrKeyDict0 (StrKeyDict0 converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests])), mais ainda faz melhor:
ele armazena todas as chaves como str,
evitando surpresas desagradáveis se a instância for criada ou atualizada com
dados contendo chaves de outros tipos (que não string).
StrKeyDict sempre converte chaves que não sejam strings para str na inserção, atualização e buscalink:../code/03-dict-set/strkeydict.py[role=include]-
StrKeyDictestendeUserDict. -
__missing__é exatamente igual ao doStrKeyDict0converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests]). -
__contains__é mais simples: podemos assumir que todas as chaves armazenadas sãostr, e podemos operar sobreself.dataem vez de invocarself.keys(), como fizemos emStrKeyDict0. -
__setitem__converte qualquerkeypara umastr. Esse método é mais fácil de sobrescrever quando podemos delegar para o atributoself.data.
Como UserDict estende abc.MutableMapping, o restante dos métodos que fazem de StrKeyDict
um mapeamento completo são herdados de UserDict, MutableMapping, ou Mapping.
Estes últimos contém vários métodos concretos úteis, apesar de serem classes base abstratas (ABCs).
Os seguinte métodos são dignos de nota:
MutableMapping.update-
Esse método poderoso pode ser chamado diretamente, mas também é usado por
__init__para criar a instância a partir de outros mapeamentos, de iteráveis de pares(chave, valor), e de argumentos nomeados. Como usaself[chave] = valorpara adicionar itens, ele termina por invocar nossa implementação de__setitem__. Mapping.get-
No
StrKeyDict0(StrKeyDict0converte chaves não-string para string no momento da consulta (vejas os testes no [ex_strkeydict0_tests])), precisamos codificar nosso própriogetpara devolver os mesmos resultados de__getitem__, mas noStrKeyDictsempre converte chaves que não sejam strings parastrna inserção, atualização e busca herdamosMapping.get, que é implementado exatamente comoStrKeyDict0.get(consulte o código-fonte de Python).
|
Tip
|
Antoine Pitrou escreveu a
PEP 455—Adding a key-transforming dictionary to collections
(Acrescentando um dicionário com transformação de chaves a collections)
(EN) e um patch para aperfeiçoar o módulo |
Sabemos que existem tipos de sequências imutáveis, mas e mapeamentos imutáveis? Não existe um tipo real desses na biblioteca padrão, mas um substituto está disponível. É o que vem a seguir.
Os
tipos de mapeamentos disponíveis na biblioteca padrão são todos mutáveis,
mas pode ser desejável impedir que os usuários mudem um mapeamento por acidente.
Um caso de uso concreto pode ser encontrado, novamente, em uma biblioteca de programação de hardware como
a Pingo, mencionada na O método __missing__:
o mapeamento board.pins representa as portas de GPIO (General Purpose Input/Output, Entrada/Saída Genérica)
em um dispositivo.
Dessa forma, seria útil evitar atualizações descuidadas de board.pins,
pois o hardware não pode ser modificado via software:
qualquer mudança no mapeamento o tornaria inconsistente com a realidade física do dispositivo.
O módulo types oferece uma classe invólucro (wrapper) chamada MappingProxyType que,
dado um mapeamento, devolve uma instância de mappingproxy,
que é um proxy somente para leitura (mas dinâmico) do mapeamento original.
Isso significa que atualizações ao mapeamento original são refletidas no mappingproxy,
mas nenhuma mudança pode ser feita através desse último.
Veja uma breve demonstração no MappingProxyType cria uma instância somente de leitura de mappingproxy a partir de um dict.
MappingProxyType cria uma instância somente de leitura de mappingproxy a partir de um dict>>> from types import MappingProxyType
>>> d = {1: 'A'}
>>> d_proxy = MappingProxyType(d)
>>> d_proxy
mappingproxy({1: 'A'})
>>> d_proxy[1] (1)
'A'
>>> d_proxy[2] = 'x' (2)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'mappingproxy' object does not support item assignment
>>> d[2] = 'B'
>>> d_proxy (3)
mappingproxy({1: 'A', 2: 'B'})
>>> d_proxy[2]
'B'
>>>-
Os items em
dpodem ser vistos através ded_proxy. -
Não é possível fazer modificações através de
d_proxy. -
d_proxyé dinâmica: qualquer mudança emdé refletida ali.
Isso pode ser usado assim na prática, no cenário da programação de hardware:
o construtor em uma subclasse concreta Board preencheria um mapeamento privado com os objetos porta,
e o exporia aos clientes da API via um atributo público .portas, implementado como um mappingproxy.
Dessa forma os clientes não poderiam acrescentar, remover ou modificar as portas por acidente.
A seguir estudaremos views—que permitem operações de alto desempenho em um dict, sem cópias desnecessárias dos dados.
Objetos dict implementam os métodos
.keys(), .values(), e .items(), que devolvem instâncias de classes chamadas
dict_keys, dict_values, e dict_items, respectivamente.
Essas views de dicionário são projeções somente para leitura de estruturas de dados internas
usadas na implementação de dict.
Elas evitam o uso de memória adicional dos métodos equivalentes no Python 2,
que construiam listas, duplicando dados já presentes no dict.
E também substituem os métodos antigos que devolviam iteradores.
O O método .values() devolve uma view dos valores em um dict mostra algumas operações básicas suportadas por todas as views de dicionários.
.values() devolve uma view dos valores em um dict>>> d = dict(a=10, b=20, c=30)
>>> values = d.values()
>>> values
dict_values([10, 20, 30]) (1)
>>> len(values) (2)
3
>>> list(values) (3)
[10, 20, 30]
>>> reversed(values) (4)
<dict_reversevalueiterator object at 0x10e9e7310>
>>> values[0] (5)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: 'dict_values' object is not subscriptable-
O
reprde um objeto view mostra seu conteúdo. -
Podemos consultar a
lende uma view. -
Views são iteráveis, então é fácil criar listas a partir delas.
-
Views implementam
__reversed__, devolvendo um iterador customizado. -
Não é possível usar
[]para obter itens individuais de uma view.
Um objeto view é um proxy dinâmico.
Se o dict fonte é atualizado, as mudanças podem ser vistas imediatamente através de uma view existente.
Continuando do O método .values() devolve uma view dos valores em um dict:
>>> d['z'] = 99
>>> d
{'a': 10, 'b': 20, 'c': 30, 'z': 99}
>>> values
dict_values([10, 20, 30, 99])As classes dict_keys, dict_values, e dict_items são internas:
elas não estão disponíveis via __builtins__ ou qualquer módulo da biblioteca padrão,
e mesmo que você obtenha uma referência para uma delas,
não pode usar essa referência para criar uma view do zero no seu código Python:
>>> values_class = type({}.values())
>>> v = values_class()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: cannot create 'dict_values' instancesA classe dict_values é a view de dicionário mais simples—ela implementa apenas os métodos especiais
__len__, __iter__, e __reversed__.
Além desses métodos, dict_keys e dict_items implementam vários métodos dos sets,
quase tantos quanto a classe frozenset.
Após vermos os conjuntos, voltaremos a estudar dict_keys e dict_items,
na Operações de conjuntos em views de dict.
Agora vamos ver algumas regras e dicas baseadas na forma como dict é
implementado debaixo dos panos.
A implementação da tabela de hash do
dict de Python é muito eficiente, mas é importante entender os efeitos práticos desse design:
-
Chaves devem ser objetos hashable. Eles devem implementar métodos
__hash__e__eq__apropriados, como descrito na O que é hashable?. -
O acesso aos itens através da chave é muito rápido. Mesmo que um
dicttenha milhões de chaves, Python pode localizar uma chave diretamente, computando o código hash da chave e derivando um deslocamento do índice na tabela de hash, com um possível ônus de um pequeno número de tentativas até encontrar a entrada correspondente. -
A ordenação das chaves é preservada, como efeito colateral de um layout de memória mais compacto para
dictno CPython 3.6, que se tornou um recurso oficial da linguagem no 3.7. -
Apesar de seu novo layout compacto, os dicts apresentam, inevitavelmente, um uso adicional significativo de memória. A estrutura de dados interna mais compacta para um contêiner seria um array de ponteiros para os itens.[14] Comparado a isso, uma tabela de hash precisa armazenar mais dados para cada entrada e, para manter a eficiência, Python precisa manter pelo menos um terço das linhas da tabela de hash vazias.
-
Para economizar memória, evite criar atributos de instância fora do método
__init__.
Essa última dica, sobre atributos de instância, é consequência do comportamento default de Python,
de armazenar atributos de instância em um atributo __dict__ especial,
que é um dict vinculado a cada instância.[15]
Desde a implementação da
PEP 412—Key-Sharing Dictionary (Dicionário de Compartilhamento de Chaves) (EN),
no Python 3.3, instâncias de uma classe podem compartilhar uma tabela de hash comum, armazenada com a classe.
Essa tabela de hash comum é compartilhada pelo __dict__ de cada nova instância que,
quando __init__ retorna, tenha os mesmos nomes de atributos que a primeira instância a ser criada naquela classe.
O __dict__ de cada instância então pode manter apenas seus próprios valores de atributos como
um array de ponteiros.
Acrescentar um atributo de instância após o __init__ obriga Python a criar uma nova tabela de hash
só para o __dict__ daquela instância (que era o comportamento default antes de Python 3.3).
De acordo com a PEP 412, essa otimização reduz o uso da memória entre 10% e 20% em programas orientados as objetos.
Os detalhes das otimizações do layout compacto e do compartilhamento de chaves são bastante complexos.
Para saber mais, leia "Internals of sets and dicts" (EN).
Agora vamos estudar conjuntos.
Conjuntos
não são novidade no Python, mais ainda são um tanto subutilizados.
O tipo set e seu irmão imutável, frozenset,
surgiram inicialmente como módulos na biblioteca padrão de Python 2.3,
e foram promovidos a tipos embutidos no Python 2.6.
|
Note
|
Nesse livro, uso a palavra "conjunto" para me referir tanto a |
Um conjunto é uma coleção de objetos únicos. Uma grande utilidade dos conjuntos é descartar itens duplicados:
>>> l = ['spam', 'spam', 'eggs', 'spam', 'bacon', 'eggs']
>>> set(l)
{'eggs', 'spam', 'bacon'}
>>> list(set(l))
['eggs', 'spam', 'bacon']|
Tip
|
Para remover elementos duplicados preservando a ordem da primeira ocorrência de cada item,
você pode fazer isso com um >>> dict.fromkeys(l).keys()
dict_keys(['spam', 'eggs', 'bacon'])
>>> list(dict.fromkeys(l).keys())
['spam', 'eggs', 'bacon'] |
Elementos de um conjunto devem ser hashable.
O tipo set não é hashable, então não é possível criar um set com instâncias aninhadas de set.
Mas frozenset é hashable, então você pode ter instâncias de frozenset dentro de um set.
Além de garantir que cada elemento é único,
os tipos conjunto implementam muitas operações entre conjuntos como operadores infixos.
Assim, dados dois conjuntos a e b, a | b devolve sua união,
a & b calcula a interseção, a - b a diferença, e a ^ b a diferença simétrica.
Quando bem utilizadas,
as operações de conjuntos podem reduzir tanto a contagem de linhas quanto o tempo de execução de programas Python,
ao mesmo tempo em que tornam o código mais legível e
mais fácil de entender—pela remoção de laços e lógica condicional.
Por exemplo, imagine que você tem um grande conjunto de endereços de e-mail (o "palheiro"—haystack)
e um conjunto menor de endereços (as "agulhas"—needles`),
e precisa contar quantas agulhas existem no palheiro.
Graças à interseção de set (o operador &),
é possível codar isso em uma expressão simples (veja o Conta as ocorrências de agulhas (needles) em um palheiro (haystack), ambos do tipo set).
found = len(needles & haystack)Sem o operador de interseção, seria necessário escrever o Conta as ocorrências de agulhas (needles) em um palheiro (haystack); mesmo resultado final do [ex_set_ops_ex] para realizar a mesma tarefa executa pelo Conta as ocorrências de agulhas (needles) em um palheiro (haystack), ambos do tipo set.
found = 0
for n in needles:
if n in haystack:
found += 1O Conta as ocorrências de agulhas (needles) em um palheiro (haystack), ambos do tipo set é um pouco mais rápido que o Conta as ocorrências de agulhas (needles) em um palheiro (haystack); mesmo resultado final do [ex_set_ops_ex].
Por outro lado, o Conta as ocorrências de agulhas (needles) em um palheiro (haystack); mesmo resultado final do [ex_set_ops_ex] funciona para quaisquer objetos iteráveis needles e haystack,
enquanto o Conta as ocorrências de agulhas (needles) em um palheiro (haystack), ambos do tipo set exige que ambos sejam conjuntos.
Mas se você não tem conjuntos à mão, pode sempre criá-los na hora, como mostra o Conta as ocorrências de agulhas (needles) em um palheiro (haystack); essas linhas funcionam para qualquer tipo iterável.
found = len(set(needles) & set(haystack))
# another way:
found = len(set(needles).intersection(haystack))Claro, há o custo extra envolvido na criação dos conjuntos no Conta as ocorrências de agulhas (needles) em um palheiro (haystack); essas linhas funcionam para qualquer tipo iterável,
mas se ou as needles ou o haystack já forem um set,
a alternativa no Conta as ocorrências de agulhas (needles) em um palheiro (haystack); essas linhas funcionam para qualquer tipo iterável pode ser mais barata que o Conta as ocorrências de agulhas (needles) em um palheiro (haystack); mesmo resultado final do [ex_set_ops_ex].
Qualquer dos exemplos acima é capaz de buscar 1000 elementos em um haystack de 10 milhões
de itens em cerca de 0,3 milissegundos—isso é cerca de 0,3 microsegundos por elemento.
Além do teste de existência extremamente rápido (graças à tabela de hash),
os tipos embutidos set e frozenset oferecem uma rica API para criar novos conjuntos ou,
no caso de set, para modificar conjuntos existentes.
Vamos discutir essas operações em breve, após uma observação sobre sintaxe.
A sintaxe de literais set—{1}, {1, 2}, etc.—parece
muito com a notação matemática, mas há uma importante exceção:
não há notação literal para o set vazio, então precisamos nos lembrar de escrever set().
|
Warning
|
Peculiaridade sintática
Para criar um |
No Python 3, a representação padrão dos sets como strings sempre usa a notação {…},
exceto para o conjunto vazio:
>>> s = {1}
>>> type(s)
<class 'set'>
>>> s
{1}
>>> s.pop()
1
>>> s
set()A sintaxe do set literal, como {1, 2, 3}, é mais rápida e mais legível que uma chamada ao construtor
(por exemplo, set([1, 2, 3])).
Essa última forma é mais lenta porque, para avaliá-la, Python precisa buscar o nome set para obter seu construtor,
daí criar uma lista e, finalmente, passá-la para o construtor.
Por outro lado, para processar um literal como {1, 2, 3},
o Python roda um bytecode especializado, BUILD_SET.[16]
Não há sintaxe especial para representar literais frozenset—eles só podem ser criados chamando seu construtor.
Sua representação padrão como string no Python 3 se parece com uma chamada ao construtor
de frozenset com um argumento set.
Observe a saída no console:
>>> frozenset(range(10))
frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9})E por falar em sintaxe, a ideia das listcomps foi adaptada para criar conjuntos também.
Compreensões de conjuntos (setcomps) apareceram há bastante tempo, no Python 2.7, junto com as dictcomps que vimos na Compreensões de dict. O Cria um conjunto de caracteres Latin-1 que tenham a palavra "SIGN" em seus nomes Unicode mostra procedimento.
>>> from unicodedata import name (1)
>>> {chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i),'')} (2)
{'§', '=', '¢', '#', '¤', '<', '¥', 'µ', '×', '$', '¶', '£', '©',
'°', '+', '÷', '±', '>', '¬', '®', '%'}-
Importa a função
namedeunicodedatapara obter os nomes dos caracteres. -
Cria um conjunto de caracteres com códigos entre 32 e 255 que contenham a palavra
'SIGN'em seus nomes.
A ordem da saída muda a cada processo Python, devido ao hash "salgado", mencionado na O que é hashable?.
Questões de sintaxe à parte, vamos considerar agora o comportamento dos conjuntos.
Os
tipos set e frozenset são ambos implementados com um tabela de hash.
Isso tem os seguintes efeitos:
-
Elementos de conjuntos precisam ser objetos hashable. Eles precisam implementar métodos
__hash__e__eq__adequados, como descrido na O que é hashable?. -
O teste de existência de um elemento é muito eficiente. Um conjunto pode ter milhões de elementos, mas um elemento pode ser localizado diretamente, computando o código hash da chave e derivando um deslocamento do índice, com o possível ônus de um pequeno número de tentativas até encontrar a entrada correspondente ou exaurir a busca.
-
Conjuntos usam mais memória que um array de ponteiros para seus elementos—que é uma estrutura mais compacta, porém menos eficientes para buscas quando seu tamanho cresce além de uns poucos elementos.
-
A ordem dos elementos depende da ordem de inserção, mas não de forma útil ou confiável. Se dois elementos são diferentes mas têm o mesmo código hash, sua posição depende de qual elemento foi inserido primeiro.
-
Acrescentar elementos a um conjunto muda a ordem dos elementos existentes. Isso ocorre porque o algoritmo se torna menos eficiente se a tabela de hash tiver mais de dois terços de ocupação, então Python pode mover e redimensionar a tabela conforme ela cresce. Quando isso acontece, os elementos são reinseridos e sua ordem relativa pode mudar.
Veja o post "Internals of sets and dicts" (EN) no http://fluentpython.com para mais detalhes.
Agora vamos revisar a vasta seleção de operações oferecidas pelos conjuntos.
A Diagrama de classes UML simplificado para MutableSet e suas superclasses em collections.abc (nomes em itálico são classes e métodos abstratos; métodos de operadores reversos foram omitidos por concisão). dá
uma visão geral dos métodos disponíveis em conjuntos mutáveis e imutáveis.
Muitos deles são métodos especiais que sobrecarregam operadores, como & e >=.
A Operações matemáticas com conjuntos: esses métodos produzem um novo conjunto ou atualizam o conjunto alvo internamente, se ele for mutável mostra os operadores matemáticos de conjuntos que tem
operadores ou métodos correspondentes no Python.
Note que alguns operadores e métodos realizam mudanças internas sobre o conjunto alvo
(por exemplo, &=, difference_update, etc.).
Tais operações não fazem sentido no mundo ideal dos conjuntos matemáticos,
e também não são implementadas em frozenset.
|
Tip
|
Os operadores infixos na Operações matemáticas com conjuntos: esses métodos produzem um novo conjunto ou atualizam o conjunto alvo internamente, se ele for mutável exigem que os dois operandos sejam conjuntos,
mas todos os outros métodos recebem um ou mais argumentos iteráveis.
Por exemplo, para produzir a união de quatro coleções, |
MutableSet e suas superclasses em collections.abc (nomes em itálico são classes e métodos abstratos; métodos de operadores reversos foram omitidos por concisão).| Math symbol | Python operator | Method | Description |
|---|---|---|---|
S ∩ Z |
|
|
interseção de |
|
|
Operador |
|
|
interseção de |
||
|
|
|
|
|
|
||
S ∪ Z |
|
|
União de |
|
|
|
|
|
União de |
||
|
|
|
|
|
|
||
S \ Z |
|
|
Complemento relativo ou diferença entre |
|
|
Operador |
|
|
Diferença entre |
||
|
|
|
|
|
|
||
S ∆ Z |
|
|
Diferença simétrica (o complemento da interseção |
|
|
Operador |
|
|
Complemento de |
||
|
|
|
|
|
|
A Operadores e métodos de comparação de conjuntos que devolvem um booleano lista predicados de conjuntos: operadores e métodos que devolvem True ou False.
| Math symbol | Python operator | Method | Description |
|---|---|---|---|
S ∩ Z = ∅ |
|
|
|
e ∈ S |
|
|
Elemento |
S ⊆ Z |
|
|
|
|
|
||
S ⊂ Z |
|
|
|
S ⊇ Z |
|
|
|
|
|
||
S ⊃ Z |
|
|
|
Além de operadores e métodos derivados da teoria matemática dos conjuntos, os tipos conjunto implementam outros métodos para tornar seu uso prático, resumidos na Métodos adicionais de conjuntos.
| set | frozenset | ||
|---|---|---|---|
|
● |
Adiciona elemento |
|
|
● |
Remove todos os elementos de |
|
|
● |
● |
Cópia rasa de |
|
● |
Remove elemento |
|
|
● |
● |
Obtém iterador de |
|
● |
● |
|
|
● |
Remove e devolve um elemento de |
|
|
● |
Remove elemento |
Isso encerra nossa visão geral dos recursos dos conjuntos.
Como prometido na Views de dicionários,
vamos agora ver como dois dos tipos de views de dicionários se comportam de forma muito similar
a um frozenset.
A Métodos implementados por frozenset, dict_keys, e dict_items mostra
como os objetos view devolvidos pelos métodos .keys() e .items()
de dict são notavelmente similares a um frozenset.
frozenset, dict_keys, e dict_items| frozenset | dict_keys | dict_items | Description | |
|---|---|---|---|---|
|
● |
● |
● |
|
|
● |
● |
● |
operador |
|
● |
● |
● |
|
|
● |
Cópia rasa de |
||
|
● |
Diferença entre |
||
|
● |
interseção de |
||
|
● |
● |
● |
|
|
● |
|
||
|
● |
|
||
|
● |
● |
● |
obtém iterador para |
|
● |
● |
● |
|
|
● |
● |
● |
|
|
● |
● |
● |
Operador |
|
● |
● |
Obtém iterador para |
|
|
● |
● |
● |
Operador |
|
● |
● |
● |
|
|
● |
Complemento de |
||
|
● |
União de |
||
|
● |
● |
● |
|
|
● |
● |
● |
Operador |
Especificamente, dict_keys e dict_items implementam os métodos especiais para suportar as poderosas operações de conjuntos
& (interseção), | (união), - (diferença), e ^ (diferença simétrica).
Por exemplo, usando & é fácil obter as chaves que aparecem em dois dicionários:
>>> d1 = dict(a=1, b=2, c=3, d=4)
>>> d2 = dict(b=20, d=40, e=50)
>>> d1.keys() & d2.keys()
{'b', 'd'}Observe que o valor devolvido por & é um set.
Melhor ainda: os operadores de conjuntos em views de dicionários são compatíveis com instâncias de set.
Veja isso:
>>> s = {'a', 'e', 'i'}
>>> d1.keys() & s
{'a'}
>>> d1.keys() | s
{'a', 'c', 'b', 'd', 'i', 'e'}|
Warning
|
Uma view obtida de Por outro lado, uma view devolvida por |
Usar operações de conjunto com views pode evitar a necessidade de muitos laços e ifs quando seu código precisa inspecionar o conteúdo de dicionários. Deixe a eficiente implementação de Python em C trabalhar para você!
Com isso, encerramos esse capítulo.
Dicionários são a pedra fundamental de Python.
Ao longo dos anos, a sintaxe literal familiar {k1: v1, k2: v2}
foi aperfeiçoada para suportar desempacotamento com ** e casamento de padrões, bem como com compreensões de dict.
Além do dict básico, a biblioteca padrão oferece mapeamentos práticos prontos para serem usados,
como o defaultdict, o ChainMap, e o Counter, todos definidos no módulo collections.
Com a nova implementação de dict, o OrderedDict não é mais tão útil quanto antes,
mas deve permanecer na biblioteca padrão para manter a compatibilidade
retroativa—e por suas características específicas ausentes em dict,
tal como a capacidade de levar em consideração o ordenamento das chaves em uma comparação ==.
Também no módulo collections está o UserDict, uma classe base fácil de usar na criação de mapeamentos customizados.
Dois métodos poderosos disponíveis na maioria dos mapeamentos são setdefault e update.
O método setdefault pode atualizar itens que mantenham valores mutáveis—por exemplo,
em um dict de valores list—evitando uma segunda busca pela mesma chave.
O método update permite inserir ou sobrescrever itens em massa a partir de qualquer outro mapeamento,
desde iteráveis que forneçam pares (chave, valor) até argumentos nomeados.
Os construtores de mapeamentos também usam update internamente,
permitindo que instâncias sejam inicializadas a partir de outros mapeamentos,
de iteráveis e de argumentos nomeados.
Desde Python 3.9 também podemos usar o operador |= para atualizar uma mapeamento e
o operador | para criar um novo mapeamento a partir a união de dois mapeamentos.
Um gancho elegante na API de mapeamento é o método __missing__,
que permite customizar o que acontece quando uma chave não é encontrada ao se usar a sintaxe d[k] syntax,
que invoca __getitem__.
O módulo collections.abc oferece as classes base abstratas Mapping e MutableMapping como interfaces padrão,
úteis para checagem de tipo durante a execução.
O MappingProxyType, do módulo types,
cria uma fachada imutável para um mapeamento que você precise proteger de modificações acidentais.
Existem também ABCs para Set e MutableSet.
Views de dicionários foram uma grande novidade no Python 3,
eliminando o uso desnecessário de memória dos métodos .keys(), .values(), e .items() de Python 2,
que criavam listas duplicando os dados na instância alvo de dict.
Além disso, as classes dict_keys e dict_items suportam os operadores e métodos mais úteis de frozenset.
Na documentação da Biblioteca Padrão de Python,
a seção
"collections—Tipos de dados de contêineres"
inclui exemplos e receitas práticas para vários tipos de mapeamentos.
O código-fonte do módulo, Lib/collections/__init__.py,
é uma excelente referência para qualquer um que deseje criar novos tipos de mapeamentos
ou entender a lógica dos tipos existentes.
O capítulo 1 do
Python Cookbook, 3rd ed. (O’Reilly),
de David Beazley e Brian K. Jones traz 20 receitas práticas e
perpicazes usando estruturas de dados—a maioria mostrando formas inteligentes de usar dict.
Greg Gandenberger defende a continuidade do uso de collections.OrderedDict,
com os argumentos de que "explícito é melhor que implícito," compatibilidade retroativa,
e o fato de algumas ferramentas e bibliotecas presumirem que a ordenação das chaves de um dict
é irrelevante—nesse post:
"Python Dictionaries Are Now Ordered.
Keep Using OrderedDict" (Os dicionários de Python agora são ordenados.
Continue a usar OrderedDict) (EN).
A PEP 3106—Revamping dict.keys(), .values() and .items() (Renovando dict.keys(), .values() e .items()) (EN) foi onde Guido van Rossum apresentou o recurso de views de dicionário para Python 3. No resumo, ele afirma que a ideia veio da Java Collections Framework.
O PyPy foi o primeiro interpretador Python a implementar a proposta de Raymond Hettinger para dicts compactos, e eles escreverem em seu blog sobre isso, em "Faster, more memory efficient and more ordered dictionaries on PyPy" (Dicionários mais rápidos, mais eficientes em termos de memória e mais ordenados no PyPy) (EN), reconhecendo que um layout similar foi adotado no PHP 7, como descrito em PHP’s new hashtable implementation (A nova implementação de tabelas de hash de PHP) (EN). É sempre muito bom quando criadores citam trabalhos anteriores de outros.
Na PyCon 2017, Brandon Rhodes apresentou
"The Dictionary Even Mightier" (O dicionário, ainda mais poderoso)
(EN), uma continuação de sua apresentação animada clássica
"The Mighty Dictionary" (O poderoso dicionário)
(EN)—incluindo colisões de hash animadas!
Outro vídeo atual mas mais aprofundado sobre o funcionamento interno do dict de Python é
"Modern Dictionaries" (Dicionários modernos) (EN) de Raymond Hettinger,
onde ele conta que após não conseguir convencer os mantenedores de Python sobre os dicts compactos,
ele persuadiu a equipe do PyPy, eles os adotaram, a ideia ganhou força, e finalmente foi
adicionada ao CPython 3.6 por INADA Naoki.
Para saber todos os detalhes,
dê uma olhada nos extensos comentários no código-fonte do CPython para
Objects/dictobject.c (EN) e no documento de design em
Objects/dictnotes.txt (EN).
A justificativa para a adição de conjuntos ao Python está documentada na
PEP 218—Adding a Built-In Set Object Type (Adicionando um objeto embutido de tipo conjunto).
Quando a PEP 218 foi aprovada, nenhuma sintaxe literal especial foi adotada para conjuntos.
Os literais set foram criados para Python 3 e implementados retroativamente no Python 2.7,
assim como as compreensões de dict e set.
Na PyCon 2019, apresentei
"Set Practice: learning from Python’s set types" (A Prática dos Conjuntos: aprendendo com os tipos conjunto de Python) (EN), (video),
descrevendo casos de uso de conjuntos em programas reais, falando sobre o design de sua API,
e sobre a implementação da uintset, uma classe de conjunto para elementos inteiros,
usando um vetor de bits ao invés de uma tabela de hash,
inspirada por um exemplo do capítulo 6 do excelente
The Go Programming Language (A Linguagem de Programação Go) (EN),
de Alan Donovan e Brian Kernighan (Addison-Wesley).
A revista Spectrum, do IEEE, tem um artigo sobre Hans Peter Luhn, um prolífico inventor que patenteou um conjunto de cartões interligados que permitiam selecionar receitas de coquetéis a partir dos ingredientes disponíveis, entre inúmeras outras invenções, incluindo… tabelas de hash! Veja "Hans Peter Luhn and the Birth of the Hashing Algorithm" (Hans Peter Luhn e o Nascimento do Algoritmo de Hash).
Açúcar sintático
Meu amigo Geraldo Cohen certa vez observou que Python é "simples e correto."
Puristas de linguagens de programação gostam de desprezar a sintaxe como algo desimportante.
Syntactic sugar causes cancer of the semicolon.[18]
A sintaxe é a interface de usuário de uma linguagem de programação, então tem muita importância na prática.
Antes de encontrar Python, fiz um pouco de programação para a Web usando Perl e PHP. A sintaxe para mapeamentos nessas linguagens é muito útil. Sinto muita falta dela quando tenho que usar Java ou C.
Uma boa sintaxe para mapeamentos literais é muito conveniente para configuração, para implementações guiadas por tabelas, e para conter dados para prototipagem e testes. Essa foi uma das lições que os projetistas do Go aprenderam com as linguagens dinâmicas. A falta de uma boa forma de expressar dados estruturados no código empurrou a comunidade Java a adotar o prolixo e excessivamente complexo XML como formato de dados.
JSON foi proposto como "The Fat-Free Alternative to XML" (A alternativa sem gordura ao XML) e se tornou um imenso sucesso, substituindo XML em vários contextos. Uma sintaxe concisa para listas e dicionários resulta em um excelente formato para troca de dados.
PHP e Ruby imitaram a sintaxe de hash do Perl, usando => para ligar chaves a valores.
JavaScript usa : como Python.
Por que usar dois caracteres, quando um já é legível o bastante?
O JSON veio de JavaScript, mas por acaso também é quase um subconjunto exato da sintaxe de Python.
O JSON é compatível com Python, exceto por usar true, false, e null em vez de True, False, e None.
Armin Ronacher tuitou que gosta de brincar com o espaço de nomes global de Python,
para acrescentar apelidos compatíveis com o JSON para o True, o False, e o None de Python,
pois daí ele pode colar trechos de JSON diretamente no console.
Sua ideia básica:
>>> true, false, null = True, False, None
>>> fruit = {
... "type": "banana",
... "avg_weight": 123.2,
... "edible_peel": false,
... "species": ["acuminata", "balbisiana", "paradisiaca"],
... "issues": null,
... }
>>> fruit
{'type': 'banana', 'avg_weight': 123.2, 'edible_peel': False,
'species': ['acuminata', 'balbisiana', 'paradisiaca'], 'issues': None}A sintaxe que todo mundo agora usa para trocar dados é a sintaxe de dict e list de Python.
Agora temos uma sintaxe agradável com a conveniência da preservação da ordem de inserção.
Simples e correto.
.register() de uma ABC, como explicado na [virtual_subclass_sec] Um tipo implementado através da API Python/C também serve, se tiver bit de marcação específico setado no header. Veja Py_TPFLAGS_MAPPING (EN).
default_factory não é um método, mas um atributo invocável definido pelo usuário quando um defaultdict é instanciado.
OrderedDict.popitem(last=False) remove o primeiro item inserido (FIFO). O argumento nomeado last não é suportado por dict ou defaultdict, pelo menos até Python 3.10b3.
dict.setdefault, como visto no nosso index.py usa dict.setdefault para obter e atualizar uma lista de ocorrências de uma palavra em uma única linha de código; compare com o [index0_ex].
pickles em shelves.
dict e de outros tipos embutidos é tratado na [subclass_builtin_woes_sec].
dis do módulo dis, e a use para inspecionar os bytecodes de um set literal—por exemplo dis('{1}')—e uma chamada ao construtor set—dis('set([1])')

