Ir para o conteúdo principal

LLM de 1,5 bits no iPhone: Por que a 'taxa de hardware' da Apple é uma barreira de receita, não de engenharia

  • Um LLM de 7 mil milhões de parâmetros, reduzido para 1,58 bits por peso, cabe confortavelmente em 1,2 GB de RAM. O iPhone 12 tem 4 GB.
  • A barreira imposta pela Apple para o Apple Intelligence é uma decisão comercial, não uma limitação técnica.
  • A tecnologia de quantização de 2026 permite que dispositivos mais antigos executem modelos poderosos com eficiência.

Veredito: Um LLM de 7 mil milhões de parâmetros, reduzido para 1,58 bits por peso, cabe confortavelmente em 1,2 GB de RAM. O iPhone 12 tem 4 GB. A barreira que a Apple cita — “o Apple Intelligence requer o A17 Pro ou posterior” — é um absurdo de engenharia em 2026.

Os números: Artigo BitNet b1.58 (Microsoft Research, 2024) → desempenho ao nível do LLaMA com 1/8 do tamanho do modelo. Recover-LoRA (Junho 2026) → a quantização de 2 bits recupera a precisão total através de fine-tuning de baixo ranking. Hybrid Gated Flow (Fevereiro 2026) → identifica o “Memory Wall” como a verdadeira restrição, não o processamento.

A jogada da Apple: Bloquear o Apple Intelligence no iPhone 15 e modelos anteriores. Forçar mais de 250 milhões de utilizadores a fazer um upgrade para capturar a experiência de Siri no dispositivo.

Estado atual: A barreira de hardware é uma barreira de receita. A engenharia está pronta. O lançamento não está.

Versão de 30 segundos: o que é um LLM de “1,5 bits” #

Quando um LLM corre no seu telemóvel, cada “peso” — cada ligação na rede neuronal — é normalmente um número que ocupa 16 bits (2 bytes) de memória. Um modelo de 7 mil milhões de parâmetros, do tamanho do LLaMA 2 7B da Meta, consome cerca de 14 GB em precisão de 16 bits. É por isso que a IA na nuvem é na nuvem: nenhum telemóvel tem 14 GB livres para um único modelo.

A quantização reduz cada peso para menos bits. Passar de 16 bits para 8 bits corta a memória para metade (7 GB). 4 bits corta novamente (3,5 GB). 2 bits reduz para 1,75 GB. O design BitNet b1.58 da Microsoft Research [The Era of 1-bit LLMs], é o mais agressivo: cada peso é um de três valores — menos um, zero ou mais um. Cada peso ocupa cerca de 1,58 bits. Um modelo de 7B passa a ocupar 1,2 GB.

Esse número de 1,2 GB é toda a história. Um iPhone 12, lançado em 2020, tem 4 GB de RAM. Os iPhones 13, 14 e 15 da Apple têm entre 4 e 8 GB. Nenhum destes telemóveis está carente de processamento para um modelo de 1,2 GB. A memória está bem. O processamento está bem. O Neural Engine não melhorou drasticamente entre o A14 e o A17 para este tipo de carga de trabalho — tornou-se incrementalmente mais rápido, não categoricamente mais capaz.

O que a investigação diz — em termos simples #

Três artigos publicados em 2026 estabelecem que os 1,5 bits já não são experimentais.

[Hybrid Gated Flow] (Fevereiro 2026) é a afirmação mais clara da realidade da engenharia: “A implementação de Large Language Models (LLMs) em dispositivos de borda é fundamentalmente limitada pelo ‘Memory Wall’ — uma limitação de hardware onde a largura de banda da memória, e não o processamento, se torna o gargalo.” O artigo demonstra como implementar LLMs de 1,58 bits em hardware de borda com correções seletivas de baixo ranking. Funciona.

[Recover-LoRA] (Junho 2026) aborda a preocupação histórica: quando se reduz um modelo de forma tão agressiva, perde-se precisão. O artigo mostra que a quantização de 2 bits, combinada com um pequeno fine-tune LoRA após a compressão, recupera a precisão total. O pipeline é: pegar qualquer modelo de 7B → quantizar para 2 bits → aplicar um pequeno adaptador LoRA → lançar. O problema da precisão está resolvido.

[Sparse-BitNet] (Março 2026) mostra que os modelos de 1,58 bits e a esparsidade se acumulam — pode-se eliminar 2 de cada 4 pesos para zero e o formato de 1,58 bits comprime o modelo ainda mais sem necessidade de re-treino. Um modelo Sparse-BitNet de 7B cabe em aproximadamente 600 MB.

[BitNet Distillation] (Outubro 2025) fornece o pipeline de produção: uma ferramenta “leve” que converte modelos de precisão total como o Qwen para o formato de 1,58 bits. A Apple já utiliza o Qwen e o Apple Foundation Model internamente. Poderiam realizar esta conversão hoje.

Fora do ecossistema académico, o [Litespark] (Maio 2026) demonstra redes neuronais ternárias a correr em CPUs de consumo através de kernels SIMD personalizados. O [PD-Swap] (Dezembro 2025) mostra Transformers de 1,58 bits a correr em FPGAs de borda — chips com muito menos processamento do que um iPhone Neural Engine. Se um FPGA de 20 $ consegue fazê-lo, um iPhone 12 consegue.

A barreira de hardware, em números #

DispositivoChipRAMNeural Engine TOPSAnoApple Intelligence?
iPhone 11A134 GB6 TOPS2019Não (iOS 18 removeu)
iPhone 12A144 GB11 TOPS2020Não
iPhone 13A154 GB15,8 TOPS2021Não
iPhone 14A166 GB17 TOPS2022Não
iPhone 15A166 GB17 TOPS2023Não
iPhone 15 ProA17 Pro8 GB35 TOPS2023Sim
iPhone 16A188 GB35 TOPS2024Sim
iPhone 16 ProA18 Pro8 GB35 TOPS2024Sim
iPhone 17 (rumor)A198–12 GB~45 TOPS2025Sim

A linha é traçada no A17 Pro. O salto de 2× em TOPS do A16 (17) para o A17 Pro (35) é real, mas não categórico. Ambos podem correr um modelo de 1,2 GB. A diferença entre 8 GB e 6 GB de RAM importa para o cache KV durante contextos longos, mas a variante BitNet Sparse (600 MB) deixa mais de 5 GB de folga num iPhone 14 de 6 GB.

Por que a Apple está a fazer isto de qualquer forma #

Três razões, por ordem de peso corporativo:

Receita. Cerca de 250 milhões de iPhones estão em uso ativo com o chip A16 ou anterior, com base nas divulgações da base instalada da Apple e estimativas de analistas para o ciclo 2025–2026. Se apenas 10% desses utilizadores fizerem um upgrade para capturar o Apple Intelligence — uma funcionalidade de que têm ouvido falar há dois anos — são 25 milhões de unidades a um preço médio de venda de 900 $ (~828 €), ou 22 mil milhões de dólares em receita de hardware. A barreira de elegibilidade do iOS 27 é uma alavanca de 22 mil milhões de dólares, escondida dentro de um lançamento de software.

Bloqueio do ecossistema. O Apple Intelligence integra-se com Photos, Mail, Messages, Notes e Siri. Assim que o tem no iPhone 15 Pro, compra um Mac com Apple Silicon para continuar a experiência, uns AirPods que emparelham perfeitamente, uma Apple TV que corre a mesma camada de inteligência. A barreira de hardware é também um acelerador de bloqueio: os utilizadores que a ignoram ficam excluídos da fase de IA do ecossistema da Apple nos próximos 4–5 anos.

Controlo sobre a narrativa da IA. A Apple não quer que os utilizadores corram modelos open-source de 1,58 bits como o Qwen ou LLaMA localmente — isso compete com o Apple Intelligence, que a Apple vende (eventualmente) como um nível de subscrição pago. A barreira de hardware mantém a experiência “IA no iPhone” com a marca e o controlo da Apple. Isto faz parte da mesma lógica de jardim murado de segurança de IA da Apple — quanto mais apertada for a barreira, menos superfícies de IA alternativas a Apple tem de defender.

O que o “Memory Wall” realmente significa #

O enquadramento do artigo HGF é importante aqui. O “Memory Wall” (barreira de memória) é o hiato entre a velocidade com que as CPUs podem processar e a velocidade com que a memória pode fornecer dados. Para um LLM de 16 bits, este hiato é enorme: o modelo é demasiado grande para alimentar o chip suficientemente rápido. Para um modelo de 1,58 bits, o hiato colapsa: 1,2 GB cabem na largura de banda LPDDR5, o Neural Engine consegue manter-se alimentado e o gargalo passa a ser a latência de geração de tokens, não a memória.

O Neural Engine do A14 consegue correr um modelo de 1,58 bits. O A13, o chip do iPhone 11, consegue correr mais lentamente, mas consegue. A largura de banda da memória, e não o processamento TOPS, é o que a família BitNet desbloqueia. E o iPhone 12 e modelos posteriores têm a largura de banda de memória necessária.

O caminho de engenharia que a Apple poderia lançar hoje #

PassoO que fazerPorquê
1Pegar no Apple Foundation Model (3B parâmetros)Já treinado, já otimizado para o hardware da Apple
2BitDistill para precisão de 1,58 bitsModelo de ~600 MB, cabe em 4 GB de RAM com folga para o cache KV
3Adicionar poda Sparse-BitNetReduz para 300 MB, cabe até num iPhone 11 de 3 GB
4Fine-tune Recover-LoRA em tarefas de Apple IntelligenceRecuperar qualquer perda de qualidade da quantização
5Lançar como atualização do iOS 26.5 para iPhone 12+Retroceder em vez de restringir o acesso

Isto é um projeto de engenharia de 4 meses. A Apple tem os investigadores (a equipa do Apple Foundation Model já publicou trabalhos sobre inferência no dispositivo), o hardware (todos os iPhone 12 e posteriores) e o stack de software (o Core ML já suporta modelos quantizados de 1 e 2 bits via mlpackage). A razão para isto não acontecer não é técnica. É comercial — e a crescente parceria da Apple com a Anthropic no Project Glasswing e Mythos cybersecurity mostra para onde deve fluir a computação de IA que não é no dispositivo.

O que isto significa para o ciclo do iOS 27 #

A barreira de elegibilidade do iOS 27 será apresentada como um requisito de hardware. A keynote dirá que o Apple Intelligence “requer o Neural Engine no A17 Pro” ou algo do género. A keynote será tecnicamente defensável apenas para as funcionalidades mais pesadas do Apple Intelligence — geração de imagens no dispositivo, fluxos de agentes complexos e tradução entre línguas com scripts muito diferentes.

Para a maior parte do Apple Intelligence — as partes que resumem o Mail, escrevem respostas no Messages, geram Genmoji, priorizam Notificações e a nova Siri — a barreira de hardware não é necessária. O stack de investigação de 1,58 bits / 2 bits / Sparse-BitNet prova-o. A escolha da Apple de restringir estas funcionalidades é uma decisão de negócio, não de engenharia. O detalhado de compatibilidade de dispositivos do iOS 27 explica quais funcionalidades do Apple Intelligence a barreira do A17 Pro+ realmente permite.

O enquadramento honesto #

A Apple tem a engenharia. O iPhone 12, um dispositivo com seis anos, pode correr o Apple Intelligence em 2026 se a Apple decidir lançar um modelo quantizado. A escolha de não o fazer é racional do ponto de vista da receita, defensável do ponto de vista do marketing e desonesta do ponto de vista da comunicação de engenharia. Chamar uma barreira de receita a um requisito de hardware, sem reconhecer a investigação de quantização de 1,5 bits que tornou isto desnecessário, é uma omissão deliberada.

Os 250 milhões de utilizadores de iPhone em A16 e modelos anteriores não estão bloqueados pelos seus telemóveis. Estão bloqueados pelo P&L da Apple.

Fontes #

Leia também #