O Problema de Cold Start em IA: Dados Antes de Ter Usuários
Como resolver o problema de cold start em IA e obter os primeiros dados proprietários antes de ter usuários, com rótulos de especialista e dados sintéticos.
O problema de cold start em IA é a armadilha que toda empresa AI-native encontra antes de lançar. O modelo precisa de dados para ficar bom, e ninguém usa um modelo que ainda não está bom. A saída é o produto, então um conjunto de dados raso é um produto raso, e um produto raso não atrai os usuários que gerariam os dados que faltavam.
Você não consegue capturar dados de uso antes do lançamento, então o flywheel precisa de uma primeira volta manual. Este playbook é essa primeira volta. Monte o primeiro conjunto de dados a partir de três fontes ao mesmo tempo, dados iniciais rotulados por um operador de domínio, dados sintéticos gerados para cobrir as lacunas, e um loop de revisão com humano no circuito que promove correções reais para o treino e os evals. A Avante Ventures constrói assim de propósito, porque a volta que você gira à mão é o que torna possível cada volta automática.
O problema de cold start em IA, dito sem rodeios
O problema de cold start é uma armadilha de ovo e galinha, e morde produtos de IA com mais força do que software comum. O modelo precisa de dados de uso para ser preciso, mas usuários não se engajam com um modelo impreciso, segundo o Institute of Product Management. Com software clássico você lança uma versão rasa e a melhora no mercado. Com um produto de IA a saída é o produto, e a qualidade da saída é função direta dos dados de treino.
São três variações, e só uma é o problema real da empresa. Cold start de modelo é uma lacuna de capacidade no domínio. Cold start de usuário é uma pessoa nova recebendo saída genérica. Cold start de item é conteúdo novo sem histórico. O caso da empresa é o cold start de modelo. Faltam os dados de domínio que um modelo de fundação nunca viu, e você tem que fabricá-los antes de o primeiro usuário aparecer.
Uma checagem honesta antes de construir. Se um modelo de fundação já resolve a tarefa de fábrica, fabricar um conjunto de dados proprietário é esforço perdido. Você obtém dados para IA sem usuários só quando o dado é o moat, não quando uma chamada de API já vence. O teste é se a vantagem mora em dados de domínio que um modelo geral não tem e se você pretende fazer fine-tuning ou construir evals de domínio sobre eles.
O único movimento que importa. Gaste seu recurso mais escasso, o tempo do especialista, nas poucas centenas de casos difíceis e ambíguos em que o julgamento de um especialista de domínio é o rótulo. O resto se preenche com transfer learning ou geração.
Monte o primeiro conjunto de dados com três fontes
Aqui está um fluxo que um operador começa esta semana. Não aposte o conjunto de dados em uma fonte só. Combine três, porque cada uma cobre a fraqueza das outras, e some uma tática pré-lançamento que compra dado real sem nenhuma liberação pública.
- Semente rotulada por especialista. Peça ao operador de domínio para rotular de algumas centenas a alguns milhares de exemplos de ouro. Especialistas de domínio custam de 10 a 50 vezes mais por hora de anotação do que trabalhadores gerais de crowd, então gaste esse orçamento nos casos ambíguos em que o julgamento deles é o rótulo, não em volume bruto.
- Transfer learning por cima. Faça fine-tuning de um modelo pré-treinado nessa semente pequena. Um modelo de imagem médica pode precisar de 10 vezes menos exemplos rotulados do que treinar do zero quando parte de um modelo de fundação, então alguns milhares de rótulos de especialista rendem mais do que parecem.
- Preenchimento sintético para as lacunas. Gere exemplos sintéticos para cobrir os casos raros que a semente não alcança, depois ancore cada lote no conjunto de ouro do especialista para que ele ensine sinal e não ruído.
- Dado real pré-lançamento. Rode o modelo em shadow mode ao lado do processo manual existente, ou um piloto restrito com poucos early adopters que aceitam saída bruta em troca de influência. Os dois coletam resultados reais antes de qualquer lançamento público.
Gerando dados sintéticos sem ensinar ruído
Dados sintéticos hoje são mainstream, não uma gambiarra. Conjuntos sintéticos bem construídos já alcançam de 85% a 90% do impacto de dados reais equivalentes em muitas tarefas de texto, segundo o Institute of Product Management. Todo o risco mora na expressão bem construídos.
A disciplina que mantém o dado sintético honesto é estreita. Gere para cobrir lacunas conhecidas na distribuição, sobretudo os casos raros que uma semente pequena não alcança, nunca para inflar volume bruto. Ancore cada lote sintético no conjunto de ouro do especialista. Meça se ele move um eval de dado real, não um sintético. Mantenha um piso fixo de dados rotulados por humanos e nunca deixe os exemplos gerados virarem a maioria da mistura de treino. Dados sintéticos para startups são uma ferramenta de cobertura, não um truque de volume.
Os dados sintéticos passaram de cerca de 1% de todos os dados em 2021 para aproximadamente 60% em 2024, e a projeção é que se tornem mais comuns do que dados reais para IA até 2030.
— Communications of the ACM, citando o Gartner
O loop de rotulagem com humano no circuito
O loop é o que transforma uma semente pontual em um ativo que compõe. Encaminhe cada saída do modelo para um revisor de domínio, capture a correção e a razão por trás dela, e promova as correções confirmadas tanto para o conjunto de treino quanto para o de eval. Rotulagem com humano no loop feita assim não é centro de custo. É como o conjunto de dados continua ficando mais afiado depois do lançamento.
O active learning faz as horas do revisor contarem. O modelo levanta os casos em que está menos confiante e que são mais informativos, um humano rotula esses primeiro, e o esforço se concentra onde muda o modelo em vez de nos exemplos que ele já acerta, como mostra a pesquisa de active learning. A correção e a razão declarada são o rótulo que nenhum concorrente compra, porque nascem dentro de um fluxo de trabalho que o concorrente não roda.
- Capture a correção, não só a rejeição. Guarde o antes, o depois e a razão pela qual o especialista mudou.
- Promova as correções primeiro para o conjunto de eval, para provar que o próximo modelo é melhor, depois para o de treino.
- Deixe o active learning escolher a fila. Rotule primeiro os casos em que o modelo está menos seguro.
Como os primeiros dados dão a partida no flywheel
O moat nunca é o modelo. Todo concorrente chama o mesmo modelo de fundação, então apostar no acesso ao modelo é apostar em uma commodity. O ativo durável é o histórico de correções rotuladas e os evals específicos de domínio que a semente e o loop criam.
Este é o flywheel copilot, dado, capital visto da sua primeira volta. Construa um copilot para gerar dados proprietários e depois use esse dado para captar e alocar capital. O conjunto de dados de cold start é a primeira volta manual, a parte que você gira à mão antes de o uso girar por você. Quando o loop roda, cada correção se promove sozinha para o próximo modelo e as voltas automáticas assumem.
Esta é uma pergunta diferente de por que o dado compõe depois que você já o tem, que é o tema dos efeitos de rede de dados em IA vertical. A composição pressupõe que um primeiro conjunto de dados já existe. O playbook de cold start é como você fabrica esse primeiro conjunto quando ainda não tem uso para compor.
O timing premia a disciplina. À medida que dados sintéticos inundam a web aberta e a maioria dos modelos deriva para a mesma distribuição genérica, um conjunto de dados ancorado em correções reais de domínio fica mais raro e mais valioso, não menos.
Modos de falha: dados sintéticos que envenenam o poço
O modo de falha honesto é o model collapse. Quando um modelo treina em grande parte na própria saída gerada, ele se afasta da distribuição real e assa o viés em silêncio, e o flywheel acaba girando sobre ficção. Shumailov e colegas mostraram na Nature que o desvio corre em dois estágios.
O colapso inicial perde as caudas primeiro. O modelo piora nos casos raros e de minoria enquanto as métricas de topo ainda parecem boas, que é justamente por que escapa de um time que olha só médias. O colapso tardio perde a maior parte da variância e passa a confundir conceitos abertamente. Aí o estrago já está assado.
A correção está documentada. A pesquisa sobre se o colapso é inevitável mostra que, quando o dado sintético se acumula ao lado do dado humano em vez de substituí-lo, o colapso é evitado. As regras do operador seguem dessa única descoberta.
- Mantenha dado real na mistura. Nunca treine em um corpus majoritariamente sintético. Segure um piso fixo de exemplos rotulados por humanos.
- Ancore o sintético na verdade do especialista. Valide cada lote sintético contra o conjunto de ouro humano e um eval de dado real, nunca um eval sintético.
- Vigie as caudas, não a média. Acompanhe os casos raros e de minoria, porque é ali que o colapso se esconde primeiro.
- Renove a semente. Continue promovendo novas correções humanas pelo loop para que o dado de treino acompanhe a realidade, não o próprio eco do modelo.
Como a Avante dá a partida nos dados com julgamento de operador
A Avante Ventures trata o primeiro conjunto de dados como uma decisão da etapa Build com retorno na etapa Compound. O sistema de seis etapas roda Research, Partner, Build, Traction, Revenue, Compound, e a rotulagem da semente acontece cedo, pelo operador, não por uma crowd contratada depois.
A vantagem é o operador. Um sócio de domínio com mais de 10 anos de calo de mercado brasileiro produz rótulos-semente confiáveis no dia um, porque sabe quais casos de borda carregam sinal e quais são ruído. É exatamente o que um trabalhador geral de crowd não fornece, e é por isso que a profundidade de operador é a fonte de uma semente defensável. O padrão se repete pelo portfólio, num fluxo de ativos judiciais, num modelo de risco de seguro, num pipeline de imóveis de leilão.
A janela abre rápido. Com serviços em cerca de 70% do PIB brasileiro e baixa penetração de software, as empresas que primeiro possuírem dados-semente de domínio vão definir as categorias. A Avante lança 3-4 empresas por ano e aloca $500K-1.5M por empresa, e o conjunto de dados de cold start é uma razão central para essas empresas se tornarem financiáveis. Os times que fabricam o primeiro conjunto de dados à mão vão possuir o dado que o resto ainda está tentando comprar.
A parcela de empresas industriais brasileiras que usam IA subiu de 16,9% em 2022 para 41,9% em 2024, cerca de 2,5 vezes em dois anos.
— IBGE
Perguntas frequentes
- O que é o problema de cold start em IA?
- O problema de cold start em IA é que o modelo precisa de dados para ser preciso, mas os usuários não se engajam com um modelo impreciso, e antes do lançamento não há uso para gerar esse dado. É mais agudo em produtos de IA do que em software clássico porque a saída é o produto, então a qualidade da saída é função direta dos dados de treino. Você resolve fabricando o primeiro conjunto de dados antes de ter usuários.
- Como obter dados para treinar IA sem usuários?
- Você monta o primeiro conjunto de dados a partir de três fontes ao mesmo tempo. Dados iniciais rotulados por um operador de domínio, dados sintéticos gerados para cobrir as lacunas da distribuição, e um loop com humano no circuito que promove correções reais para o treino e os evals. Shadow mode e um piloto restrito acrescentam resultados reais antes de qualquer lançamento público.
- Como resolver o problema de cold start em IA com dados sintéticos?
- Use dados sintéticos para cobrir os casos raros que uma pequena semente de especialista não alcança, não para inflar volume bruto. Conjuntos sintéticos bem construídos chegam a 85% a 90% do impacto de dados reais equivalentes em muitas tarefas de texto, mas só se você ancorar cada lote em um conjunto de ouro humano e medir contra um eval de dado real. Mantenha um piso fixo de dado real para o modelo não derivar para o model collapse.
- Dados sintéticos são seguros para treinar modelos de IA?
- Sim, se você mantiver dado real na mistura. Quando um modelo treina em grande parte na própria saída, ele colapsa, perdendo primeiro as caudas da distribuição e depois confundindo conceitos, segundo Shumailov e colegas na Nature. A pesquisa sobre model collapse mostra que ele é evitado quando o dado sintético se acumula ao lado do dado humano em vez de substituí-lo.
- Quanto custa a rotulagem por especialistas comparada ao crowdsourcing?
- Especialistas de domínio custam de 10 a 50 vezes mais por hora de anotação do que trabalhadores gerais de crowd. Esse prêmio vale a pena nas poucas centenas de casos difíceis e ambíguos em que o julgamento deles é o rótulo de verdade, que é de onde vem uma semente defensável. Use mão de obra mais barata e geração para o volume e reserve o tempo do especialista para os casos que só ele decide.
Quer mais? Receba um ensaio por semana sobre venture building, negócios AI-native e a oportunidade Brasil.
Ver Biblioteca completa →