A aceitação de um certo nível de confusão nos dados em troca da escala, pode nos dar bons resultados dependendo da análise de dados realizada. O Big Data tende a transformar os números em algo mais probabilístico que exato. Precisamos nesses casos, “escutarmos” o que os dados têm a nos dizer sem necessariamente nos preocuparmos com os “porquês”.
Por volta do ano de 2000, a Microsoft iniciou a busca de algoritmos que melhorassem a análise gramatical do Word. No início, não sabiam se seria mais útil desenvolver um algoritmo novo, ou melhorar os que já existiam. Antes de se decidirem por um dos caminhos, resolveram acrescentar mais dados aos algoritmos existentes, saindo da casa de milhões para de bilhões de palavras. Os resultados foram incríveis e, à medida que acrescentavam mais dados, o desempenho dos algoritmos aumentou consideravelmente. A taxa de precisão aumentou de 75% para mais de 95%.
O mesmo processo aconteceu com a Google em 2006 com o serviço de tradução. Ela utilizou dados de tradução de documentos oficiais muito confiáveis, além de dados de toda a internet global, incluindo dados de qualidade duvidosa e confusa. Sendo assim, a ferramenta da Google não funciona bem somente porque possui um algoritmo mais inteligente, mas porque ela possui mais dados, incluindo os de baixa qualidade. Os trilhões de palavras traduzidas possuíam também os chamados “dados selvagens”, que permitiram um grande avanço no processamento de idiomas naturais.
Hoje em dia, em algumas áreas da tecnologia e da sociedade, temos mais dados confusos e menos dados precisos. Estão percebendo que, talvez, uma única versão da verdade seja impossível, como também que a busca é uma dispersão. Para aproveitarmos as vantagens da busca em escala, temos que aceitar a confusão dos dados ao invés de simplesmente eliminá-la.
Essa tendência tem se refletido nos novos projetos de banco de dados, que abandonam os princípios de utilização de campos pré-definidos e refletem hierarquias bem estruturadas da informação. Hoje, temos linguagens de banco de dados que não requerem estruturação pré-determinada para funcionar, além de conseguirem armazenar e buscar todos os tipos e tamanhos de dados.
Esses novos projetos de banco de dados não são tão precisos quanto os tradicionais, e não devem ser usados em pesquisas com alta precisão. Porém, podem ser muito mais rápidos em tarefas menos críticas com apontamento de tendências. A operadora de cartões de créditos Visa conseguiu reduzir o processamento de 73 bilhões de registros de um mês para treze minutos, utilizando bancos de dados desestruturados.
Sendo assim, pode-se concluir que essa nova forma de manipulação de dados vem mudando conceitos já estabelecidos e mostrando um caminho totalmente novo na cultura da informação. O Big Data pode marcar uma inovação que inclui os benefícios da desordem e incerteza, derrubando os limites impostos pela busca da exatidão dos dados. Outra mudança importante para manipularmos imensas quantidades de dados, será o abandono da compreensão dos motivos por trás de tudo que acontece. Podemos simplesmente “ouvir” o que os dados têm a nos dizer sem nos preocupamos com os “porquês”.