Grandes dados (Big data)

Big data refere-se principalmente a conjuntos de dados que são muito grandes ou complexos para serem tratados por software tradicional de processamento de dados. Dados com muitas entradas (linhas)…

Big data denota principalmente conjuntos de dados que são muito extensos ou complexos para serem gerenciados de forma eficaz por software convencional de processamento de dados. Conjuntos de dados com inúmeras entradas (linhas) fornecem maior poder estatístico, enquanto aqueles com complexidade elevada (mais atributos ou colunas) podem contribuir para um aumento na taxa de falsas descobertas.

Big data refere-se principalmente a conjuntos de dados que são muito grandes ou complexos para serem tratados por software tradicional de processamento de dados. Dados com muitas entradas (linhas) oferecem maior poder estatístico, enquanto dados com maior complexidade (mais atributos ou colunas) podem levar a uma maior taxa de falsas descobertas.

Os desafios analíticos associados ao big data abrangem captura de dados, armazenamento, análise, pesquisa, compartilhamento, transferência, visualização, consulta, atualização, privacidade de informações e gerenciamento de fontes de dados. Inicialmente, o big data foi conceituado em torno de três dimensões fundamentais: volume, variedade e velocidade. A análise de big data apenas com base em volume, velocidade e variedade pode introduzir complexidades nas metodologias de amostragem. Consequentemente, uma quarta dimensão, veracidade, que significa confiabilidade dos dados, foi posteriormente incorporada. O investimento insuficiente em conhecimento especializado para garantir a veracidade do big data pode resultar em custos e riscos que ultrapassam a capacidade de uma organização de gerar e extrair valor desses extensos conjuntos de dados.

As aplicações contemporâneas do termo big data geralmente denotam a implantação de análises preditivas, análises de comportamento do usuário ou outras técnicas sofisticadas de análise de dados projetadas para obter insights de conjuntos de dados extensos, em vez de apenas se referirem a um tamanho específico de conjunto de dados. “Não há dúvidas de que as quantidades de dados agora disponíveis são realmente grandes, mas essa não é a característica mais relevante deste novo ecossistema de dados”. A análise de tais conjuntos de dados pode revelar novas correlações, permitindo a identificação de tendências empresariais, prevenção de doenças e mitigação da criminalidade, entre outras aplicações. Profissionais de diversos setores, incluindo cientistas, executivos de empresas, médicos, especialistas em publicidade e funcionários governamentais, frequentemente enfrentam desafios ao gerenciar grandes conjuntos de dados em domínios como pesquisas na Internet, tecnologia financeira (fintech), análise de saúde, sistemas de informação geográfica, informática urbana e informática empresarial. Além disso, os cientistas enfrentam limitações inerentes aos esforços da e-Ciência, particularmente em campos como meteorologia, genómica, conectómica, simulações físicas complexas, biologia e investigação ambiental.

O volume e a proliferação de conjuntos de dados disponíveis expandiram-se exponencialmente, impulsionados pela aquisição de dados a partir de dispositivos, incluindo dispositivos móveis, dispositivos onipresentes da Internet das Coisas com detecção de informações, equipamentos aéreos (detecção remota), registos de software, câmaras, microfones, identificação por radiofrequência. (RFID) e redes de sensores sem fio. Globalmente, a capacidade tecnológica per capita para armazenamento de informação tem duplicado aproximadamente a cada 40 meses desde a década de 1980; em 2012, cerca de 2,5 exabytes (2,17×2⁶⁰ bytes) de dados foram gerados diariamente. Um relatório da IDC projetou um aumento exponencial no volume global de dados, de 4,4 zettabytes em 2013 para 44 zettabytes em 2020. A IDC prevê ainda que, até 2025, o volume total de dados atingirá 163 zettabytes. A IDC estima que os gastos globais em soluções de big data e análise de negócios (BDA) atingirão US$ 215,7 bilhões em 2021. Statista indicou um crescimento projetado do mercado global de big data para US$ 103 bilhões até 2027. Um relatório de 2011 da McKinsey & A empresa sugeriu que a utilização estratégica e eficaz de big data no setor de saúde dos EUA poderia gerar mais de US$ 300 bilhões em valor anual por meio de maior eficiência e qualidade. Nas economias europeias desenvolvidas, as administrações governamentais poderiam realizar poupanças superiores a 100 mil milhões de euros (149 mil milhões de dólares) apenas através de melhorias de eficiência operacional facilitadas por big data. Além disso, os consumidores que utilizam serviços alimentados por dados de localização pessoal poderiam acumular 600 mil milhões de dólares em excedentes de consumo. Uma consideração crítica para grandes empresas envolve estabelecer uma propriedade clara para iniciativas de big data que impactam toda a estrutura organizacional.

Os sistemas convencionais de gerenciamento de banco de dados relacional e os pacotes de software estatístico de desktop, normalmente empregados para visualização de dados, frequentemente encontram limitações ao processar e analisar big data. O processamento e a análise eficazes de big data muitas vezes exigem "software massivamente paralelo executado em dezenas, centenas ou mesmo milhares de servidores". A definição precisa de “big data” depende das capacidades analíticas dos utilizadores e da sofisticação das suas ferramentas. Além disso, a evolução das capacidades tecnológicas torna o big data um conceito dinâmico. "Para algumas organizações, enfrentar centenas de gigabytes de dados pela primeira vez pode desencadear a necessidade de reconsiderar as opções de gerenciamento de dados. Para outras, podem ser necessárias dezenas ou centenas de terabytes antes que o tamanho dos dados se torne uma consideração significativa."

Definição

O conceito de big data surgiu na década de 1990, com John Mashey frequentemente creditado por sua popularização. Normalmente se refere a conjuntos de dados cuja imensa escala excede as capacidades das ferramentas de software convencionais para captura, curadoria, gerenciamento e processamento eficientes dentro de prazos aceitáveis. Embora abranja dados não estruturados, semiestruturados e estruturados, a ênfase principal nos paradigmas de big data geralmente reside em informações não estruturadas. A definição do tamanho do “big data” é dinâmica, com números de 2012 indicando faixas de várias dezenas de terabytes a numerosos zettabytes. A extração de insights de conjuntos de dados tão diversos, complexos e massivos requer técnicas, tecnologias especializadas e abordagens de integração inovadoras. A variabilidade é frequentemente citada como uma característica adicional do big data.

Uma definição de 2018 caracteriza o big data como exigindo ferramentas de computação paralelas para o tratamento de dados. Esta perspectiva destaca uma mudança significativa nas metodologias da ciência da computação, impulsionada por teorias de programação paralela, e implica um afastamento de certas garantias e capacidades inerentes ao modelo relacional de Codd.

Uma análise comparativa de grandes conjuntos de dados por Kitchin e McArdle revelou uma inconsistência na presença de características de big data comumente atribuídas em todos os casos examinados. Consequentemente, a investigação alternativa propôs que a redefinição da dinâmica do poder na descoberta do conhecimento constitui o seu atributo definidor. Este ponto de vista alternativo muda o foco das características intrínsecas dos dados para uma compreensão relacional, enfatizando a importância de como os dados são coletados, armazenados, acessados e analisados.

Distinguir Big Data de Business Intelligence

A crescente maturidade conceitual desses campos permite uma distinção mais clara entre “big data” e “business intelligence”.

A inteligência de negócios emprega ferramentas matemáticas aplicadas e estatísticas descritivas em dados caracterizados por alta densidade de informações para quantificar fenômenos e identificar tendências.
Em contraste, o big data aproveita a análise matemática, técnicas de otimização, estatísticas indutivas e princípios de identificação de sistemas não lineares para deduzir leis subjacentes (como regressões, relações não lineares e efeitos causais) a partir de extensos conjuntos de dados com baixa densidade de informações. Seu objetivo é descobrir relacionamentos e dependências e prever resultados e comportamentos.

Características

Big data normalmente é caracterizado pelos seguintes atributos:

Volume: Isso se refere à grande quantidade de dados gerados e armazenados. A magnitude dos dados é um fator crítico para determinar o seu valor potencial, os insights que podem produzir e se se qualificam como big data. Big data normalmente abrange tamanhos que excedem terabytes e petabytes.

Variedade: Esta característica refere-se aos diversos tipos e à natureza inerente dos dados. Tecnologias anteriores, como Sistemas de Gerenciamento de Banco de Dados Relacionais (RDBMSs), eram proficientes no gerenciamento de dados estruturados. No entanto, a proliferação de dados semiestruturados e não estruturados apresentou desafios significativos a estas ferramentas e tecnologias estabelecidas. Consequentemente, as tecnologias de big data surgiram principalmente para capturar, armazenar e processar dados semiestruturados e não estruturados variados (variedade), gerados rapidamente (velocidade) e volumosos (volume). Posteriormente, essas ferramentas também foram adaptadas para o tratamento de dados estruturados, principalmente para fins de armazenamento. O processamento de dados estruturados, no entanto, permaneceu uma opção opcional, permitindo o uso de estruturas de big data ou de RDBMSs convencionais. Essa adaptabilidade facilita a análise de dados, permitindo a utilização eficaz de insights latentes derivados de fontes de dados como mídias sociais, arquivos de log e sensores. Big data integra informações de vários formatos, incluindo texto, imagens, áudio e vídeo, e pode inferir elementos ausentes por meio da fusão de dados.

Velocidade: Isto refere-se à taxa a que os dados são gerados e subsequentemente processados para dar resposta às crescentes exigências e aos desafios de desenvolvimento. O big data frequentemente se manifesta em fluxos em tempo real. Ao contrário de conjuntos de dados menores, o big data é caracterizado pela produção contínua. A velocidade em big data abrange dois aspectos principais: a frequência de geração de dados e a frequência de seu manuseio, registro e publicação.

Veracidade: Veracidade denota a veracidade e confiabilidade dos dados, correlacionando-se diretamente com sua qualidade e valor inerente. Para que a análise de big data produza um valor significativo, os dados devem possuir não apenas um volume imenso, mas também alta confiabilidade. A qualidade dos dados coletados pode apresentar variabilidade significativa, o que impacta diretamente a precisão das análises subsequentes.

Valor: O valor informativo derivado do processamento e análise de conjuntos de dados extensos. Além disso, o valor pode ser quantificado avaliando outras características inerentes ao big data. Além disso, o valor pode denotar o benefício econômico ou a lucratividade gerada por insights extraídos da análise de big data.

Variabilidade: Variabilidade refere-se à natureza dinâmica dos formatos, estruturas ou origens do Big Data. Abrange tipos de dados estruturados, não estruturados ou híbridos. O processo analítico muitas vezes necessita da integração de dados brutos de diversas fontes. Esse processamento de dados brutos também pode envolver a conversão de dados não estruturados em formatos estruturados.

Características potenciais adicionais de Big Data incluem:

Exaustivo: Esta característica refere-se a todos os dados de um sistema (ou seja, ${\textstyle n}$ =all) é capturado ou gravado. Consequentemente, big data pode ou não incluir todas as informações disponíveis em suas respectivas fontes.

Refinado e exclusivamente lexical: Isso se refere, respectivamente, à granularidade dos dados específicos coletados para cada elemento e se cada elemento e seus atributos são indexados ou identificados adequadamente.

Relacional: Esta característica descreve se os dados adquiridos possuem campos comuns que facilitam a integração ou meta-análise de conjuntos de dados distintos.

Extensivo: Isso se refere à facilidade com que novos campos podem ser incorporados ou modificados em cada elemento dos dados coletados.

Escalabilidade: Isso denota a capacidade de um sistema de armazenamento de big data sofrer rápida expansão de tamanho.

Arquitetura

Os repositórios de Big Data manifestaram-se em diversas configurações, frequentemente desenvolvidas por empresas para atender a requisitos específicos. Historicamente, os fornecedores comerciais introduziram sistemas de gerenciamento de banco de dados paralelos adaptados para big data, a partir da década de 1990. Por um longo período, a WinterCorp foi responsável pela publicação dos relatórios de banco de dados mais abrangentes.

Em 1984, a Teradata Corporation introduziu o sistema DBC 1012, que apresentava recursos de processamento paralelo. Em 1992, os sistemas Teradata tornaram-se pioneiros no armazenamento e análise de 1 terabyte de dados. Dado que as unidades de disco rígido tinham capacidade de 2,5 GB em 1991, a definição de big data é inerentemente dinâmica e sujeita a evolução contínua. A Teradata implantou o sistema inaugural baseado em RDBMS de classe de petabyte em 2007. Em 2017, várias dezenas de bancos de dados relacionais Teradata de classe de petabyte foram instalados, com o maior ultrapassando 50 PB. Antes de 2008, esses sistemas gerenciavam exclusivamente dados relacionais 100% estruturados. Posteriormente, a Teradata incorporou suporte para tipos de dados semiestruturados, como XML, JSON e Avro.

Em 2000, a Seisint Inc., atualmente conhecida como LexisNexis Risk Solutions, projetou a plataforma HPCC Systems, um sistema distribuído baseado em C++ projetado para processamento e consulta de dados. Esta plataforma particiona, distribui, armazena e entrega de forma autônoma dados estruturados, semiestruturados e não estruturados em vários servidores comuns. Os usuários são capazes de construir pipelines de processamento de dados e formular consultas usando ECL, uma linguagem de programação declarativa de fluxo de dados. O ECL permite que os analistas de dados se concentrem na solução de problemas específicos sem o pré-requisito de definir esquemas de dados antecipadamente, permitindo uma remodelagem ideal dos dados durante o desenvolvimento da solução. LexisNexis adquiriu a Seisint Inc. e sua plataforma de processamento paralelo de alta velocidade em 2004, posteriormente aproveitando esta plataforma para integrar os sistemas de dados da Choicepoint Inc. após sua aquisição em 2008. A plataforma HPCC Systems foi lançada como código aberto sob a licença Apache v2.0 em 2011.

Por várias décadas, o CERN e vários outros experimentos de física acumularam extensos conjuntos de dados, normalmente submetendo-os à análise através de computação de alto rendimento, um metodologia distinta das arquiteturas MapReduce comumente associadas ao paradigma contemporâneo de "big data".

Em 2004, o Google introduziu o MapReduce por meio de um artigo publicado, detalhando um processo que emprega um projeto arquitetônico comparável. O paradigma MapReduce oferece um modelo de processamento paralelo, acompanhado de uma implementação projetada para lidar com grandes quantidades de dados. No MapReduce, as consultas são particionadas, distribuídas entre nós paralelos e processadas simultaneamente durante a fase de “mapa”. Posteriormente, os resultados são agregados e apresentados na fase “reduzir”. A estrutura alcançou um sucesso considerável, levando outros a buscar a replicação de seu algoritmo subjacente. Consequentemente, uma implementação da estrutura MapReduce foi integrada ao projeto de código aberto Apache conhecido como “Hadoop”. O Apache Spark surgiu em 2012 como uma resposta às restrições do paradigma MapReduce, introduzindo capacidades de processamento na memória e suportando uma gama mais ampla de operações além de funções sequenciais de mapeamento e redução.

MIKE2.0 representa uma metodologia aberta para gerenciamento de informações, reconhecendo a necessidade de revisões impulsionadas pelas implicações do big data, conforme detalhado em um artigo intitulado "Big Data Solution Offers". Esta metodologia aborda especificamente os desafios da gestão de grandes volumes de dados, incluindo a geração de permutações úteis a partir de diversas fontes de dados, a intrincada complexidade das inter-relações e as dificuldades inerentes à eliminação ou modificação de registos individuais.

Uma investigação realizada em 2012 indicou que uma arquitetura multicamadas oferecia uma solução viável para mitigar os desafios colocados pelos grandes volumes de dados. Uma arquitetura paralela distribuída, que dispersa dados em vários servidores, estabelece ambientes de execução paralela capazes de aumentar significativamente as velocidades de processamento de dados. Este modelo arquitetônico integra dados em um sistema de gerenciamento de banco de dados (SGBD) paralelo, aproveitando as estruturas MapReduce e Hadoop. Essas estruturas visam tornar as capacidades de processamento transparentes para os usuários finais por meio da implantação de um servidor de aplicativos front-end.

Um data lake facilita uma transição organizacional do controle centralizado para um modelo colaborativo, permitindo capacidade de resposta à dinâmica em evolução do gerenciamento de informações. Essa abordagem permite a rápida segregação de dados no data lake, minimizando, consequentemente, o tempo de sobrecarga.

Tecnologias

Um relatório do McKinsey Global Institute de 2011 delineou os componentes primários e o ecossistema mais amplo de big data da seguinte forma:

Técnicas para análise de dados, incluindo testes A/B, aprendizado de máquina e processamento de linguagem natural.
Tecnologias de big data, como business intelligence, computação em nuvem e sistemas de banco de dados.
Métodos de visualização de dados, incluindo tabelas, gráficos e outras representações gráficas de informações.

Big data multidimensional pode ser conceituado como cubos de dados OLAP ou, de uma perspectiva matemática, como tensores. Os sistemas de banco de dados array foram desenvolvidos para oferecer armazenamento e recursos avançados de consulta para esse tipo de dados específico. Além disso, uma série de tecnologias adicionais estão sendo aplicadas a big data, abrangendo computação eficiente baseada em tensores (por exemplo, aprendizagem multilinear de subespaço), bancos de dados de processamento massivamente paralelo (MPP), aplicativos baseados em pesquisa, mineração de dados, sistemas de arquivos distribuídos, mecanismos de cache distribuídos (como buffers de ruptura e Memcached), bancos de dados distribuídos, infraestrutura baseada em nuvem e computação de alto desempenho (HPC) (incluindo aplicativos, armazenamento e recursos de computação) e a Internet. Apesar da proliferação de inúmeras abordagens e tecnologias, a implementação eficaz do aprendizado de máquina com big data continua a apresentar desafios significativos.

Certos bancos de dados relacionais de processamento massivamente paralelo (MPP) possuem a capacidade de armazenar e gerenciar petabytes de dados. Esse recurso inclui inerentemente as funções de carregamento, monitoramento, backup e otimização da utilização de extensas tabelas de dados dentro do Sistema de Gerenciamento de Banco de Dados Relacional (RDBMS).

O programa de Análise de Dados Topológicos, patrocinado pela DARPA, visa descobrir as estruturas fundamentais dentro de conjuntos de dados massivos. Em 2008, esta tecnologia tornou-se disponível publicamente com a criação da empresa "Ayasdi". Os profissionais envolvidos em processos de análise de big data normalmente exibem uma aversão a soluções de armazenamento partilhadas mais lentas. Em vez disso, eles favorecem o armazenamento de conexão direta (DAS) em suas diversas manifestações, desde unidades de estado sólido (SSDs) até discos SATA de alta capacidade integrados em nós de processamento paralelo. As arquiteturas de armazenamento compartilhado, como redes de área de armazenamento (SAN) e armazenamento conectado à rede (NAS), são geralmente percebidas como comparativamente lentas, complexas e caras. Essas características são incongruentes com os requisitos dos sistemas de análise de big data, que exigem alto desempenho do sistema, infraestrutura de commodities e economia.

Uma característica definidora da análise de big data é a entrega de informações em tempo real ou quase em tempo real. Consequentemente, a latência é mitigada sempre que possível. Os dados que residem na memória de conexão direta ou em discos locais são considerados ideais, enquanto os dados acessados via memória ou disco na extremidade remota de uma conexão de rede de área de armazenamento (SAN) Fibre Channel (FC) são menos desejáveis. Além disso, os gastos associados à implementação de uma SAN na escala necessária para aplicações analíticas superam significativamente os gastos com metodologias alternativas de armazenamento.

Aplicativos

A proliferação de big data ampliou substancialmente a demanda por especialistas em gerenciamento de informações. Este aumento da procura é evidenciado por grandes corporações como Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP e Dell que investem colectivamente mais de 15 mil milhões de dólares em empresas de software focadas na gestão e análise de dados. Em 2010, a avaliação deste sector ultrapassou os 100 mil milhões de dólares, apresentando uma taxa de crescimento anual de quase 10%, aproximadamente o dobro da taxa de crescimento da indústria de software em geral.

As economias desenvolvidas apresentam uma dependência crescente de tecnologias com utilização intensiva de dados. Globalmente, as assinaturas de telemóveis totalizam 4,6 mil milhões, com o acesso à Internet a atingir entre 1 e 2 mil milhões de indivíduos. De 1990 a 2005, mais de mil milhões de indivíduos ascenderam globalmente à classe média, promovendo o aumento da alfabetização e, consequentemente, acelerando a proliferação de informação. A capacidade global de troca de informações através de redes de telecomunicações expandiu-se significativamente, de 281 petabytes em 1986 para 471 petabytes em 1993, 2,2 exabytes em 2000 e 65 exabytes em 2007; as projeções indicavam que o tráfego anual da Internet atingiria 667 exabytes até 2014. As estimativas sugerem que os dados de texto alfanumérico e de imagens fixas constituem um terço de toda a informação armazenada globalmente, representando o formato mais vantajoso para a maioria das aplicações de big data. Esta observação também destaca o potencial substancial dos dados atualmente não utilizados, especialmente em formatos de vídeo e áudio.

Embora vários fornecedores forneçam soluções comerciais de big data prontas para uso, os especialistas defendem a criação de sistemas internos personalizados quando as organizações possuem conhecimento técnico adequado.

Governo

A integração de big data nos processos governamentais oferece eficiência em custos, produtividade e inovação, mas apresenta desafios inerentes. A análise eficaz de dados necessita frequentemente de esforços colaborativos entre vários níveis governamentais (central e local) para estabelecer processos novos e inovadores para alcançar objectivos específicos. Uma entidade governamental proeminente que utiliza big data é a Agência de Segurança Nacional (NSA), que monitoriza continuamente as atividades na Internet para identificar potenciais padrões indicativos de comportamentos suspeitos ou ilícitos.

Os sistemas de registo civil e estatísticas vitais (CRVS) recolhem sistematicamente registos relativos a eventos de vida, desde o nascimento até à morte. Consequentemente, o CRVS constitui uma fonte significativa de big data para órgãos governamentais.

Desenvolvimento internacional

Estudos relativos à aplicação eficaz das tecnologias de informação e comunicação para o desenvolvimento (ICT4D) indicam que as tecnologias de big data oferecem contribuições substanciais, ao mesmo tempo que introduzem desafios distintos no domínio do desenvolvimento internacional. O progresso na análise de big data proporciona vias económicas para melhorar a tomada de decisões em sectores vitais de desenvolvimento, incluindo cuidados de saúde, emprego, produtividade económica, prevenção do crime, segurança e gestão de desastres e recursos naturais. Além disso, os dados gerados pelos utilizadores apresentam novas possibilidades para amplificar as vozes das populações marginalizadas. No entanto, os obstáculos persistentes nas regiões em desenvolvimento, tais como infraestruturas tecnológicas deficientes e escassez de recursos económicos e humanos, intensificam as apreensões existentes em relação aos grandes volumes de dados, incluindo preocupações com a privacidade, imperfeições metodológicas e desafios de interoperabilidade. O paradigma de “big data para o desenvolvimento” está atualmente em transição para a aplicação destes dados através de aprendizagem automática, um campo agora reconhecido como “inteligência artificial para o desenvolvimento (AI4D)”.

Benefícios

Uma aplicação prática significativa de big data em iniciativas de desenvolvimento envolve o aproveitamento de dados para combater a pobreza. Por exemplo, em 2015, Blumenstock et al. utilizou metadados de telefones celulares para estimar os níveis de pobreza e riqueza, enquanto em 2016, Jean et al. imagens de satélite integradas com técnicas de aprendizagem automática para prever a pobreza. Ao examinar o mercado de trabalho e a economia digital na América Latina, Hilbert et al. afirmam que os dados de rastreamento digital oferecem diversas vantagens distintas, incluindo:

Cobertura temática aprimorada: facilitando a medição em domínios anteriormente considerados desafiadores ou inviáveis de quantificar.
Âmbito geográfico ampliado: Fornece dados substanciais e comparáveis para quase todas as nações, abrangendo vários países menores, muitas vezes excluídos dos inventários internacionais convencionais.
Detalhe granular: oferece dados altamente detalhados caracterizados por inúmeras variáveis inter-relacionadas e insights inovadores, como conectividade de rede.
Oportunidade e análise de séries temporais aprimoradas: permitindo a geração de representações gráficas poucos dias após a aquisição dos dados.

Desafios

Ao mesmo tempo, a utilização de dados de vestígios digitais, como alternativa aos dados de inquéritos convencionais, não evita os desafios inerentes associados à análise quantitativa internacional. Embora as prioridades possam mudar, persistem discussões fundamentais. Os principais desafios incluem:

Representatividade: Ao contrário das estatísticas de desenvolvimento tradicionais, que se concentram principalmente na representatividade de amostras aleatórias de pesquisas, os dados de rastreamento digital carecem inerentemente de amostragem aleatória.
Os dados observacionais refletem com precisão a sua fonte específica, mas não se estendem inerentemente além desse escopo. Embora seja atraente extrapolar observações de plataformas específicas para contextos mais amplos, tais generalizações frequentemente se mostram enganosas.
A harmonização internacional de indicadores continua a ser um requisito crítico para os dados de rastreio digital. Este processo introduz a complexidade adicional da "fusão de dados", que envolve a integração e padronização de diversas fontes de dados.
Analistas e instituições frequentemente enfrentam dificuldades para gerenciar conjuntos extensos de variáveis, uma tarefa que os painéis interativos podem facilitar de forma eficiente. Atualmente, não existe um fluxo de trabalho padronizado, o que impede pesquisadores, usuários e formuladores de políticas de processar dados de maneira eficaz.

Finanças

O Big Data está passando por uma rápida adoção no setor financeiro, principalmente para acelerar as capacidades de processamento e gerar inferências mais perspicazes e baseadas em dados para operações internas e clientes de instituições financeiras. As suas aplicações abrangem vários domínios financeiros, incluindo decisões de investimento e negociação – o que envolve o processamento simultâneo de grandes quantidades de dados de preços, livros de ordens limitadas e indicadores económicos. Outras utilizações incluem a gestão de carteiras, otimizando uma gama crescente de instrumentos financeiros, potencialmente de diversas classes de ativos, e a gestão de riscos, como a melhoria das classificações de crédito através de informações abrangentes. Essencialmente, o Big Data é relevante sempre que estão envolvidas entradas substanciais de dados. Além disso, o Big Data tornou-se um conceito fundamental em serviços financeiros alternativos, abrangendo nomeadamente plataformas de crowdfunding e trocas de criptomoedas.

Saúde

A análise de big data encontrou aplicações na área da saúde para fornecer medicamentos personalizados e análises prescritivas, facilitar a intervenção de riscos clínicos e análises preditivas, reduzir o desperdício e a variabilidade dos cuidados, automatizar relatórios externos e internos de dados de pacientes e estabelecer termos médicos e registros de pacientes padronizados. No entanto, algumas destas melhorias propostas continuam a ser aspiracionais e não totalmente implementadas. Os sistemas de saúde geram um volume substancial de dados, que deverá aumentar ainda mais com a integração de mHealth, eHealth e tecnologias wearable. Esses dados abrangem registros eletrônicos de saúde, imagens, conteúdo gerado pelo paciente, resultados de sensores e outros tipos de dados complexos. Consequentemente, há uma necessidade crescente para que esses ambientes priorizem a qualidade dos dados e das informações. Como observa uma observação, Big data muitas vezes significa “dados sujos” e a fração de imprecisões de dados aumenta com o crescimento do volume de dados. A inspeção manual na escala de big data é inviável, destacando uma necessidade crítica nos serviços de saúde de ferramentas inteligentes para gerenciar a precisão, controlar a credibilidade e abordar informações ausentes. Embora uma parte significativa da informação sobre cuidados de saúde seja agora eletrónica, grande parte dela permanece não estruturada e difícil de utilizar, enquadrando-se assim no paradigma do big data. A implantação de grandes volumes de dados nos cuidados de saúde também introduziu desafios éticos consideráveis, incluindo riscos para os direitos individuais, a privacidade, a autonomia, a transparência e a confiança.

Os grandes volumes de dados são particularmente promissores para a investigação biomédica exploratória, permitindo que as análises baseadas em dados progridam mais rapidamente do que as abordagens tradicionais baseadas em hipóteses. Posteriormente, as tendências identificadas através da análise de dados podem ser rigorosamente validadas em pesquisas biológicas convencionais baseadas em hipóteses e, em última análise, em estudos clínicos.

Na área da saúde, o diagnóstico auxiliado por computador na medicina representa uma subárea de aplicação intimamente relacionada que depende fortemente de big data. Por exemplo, o monitoramento da epilepsia normalmente gera entre 5 e 10 GB de dados diariamente. Da mesma forma, uma imagem de tomossíntese mamária não comprimida tem em média 450 MB. Esses casos ilustram a ampla dependência do diagnóstico auxiliado por computador em big data. Consequentemente, o big data foi identificado como um dos sete desafios críticos que os sistemas de diagnóstico auxiliados por computador devem enfrentar para alcançar melhores níveis de desempenho.

Educação

Um estudo realizado pelo McKinsey Global Institute identificou um défice de 1,5 milhões de profissionais e gestores de dados altamente qualificados, o que levou várias universidades, incluindo a Universidade do Tennessee e a UC Berkeley, a estabelecer programas de mestrado para dar resposta a esta procura. Ao mesmo tempo, os campos de treinamento privados, como os programas pagos oferecidos pela The Data Incubator e pela Assembleia Geral, também desenvolveram currículos para atender a essa necessidade. No domínio especializado do marketing, Wedel e Kannan enfatizam um desafio decorrente dos numerosos subdomínios da área (por exemplo, publicidade, promoções, desenvolvimento de produtos, branding), cada um utilizando tipos distintos de dados.

Mídia

Para compreender a aplicação do big data no setor de mídia, é necessário primeiro estabelecer o contexto em relação aos mecanismos empregados nos processos de mídia. Nick Couldry e Joseph Turow postularam que os profissionais da mídia e da publicidade percebem o big data como uma infinidade de pontos de dados acionáveis pertencentes a milhões de indivíduos. A indústria parece estar a transitar de abordagens tradicionais que dependiam de ambientes mediáticos específicos, como jornais, revistas ou programas de televisão, para alavancar tecnologias que envolvem consumidores-alvo em momentos e locais ideais. O objetivo estratégico é entregar mensagens ou conteúdos que estejam, do ponto de vista estatístico, alinhados com a mentalidade do consumidor. Por exemplo, os ambientes editoriais estão cada vez mais adaptando anúncios e artigos para atrair consumidores cujas preferências foram obtidas exclusivamente através de diversas atividades de mineração de dados.

Segmentação pelo consumidor (para publicidade feita por profissionais de marketing)
Captura de dados
O jornalismo de dados envolve editores e jornalistas que utilizam ferramentas de big data para gerar insights e infográficos distintos e pioneiros.

O Channel 4, a emissora de televisão de serviço público britânica, é reconhecida como uma entidade proeminente na área de big data e análise de dados.

Seguro

As seguradoras de saúde estão acumulando dados relativos aos "determinantes sociais da saúde", incluindo consumo de alimentos e televisão, estado civil, tamanho das roupas e hábitos de compra. A partir destes dados, extrapolam previsões relativas aos custos de saúde para identificar potenciais problemas de saúde entre os seus clientes. No entanto, continua a ser um tema de debate se estas previsões estão atualmente a ser utilizadas para efeitos de fixação de preços.

Internet das Coisas (IoT)

Big data e Internet das Coisas (IoT) operam sinergicamente. Os dados extraídos de dispositivos IoT produzem uma representação abrangente da interconectividade dos dispositivos. Esses mapeamentos têm sido aproveitados pela indústria dos meios de comunicação social, pelas empresas e pelos governos para melhorar a precisão da segmentação do público e aumentar a eficácia dos meios de comunicação social. Além disso, a IoT é cada vez mais empregada como um mecanismo de coleta de dados sensoriais, que encontrou diversas aplicações em contextos médicos, de fabricação e de transporte.

Kevin Ashton, o especialista em inovação digital atribuído à origem do termo, articula a Internet das Coisas da seguinte forma: "Se tivéssemos computadores que soubessem tudo o que há para saber sobre as coisas - usando dados que eles coletaram sem qualquer ajuda nossa - seríamos capazes de rastrear e contar tudo e reduzir significativamente o desperdício, a perda e o custo. Saberíamos quando as coisas precisariam ser substituídas, reparando ou recuperando, e se eles estavam novos ou ultrapassados."

Tecnologia da Informação

Particularmente desde 2015, o big data ganhou força significativa nas operações comerciais como uma ferramenta para facilitar o aumento da eficiência operacional para os funcionários e para otimizar a aquisição e disseminação de dados de tecnologia da informação (TI). A aplicação de big data para resolver desafios de TI e de coleta de dados dentro de uma empresa é designada como análise de operações de TI (ITOA). Ao integrar metodologias de big data aos conceitos de inteligência de máquina e computação profunda, os departamentos de TI podem identificar e mitigar proativamente possíveis problemas. As empresas ITOA oferecem plataformas para gerenciamento de sistemas que consolidam repositórios de dados díspares e obtêm insights holísticos de todo o sistema, em vez de bolsões isolados de dados.

Ciência de Pesquisa

Em contraste com a recolha de dados baseada em inquéritos, o big data oferece um custo mais baixo por ponto de dados, emprega técnicas analíticas como aprendizagem automática e mineração de dados, e integra fontes de dados diversas e novas, incluindo registos, plataformas de redes sociais, aplicações e outros formatos digitais. Desde 2018, os cientistas de inquéritos iniciaram investigações sobre o potencial sinérgico dos grandes volumes de dados e da ciência dos inquéritos, com o objetivo de melhorar a produção e a qualidade dos dados estatísticos para investigadores e profissionais. A iniciativa Big Data Meets Survey Science (BigSurv) organizou três conferências em 2018, 2020 (virtualmente) e 2023, com uma conferência adicional agendada para 2025. Esta iniciativa também resultou em edições especiais na Social Science Computer Review, no Journal of the Royal Statistical Society e na EP J Data Science, juntamente com um livro intitulado Big Data Meets Social Sciences, coeditado por Craig Hill e cinco outros membros da American Statistical Association. Em 2021, os membros fundadores do BigSurv foram homenageados com o prêmio Warren J. Mitofsky Innovators Award da American Association for Public Opinion Research.

Marketing

O big data tem um destaque significativo no marketing, atribuído principalmente à contínua 'dataficação' dos consumidores da Internet, que envolve o rastreamento sistemático de todas as formas de dados. A dataficação do consumidor é caracterizada pela quantificação de uma parte substancial, senão de todos, dos comportamentos humanos para objetivos de marketing. A digitalização acelerada e a rápida dataficação do mundo contemporâneo tornam este conceito particularmente pertinente para o marketing, dado o crescimento exponencial do volume de dados. As projeções indicam um aumento de 44 para 163 zettabytes num período de cinco anos. A grande escala do big data frequentemente apresenta desafios de navegação para os profissionais de marketing. Consequentemente, as organizações que adotam soluções de big data podem encontrar desvantagens operacionais. Obter insights algorítmicos significativos pode ser árduo ao trabalhar com conjuntos de dados tão extensos. No domínio do marketing, o big data representa um instrumento altamente lucrativo para grandes corporações, cujo valor decorre da sua capacidade de prever tendências, interesses ou resultados estatísticos significativos do consumidor.

A aplicação do big data no marketing é caracterizada por três fatores principais:

Big data facilita a identificação de padrões de comportamento do cliente para profissionais de marketing, já que todas as ações humanas são quantificadas em pontos de dados analisáveis para fins de pesquisa. Além disso, o big data funciona como uma ferramenta sofisticada para recomendações personalizadas de produtos. Dada a sua eficácia na análise dos comportamentos de compra e padrões de navegação dos clientes, esta tecnologia permite que as empresas promovam produtos altamente personalizados para clientes individuais.
A capacidade de resposta do mercado em tempo real é crucial para os profissionais de marketing, pois permite o ajuste dinâmico das estratégias de marketing para se alinharem às tendências atuais, sustentando assim a relevância do consumidor. Essa capacidade de resposta fornece às empresas a inteligência necessária para antecipar proativamente as demandas e preferências dos consumidores.
Big data impulsiona significativamente a ambidestria do mercado baseada em dados. O desenvolvimento de novos modelos e algoritmos está em andamento para gerar previsões substanciais sobre cenários econômicos e sociais específicos.

Estudos de caso

Governo

China

A Plataforma Integrada de Operações Conjuntas (IJOP, 一体化联合作战平台) é utilizada pelo governo para vigilância da população, com foco particular nos uigures. Os dados biométricos, incluindo amostras de DNA, são coletados por meio de um programa que oferece exames físicos gratuitos.
Até 2020, a China pretendia atribuir uma pontuação pessoal de "crédito social" a todos os seus cidadãos, com base na sua conduta. O Sistema de Crédito Social, atualmente em implementação piloto em diversas cidades chinesas, é considerado uma forma de vigilância em massa que aproveita tecnologias de análise de big data.

Índia

A análise de big data foi utilizada pelo BJP na tentativa de garantir a vitória nas eleições gerais indianas de 2014.
O governo indiano emprega diversas metodologias para avaliar a resposta do eleitorado indiano às ações governamentais e para informar possíveis melhorias políticas.

Israel

Tratamentos personalizados para diabetes podem ser desenvolvidos utilizando a solução de big data da GlucoMe.

Reino Unido

As aplicações ilustrativas de big data nos serviços públicos incluem:

Uma unidade de pesquisa analisou dados de medicamentos prescritos, relacionando origem, local e horário de dispensação. Esta análise revelou um atraso significativo entre o lançamento de um medicamento e a sua adoção generalizada, de acordo com as diretrizes do Instituto Nacional de Excelência em Saúde e Cuidados em todo o Reino Unido, indicando um atraso na divulgação de medicamentos novos ou atuais aos pacientes.
Uma autoridade local integrou dados de vários serviços, incluindo horários de pavimentação de estradas e disposições de "Refeições sobre Rodas" para indivíduos vulneráveis. Essa integração de dados permitiu à autoridade mitigar interrupções de serviço induzidas pelo clima.

Estados Unidos

Em 2012, a administração Obama lançou a Iniciativa de Investigação e Desenvolvimento de Big Data, concebida para investigar a aplicação de big data na resolução de desafios governamentais críticos. Esta iniciativa abrange 84 programas distintos de big data distribuídos por seis departamentos federais.
A análise de big data contribuiu significativamente para o sucesso da campanha de reeleição de Barack Obama em 2012.
O Governo Federal dos Estados Unidos possui quatro dos dez supercomputadores mais poderosos do mundo.
A Agência de Segurança Nacional dos Estados Unidos (NSA) construiu o Utah Data Center, uma instalação projetada para processar volumes substanciais de informações provenientes da Internet coletadas pela NSA após sua conclusão. Embora a capacidade precisa de armazenamento permaneça não revelada, estimativas contemporâneas sugerem que ela acomodará vários exabytes. Esta extensa coleta de dados levantou preocupações consideráveis de segurança em relação ao anonimato dos dados.

Varejo

O Walmart processa mais de um milhão de transações de clientes por hora, integrando esses dados em bancos de dados estimados em mais de 2,5 petabytes (2.560 terabytes). Esse volume de dados equivale a 167 vezes a informação contida em todos os livros da Biblioteca do Congresso dos EUA.
Windermere Real Estate utiliza dados de localização de aproximadamente 100 milhões de motoristas para ajudar possíveis compradores de casas a avaliar a duração típica do deslocamento diário de ida e volta para o trabalho em diferentes horários do dia.
O FICO Card Detection System fornece proteção global para contas.
O varejo omnicanal emprega big data on-line para aprimorar as experiências do cliente na loja e em outras experiências off-line.

Ciência

As experiências no Grande Colisor de Hádrons (LHC) envolvem aproximadamente 150 milhões de sensores, gerando dados 40 milhões de vezes por segundo, com quase 600 milhões de colisões ocorrendo por segundo. Após uma extensa filtragem, que omite mais de 99,99995% desses fluxos de dados, são registradas aproximadamente 1.000 colisões de interesse científico a cada segundo.
- Consequentemente, ao processar menos de 0,001% dos dados brutos do sensor, a saída de dados combinada de todos os quatro experimentos do LHC totalizou uma taxa anual de 25 petabytes antes da replicação (a partir de 2012), expandindo para quase 200 petabytes pós-replicação.
- A gravação de todos os dados dos sensores do LHC geraria um vasto fluxo de dados incontrolável, potencialmente excedendo uma taxa anual de 150 milhões de petabytes, ou aproximadamente 500 exabytes diários, antes da replicação. Para contextualizar, esse volume equivale a 500 quintilhões (5×10²⁰) bytes por dia, representando quase 200 vezes os dados combinados de todas as outras fontes globais.
O Square Kilometer Array, um radiotelescópio composto por milhares de antenas, deverá iniciar operações em 2024. Prevê-se que este conjunto adquira coletivamente 14 exabytes de dados e armazene um petabyte por dia, posicionando-o entre os empreendimentos científicos mais ambiciosos já concebidos.
Após a sua criação em 2000, o Sloan Digital Sky Survey (SDSS) acumulou mais dados astronómicos nas suas primeiras semanas do que os que tinham sido recolhidos ao longo de toda a história anterior da astronomia. Sustentando uma taxa de aquisição de dados de aproximadamente 200 GB por noite, o SDSS acumulou mais de 140 terabytes de informações. O Large Synoptic Survey Telescope, previsto como sucessor do SDSS, deverá entrar em operação em 2020, com os projetistas prevendo que ele irá adquirir um volume equivalente de dados a cada cinco dias.
O processo de descodificação do genoma humano, que inicialmente demorou uma década, pode agora ser concluído em menos de 24 horas. Na última década, os sequenciadores de DNA reduziram os custos de sequenciamento por um fator de 10.000, uma redução de custos 100 vezes maior do que a prevista pela Lei de Moore.
O Centro de Simulação Climática da NASA (NCCS) mantém um repositório de 32 petabytes de observações e simulações climáticas em seu cluster de supercomputação Discover.
DNAStack, um componente do Google Genomics, agrega e estrutura dados genéticos de fontes globais para facilitar a identificação de doenças e outras anomalias médicas. As capacidades computacionais rápidas e precisas deste sistema atenuam potenciais erros humanos, muitas vezes referidos como “pontos de fricção”, que podem surgir do processamento manual por especialistas científicos e biológicos. Ao aproveitar os extensos recursos da infraestrutura de pesquisa do Google, o DNAStack permite que os pesquisadores dimensionem instantaneamente experimentos científicos complexos que tradicionalmente levariam anos para serem concluídos.
O banco de dados de DNA 23andMe abrange os perfis genéticos de mais de um milhão de indivíduos em todo o mundo. A empresa está investigando a potencial venda de dados genéticos agregados e anonimizados a pesquisadores externos e empresas farmacêuticas para fins investigativos, dependendo do consentimento explícito do paciente. Ahmad Hariri, professor de psicologia e neurociência na Duke University, que incorporou a 23andMe em sua pesquisa desde 2009, enfatiza que uma vantagem crítica do serviço da empresa é sua capacidade de tornar a pesquisa genética acessível e economicamente viável para os cientistas. Após a publicação de um estudo que identificou 15 loci genômicos associados à depressão no banco de dados 23andMe, houve um aumento notável nas solicitações de acesso a dados, com a empresa recebendo aproximadamente 20 consultas sobre dados relacionados à depressão em duas semanas.
Pesquisas em dinâmica de fluidos computacional (CFD) e turbulência hidrodinâmica frequentemente produzem conjuntos de dados excepcionalmente grandes. Os bancos de dados de turbulência da Johns Hopkins (JHTDB) armazenam atualmente mais de 350 terabytes de dados de campo espaço-temporais derivados de simulações numéricas diretas de diversos fluxos turbulentos. Tradicionalmente, o compartilhamento de conjuntos de dados tão extensos tem sido um desafio, principalmente por meio de métodos como o download de arquivos de saída de simulação estática. O JHTDB facilita o acesso a dados por meio de "sensores virtuais", oferecendo vários modos de interação, incluindo consultas diretas ao navegador da Web, acesso programático por meio de aplicativos do lado do cliente desenvolvidos em Matlab, Python, Fortran e C, e serviços especializados para extração de dados brutos. Este repositório de dados contribuiu para mais de 150 publicações científicas.

Aplicativos esportivos

A análise de big data, muitas vezes integrada com tecnologias de sensores esportivos, oferece um potencial significativo para melhorar os regimes de treinamento dos atletas e refinar as estratégias competitivas. Além disso, estes métodos analíticos permitem a previsão dos resultados dos jogos e do desempenho individual dos jogadores. Consequentemente, a avaliação e a remuneração dos atletas são cada vez mais influenciadas por dados abrangentes recolhidos ao longo de uma temporada inteira.

Os veículos de corrida de Fórmula 1 estão equipados com centenas de sensores, gerando terabytes de dados que abrangem métricas desde a pressão dos pneus até à eficiência do consumo de combustível. Engenheiros e analistas de dados aproveitam esse extenso conjunto de dados para informar ajustes estratégicos destinados a otimizar o desempenho da corrida. Além disso, metodologias de big data permitem que as equipes de corrida prevejam os tempos de conclusão das corridas por meio de simulações baseadas em dados sazonais acumulados.

Implementações tecnológicas

A partir de 2013, o eBay.com utilizou dois data warehouses, com capacidades de 7,5 petabytes e 40 petabytes respectivamente, juntamente com um cluster Hadoop de 40 petabytes. Essas infraestruturas apoiavam funções críticas, como recursos de pesquisa, sistemas de recomendação de consumidores e operações de merchandising.
A Amazon.com processa milhões de operações diárias de back-end e gerencia consultas de mais de 500 mil fornecedores terceirizados. A tecnologia fundamental que sustenta as operações da Amazon é baseada em Linux; em 2005, a empresa mantinha os três maiores bancos de dados Linux do mundo, com capacidades de 7,8 terabytes, 18,5 terabytes e 24,7 terabytes.
O Facebook gerencia um repositório de 50 bilhões de fotografias contribuídas por sua base de usuários. Em junho de 2017, a plataforma atingiu a marca de dois bilhões de usuários ativos mensais.
Em agosto de 2012, o Google processou aproximadamente 100 bilhões de consultas de pesquisa por mês.
A Amazon é um exemplo proeminente da implementação de big data, empregando análise de dados para potencializar seu sofisticado mecanismo de recomendação. A empresa atribui receitas substanciais de vendas às suas seções “recomendadas”, que apresentam sugestões personalizadas de produtos para os consumidores.

Pandemia de COVID-19

Durante a pandemia de COVID-19, o big data emergiu como uma ferramenta crucial para mitigar o impacto da doença. As principais aplicações envolviam estratégias para minimizar a transmissão viral, identificar casos e acelerar o desenvolvimento de tratamentos médicos.

Os governos aproveitaram big data para rastrear indivíduos infectados e reduzir a propagação de doenças. Os primeiros a adotar essas estratégias incluem China, Taiwan, Coreia do Sul e Israel.

Iniciativas de pesquisa

Em março de 2014, uma pesquisa apresentada na Sociedade Americana de Educação em Engenharia mostrou avanços na pesquisa criptografada e na formação de clusters em ambientes de big data. Gautam Siwach, afiliado à iniciativa do Laboratório de Ciência da Computação e Inteligência Artificial do MIT Enfrentando os desafios do Big Data, e Amir Esmailpour do Grupo de Pesquisa UNH, investigaram em conjunto as características fundamentais do big data, concentrando-se especificamente na geração de clusters e interconexões. A pesquisa deles priorizou a segurança de big data, examinando como o conceito se aplica a diversos tipos de dados criptografados na interface da nuvem por meio de definições fundamentais e ilustrações tecnológicas práticas. Além disso, eles introduziram uma metodologia para identificar técnicas de codificação, com o objetivo de facilitar pesquisas rápidas em texto criptografado e, assim, melhorar a segurança de big data.

Em março de 2012, a Casa Branca lançou uma "Iniciativa de Big Data", que envolveu um compromisso superior a US$ 200 milhões de seis departamentos e agências federais para vários projetos de pesquisa de big data. AMPLab da Universidade da Califórnia, Berkeley. O AMPLab também garantiu financiamento da DARPA e de mais de doze patrocinadores industriais, aproveitando metodologias de big data para enfrentar uma ampla gama de desafios, que vão desde a previsão de congestionamentos de tráfego até a pesquisa do câncer.

Além disso, a Iniciativa de Big Data da Casa Branca incorporou um compromisso de financiamento de cinco anos de US$ 25 milhões do Departamento de Energia para estabelecer o Instituto de Gerenciamento, Análise e Visualização de Dados Escaláveis (SDAV). Este instituto, liderado pelo Laboratório Nacional Lawrence Berkeley do Departamento de Energia, foi concebido para consolidar a experiência de seis laboratórios nacionais e sete universidades. Seu objetivo é inovar em novas ferramentas que ajudarão os cientistas no gerenciamento e visualização de dados processados nos supercomputadores do departamento.

Em maio de 2012, o estado americano de Massachusetts lançou sua própria Iniciativa de Big Data de Massachusetts, que canaliza financiamento do governo estadual e de empresas privadas para diversas instituições de pesquisa. Notavelmente, o Instituto de Tecnologia de Massachusetts (MIT) acolhe o Centro de Ciência e Tecnologia da Intel para Big Data no seu Laboratório de Ciência da Computação e Inteligência Artificial, integrando financiamento governamental, corporativo e institucional com esforços de investigação colaborativa.

A Comissão Europeia está a fornecer apoio financeiro para o Fórum Público-Privado de Big Data, com duração de dois anos, operando no âmbito do seu Sétimo Programa-Quadro. Esta iniciativa visa promover o diálogo entre empresas, académicos e outras partes interessadas importantes sobre questões críticas de big data. O objetivo principal do projeto é formular uma estratégia abrangente de investigação e inovação que informará e orientará as ações de apoio da Comissão Europeia para a realização bem-sucedida da economia de big data. As conclusões deste projeto pretendem servir como contributo fundamental para o Horizonte 2020, o programa-quadro subsequente.

Em março de 2014, o governo britânico anunciou a criação do Instituto Alan Turing, nomeado em homenagem ao renomado pioneiro da informática e decifrador de códigos. Este instituto se dedica a explorar novas metodologias para a coleta e análise de extensos conjuntos de dados.

Durante o Inspiration Day da Canadian Open Data Experience (CODE) no campus da Universidade de Waterloo Stratford, os participantes ilustraram como as técnicas de visualização de dados podem melhorar significativamente a compreensão e a atratividade de grandes conjuntos de dados, transmitindo efetivamente suas narrativas globalmente.

No domínio das ciências sociais computacionais, os pesquisadores podem aproveitar interfaces de programação de aplicativos (APIs) fornecidas gratuitamente pelos principais big data. entidades, como Google e Twitter, para realizar estudos nos domínios social e comportamental. Por exemplo, Tobias Preis et al. utilizou dados do Google Trends para ilustrar uma correlação: os usuários da Internet em países com Produto Interno Bruto (PIB) per capita mais elevado apresentam uma maior propensão para pesquisar informações relativas ao futuro em comparação com o passado. Estas descobertas implicam uma ligação potencial entre comportamentos de pesquisa online e indicadores económicos tangíveis. Os autores do estudo analisaram os registros de consultas do Google calculando um “índice de orientação futura”, definido como a razão entre o volume de pesquisas do próximo ano (2011) e o do ano anterior (2009). Uma comparação desse índice com o PIB per capita de cada país revelou uma tendência robusta de países onde os usuários do Google perguntam mais sobre o futuro também possuírem um PIB mais alto.

Tobias Preis, Helen Susannah Moat e H. Eugene Stanley desenvolveram uma metodologia para identificar indicadores on-line que precedem as flutuações do mercado de ações, utilizando estratégias de negociação derivadas dos dados de volume de pesquisa do Google Trends. O estudo deles, publicado no Scientific Reports, analisou os volumes de pesquisa do Google para 98 termos financeiramente relevantes, indicando que volumes elevados de pesquisa para esses termos geralmente precedem quedas significativas nos mercados financeiros.

O surgimento de grandes conjuntos de dados introduz novos desafios algorítmicos que anteriormente não existiam. Consequentemente, alguns investigadores defendem uma reavaliação fundamental das metodologias de processamento de dados.

Metodologias de amostragem para Big Data

Uma investigação fundamental sobre conjuntos de big data gira em torno de se uma análise abrangente de dados é indispensável para inferir propriedades de dados ou se uma amostra representativa é suficiente. O aspecto “grande” inerente ao big data sublinha o seu volume significativo como uma característica definidora. Contudo, a amostragem facilita a selecção criteriosa de pontos de dados a partir de um extenso conjunto de dados, permitindo a estimativa das características globais da população. Por exemplo, na fabricação, diversos dados sensoriais – incluindo acústica, vibração, pressão, corrente, tensão e dados do controlador – são gerados em intervalos frequentes. Para manutenção preditiva, especificamente previsão de tempo de inatividade, a análise de um subconjunto desses dados pode ser adequada, em vez de todo o corpus. Big data pode ser categorizado em vários tipos de pontos de dados, como informações demográficas, psicográficas, comportamentais e transacionais. A disponibilidade de vastas coleções de pontos de dados permite que os profissionais de marketing desenvolvam e implementem segmentos de consumidores altamente personalizados, aumentando assim a eficácia da segmentação estratégica.

Críticas ao Big Data

As críticas ao paradigma do big data geralmente se enquadram em duas categorias: aquelas que desafiam as implicações fundamentais da abordagem e aquelas que examinam a sua implementação atual. Os estudos críticos de dados representam uma disciplina acadêmica significativa que aborda essas preocupações.

Críticas ao paradigma do Big Data

"Um problema crucial é que não sabemos muito sobre os microprocessos empíricos subjacentes que levam ao surgimento dessas características de rede típicas do Big Data." Na sua crítica, Snijders, Matzat e Reips destacam que as análises baseiam-se frequentemente em pressupostos robustos relativos a propriedades matemáticas, que podem não representar com precisão a dinâmica real a nível micro. Mark Graham desafiou extensivamente a proposição de Chris Anderson de que big data significa a obsolescência de estruturas teóricas, enfatizando o imperativo de contextualizar big data dentro dos seus ambientes sociais, económicos e políticos. Apesar dos investimentos empresariais substanciais, muitas vezes atingindo somas de oito e nove dígitos, destinados a extrair insights de fluxos de dados de fornecedores e clientes, menos de 40% dos funcionários possuem os processos maduros e as competências necessárias para uma utilização eficaz dos dados. Para colmatar esta lacuna de conhecimento, os big data, independentemente da sua abrangência ou rigor analítico, necessitam de ser aumentados com "grande julgamento", conforme articulado num artigo publicado na Harvard Business Review.

Da mesma forma, os críticos afirmam que as decisões derivadas da análise de big data são inerentemente limitadas por informações históricas ou atuais. Os algoritmos, treinados em extensos conjuntos de dados históricos, podem prever tendências futuras apenas quando as condições futuras se assemelham aos padrões passados. Caso a dinâmica futura do sistema diverja, indicando um processo não estacionário, os dados históricos oferecem um valor preditivo limitado. Previsões precisas em ambientes em evolução requerem uma compreensão teórica abrangente da dinâmica do sistema. Em resposta, Alemany Oliver e Vayre propõem o emprego do "raciocínio abdutivo" como um passo inicial de pesquisa para contextualizar os traços digitais do consumidor e facilitar o surgimento de novas teorias. Além disso, tem sido defendida a integração de metodologias de big data com simulações computacionais, incluindo modelos baseados em agentes e sistemas complexos. Os modelos baseados em agentes estão a demonstrar capacidades melhoradas na previsão dos resultados de fenómenos sociais complexos, mesmo em cenários futuros imprevistos, através de simulações construídas sobre algoritmos interdependentes. Por último, métodos multivariados, como análise fatorial e análise de cluster, que exploram a estrutura latente dos dados, têm se mostrado eficazes como estratégias analíticas, superando as limitações das abordagens bivariadas (por exemplo, tabelas de contingência) comumente usadas com conjuntos de dados menores.

Nos campos da saúde e da biologia, as metodologias científicas tradicionais baseiam-se principalmente na experimentação. Uma restrição fundamental para estes métodos é a disponibilidade de dados pertinentes capazes de confirmar ou refutar a hipótese inicial. Um postulado contemporâneo em biociências reconhece que a informação derivada de vastos conjuntos de dados "ómicos", mesmo sem uma hipótese pré-existente, pode complementar e, por vezes, ser indispensável às abordagens experimentais convencionais. Por outro lado, nestas abordagens baseadas em dados em grande escala, o principal desafio reside na formulação de uma hipótese relevante para interpretar os dados observados. Esta mudança de paradigma inverte a lógica de pesquisa tradicional, necessitando de um exame crítico das limitações da indução, conforme destacado por C. D. Broad em 1926 como o "escândalo da Glória da Ciência e da Filosofia".

Os defensores da privacidade expressam apreensão relativamente à crescente ameaça à privacidade individual representada pelo armazenamento expandido e integração de informações pessoalmente identificáveis. Em resposta, painéis de especialistas emitiram inúmeras recomendações políticas destinadas a alinhar as práticas de dados com as expectativas de privacidade. Os casos de uso indevido de big data pela mídia, corporações e entidades governamentais corroeram significativamente a confiança pública em quase todas as instituições sociais fundamentais.

Barocas e Nissenbaum afirmam que proteger os usuários individuais exige transparência em relação às categorias de informações coletadas, às entidades com quem elas são compartilhadas, às restrições aplicáveis e às finalidades específicas de seu uso.

Críticas ao modelo "V"

O modelo “V” de big data é problemático porque seu foco principal na escalabilidade computacional negligencia os aspectos cruciais da perceptibilidade e compreensão da informação. Essa deficiência levou ao desenvolvimento da estrutura cognitiva de big data, que categoriza aplicações de big data com base nos seguintes critérios:

Completude dos dados: a capacidade de discernir insights não óbvios dos dados.
Correlação de dados, causalidade e previsibilidade: reconhecer que a causalidade nem sempre é um pré-requisito para alcançar a previsibilidade.
Explicabilidade e interpretabilidade: Atendendo à necessidade humana de compreender e aceitar informações, um requisito que os algoritmos muitas vezes não conseguem satisfazer.
Nível de tomada de decisão automatizada: relativo a algoritmos que facilitam a tomada de decisão automatizada e a autoaprendizagem algorítmica.

Críticas sobre novidades

A análise de extensos conjuntos de dados por máquinas computacionais tem uma história que se estende por mais de um século, exemplificada pelas análises do censo dos EUA conduzidas usando máquinas de cartões perfurados da IBM, que calculavam estatísticas populacionais, como médias e variações, em todo o continente. Mais recentemente, empreendimentos científicos como o CERN geraram volumes de dados comparáveis às operações comerciais contemporâneas de “big data”. No entanto, os experimentos científicos normalmente processam seus dados usando clusters e grades de computação de alto desempenho (supercomputação) especializados e personalizados, contrastando com a tendência comercial atual de empregar nuvens de computadores como commodity, indicando assim abordagens culturais e tecnológicas distintas.

Críticas à implementação de Big Data

Ulf-Dietrich Reips e Uwe Matzat (2014) caracterizaram o big data como uma “moda” na pesquisa científica. A investigadora danah boyd expressou reservas relativamente à aplicação de big data em contextos científicos, notando particularmente uma tendência para ignorar princípios fundamentais como a amostragem representativa devido a um foco excessivo na gestão de vastos volumes de dados. Tais metodologias podem introduzir várias formas de preconceito nos resultados da investigação. A integração de recursos de dados díspares — abrangendo tanto big data quanto conjuntos de dados convencionais — apresenta obstáculos logísticos e analíticos substanciais; no entanto, numerosos investigadores afirmam que tais integrações significam uma direção altamente promissora para o avanço científico. No seu artigo instigante, "Questões Críticas para Big Data", os autores categorizam big data como uma construção mitológica, afirmando que "grandes conjuntos de dados oferecem uma forma superior de inteligência e conhecimento [...], com a aura de verdade, objetividade e precisão". Os profissionais que utilizam big data frequentemente ficam “perdidos no grande volume de números”, e o processo de “trabalhar com Big Data ainda é subjetivo, e o que ele quantifica não tem necessariamente uma reivindicação mais próxima da verdade objetiva”. Os avanços contemporâneos no domínio da inteligência empresarial (BI), particularmente os relatórios proativos, visam melhorar a usabilidade do big data através da filtragem automatizada de dados e correlações irrelevantes. Conjuntos de dados extensos exibem frequentemente correlações espúrias, atribuíveis a coincidências não causais (de acordo com a lei dos números verdadeiramente grandes), à natureza inerente da aleatoriedade em grande escala (teoria de Ramsey) ou à presença de variáveis não consideradas; consequentemente, a aspiração inicial dos primeiros investigadores de permitir que vastas bases de dados numéricas "falassem por si" e transformassem fundamentalmente o método científico está agora sujeita a escrutínio. Catherine Tucker destacou o “hype” em torno do big data, afirmando que “por si só, é improvável que o big data seja valioso”. O artigo explica: "Os muitos contextos em que os dados são baratos em relação ao custo de retenção de talentos para processá-los sugerem que as competências de processamento são mais importantes do que os próprios dados na criação de valor para uma empresa."

A análise realizada em big data apresenta frequentemente menos profundidade do que a realizada em conjuntos de dados mais pequenos. Numerosas iniciativas de big data não envolvem principalmente análises extensivas de dados; em vez disso, o principal desafio reside nas fases de extração, transformação e carregamento (ETL) do pré-processamento de dados.

Big data é caracterizado tanto como uma palavra da moda quanto como um "termo vago", mas representa simultaneamente uma "obsessão" entre empreendedores, consultores, cientistas e meios de comunicação. Aplicações proeminentes de big data, como o Google Flu Trends, falharam recentemente em fornecer previsões precisas, superestimando notavelmente os surtos de gripe por um fator de dois. Da mesma forma, as previsões para eventos como os Prémios da Academia e as eleições, baseadas exclusivamente em dados do Twitter, revelaram-se frequentemente imprecisas. O big data apresenta frequentemente desafios análogos aos encontrados com conjuntos de dados mais pequenos; o simples aumento do volume de dados não resolve questões de preconceito, mas pode agravar outros problemas. Especificamente, fontes de dados como o Twitter não são representativas da população em geral e as conclusões delas derivadas podem, consequentemente, ser erradas. O Google Translate – que depende de análise estatística de big data de conteúdo textual – tem um desempenho eficaz na tradução de páginas da web. No entanto, os resultados de domínios altamente especializados podem ser significativamente distorcidos. Por outro lado, o big data pode introduzir novas questões, como o problema de comparações múltiplas, onde testar simultaneamente numerosas hipóteses aumenta substancialmente a probabilidade de gerar falsos positivos que pareçam estatisticamente significativos. Ioannidis afirmou que "a maioria dos resultados de pesquisas publicados são falsos", atribuindo isso a um fenômeno semelhante: quando numerosas equipes científicas e pesquisadores conduzem vários experimentos (ou seja, processam dados científicos substanciais, embora não necessariamente com tecnologia de big data), a probabilidade de um resultado "significativo" ser errôneo aumenta rapidamente, especialmente quando apenas resultados positivos são divulgados. Além disso, a eficácia dos resultados da análise de big data depende do modelo subjacente. Por exemplo, big data foi utilizado nas tentativas de prever os resultados das eleições presidenciais dos EUA em 2016, produzindo resultados mistos.

Críticas relativas às aplicações de big data no policiamento e na vigilância.

As aplicações de big data estendem-se ao policiamento e à vigilância, empregados por entidades como agências de aplicação da lei e organizações corporativas (vigilância corporativa e capitalismo de vigilância). A opacidade inerente à vigilância baseada em dados, em contraste com as metodologias convencionais de policiamento, muitas vezes diminui a probabilidade de dissidência pública. O trabalho de Sarah Brayne, Vigilância de Big Data: O Caso do Policiamento, identifica três mecanismos através dos quais o policiamento de big data pode perpetuar as disparidades sociais existentes:

Sujeitar indivíduos a vigilância intensificada, muitas vezes racionalizada pela suposta imparcialidade dos processos algorítmicos.
Expandir a amplitude e o volume de indivíduos sujeitos ao monitoramento da aplicação da lei, intensificando assim a desproporcionalidade racial pré-existente na estrutura da justiça criminal.
Incentivar os membros da sociedade a se desligarem das interações institucionais que geram pegadas digitais, impedindo, consequentemente, a integração social.

Se estas questões emergentes permanecerem sem solução ou regulamentadas, as ramificações do policiamento de big data poderão influenciar persistentemente a estratificação social. Brayne sugere ainda que a aplicação criteriosa do policiamento de big data pode mitigar a transformação de preconceitos individuais em preconceitos institucionais sistêmicos.

Referências

Bibliografia

A definição do dicionário de big data no Wikcionário

Grandes dados (Big data)