Vamos falar sobre Data Science?

Vamos falar sobre Data Science?

Você já deve ter ouvido falar de Data Science (ou Ciência de Dados). O tema está em alta, e muita gente já deve ter uma ideia do que seja. Mas definir exatamente o que é Data Science é outra história…

No geral, consideramos que a Ciência de Dados é a junção de 3 áreas de conhecimento: Ciências da Computação, Estatística e Negócios. Substitua “Negócios” por qualquer área de atuação possível: saúde, bancos, governos, educação, marketing. A IBM tem uma boa definição para o que seria Data Science:

“A ciência de dados é o processo de utilização de algoritmos, métodos e sistemas para extrair conhecimento e insights de dados estruturados e não estruturados”.

Apesar de resumir bem o que é, essa definição faz com que a Ciência de Dados não pareça ser de fato uma Ciência. E por isso, queria discutir com vocês hoje:

Será que a Ciência de Dados é mesmo uma ciência?

A resposta curta para essa pergunta é: SIM!

Ciência de Dados é uma ciência, mais ou menos como Ciência da Computação é uma ciência, ou Ciências Econômicas são ciência. Agora, o que se chama de Cientista de Dados por ai geralmente é uma pessoa que trabalha para uma empresa, em um escritório. Esses profissionais estão mais para engenheiros de dados, do que cientistas.

Mas é possível fazer Ciência de Dados dentro do laboratório, ou em um instituto de pesquisa. Um exemplo disso é o Cappra Institute, do Ricardo Cappra. Eles formam uma equipe de pesquisa mesmo, trabalhando com método científico, investigação, estudo de hipóteses. O que torna o Cientista de Dados, realmente um cientista.

Vamos aprofundar um pouco mais a discussão então?

Críticas sobre a Ciência de Dados enquanto Ciência

Existe muita crítica em cima dessa questão, alegando que Data Science então, não seria uma ciência de verdade. Falando nisso, tem um artigo excelente nesse assunto no site Towards Data Science.

O artigo menciona 4 críticas comuns a ciência de dados, e vou citar aqui uma delas, a que eu acho fundamental para essa análise:

“Data Science pode encontrar qualquer coisa em um conjunto muito grande de dados. Formando subgrupos e criando novas variáveis, qualquer coisa pode ser ‘provada’.”

Essa frase pode ser interpretada tanto para o bem quanto para o mau.

De maneira positiva, significa que a verdade está nos dados, mas é preciso procurar fundo para encontrar boas respostas.

E de maneira negativa, qualquer coisa pode ser provada, mesmo que seja mentira, fazendo análises tendenciosas, ou forçando a barra para encontrar a resposta que se procura, seja ela verdadeira ou não.

Sendo assim, gostaria de deixar aqui outra definição para Ciência de Dados, mas incentivo vocês à buscarem outras mais, antes de definir o que é Data Science para você.

Eu tenho uma definição pessoal do que é Data Science, que fui construindo e evoluindo conforme avançava nos estudos do tema. A definição está a seguir, e fiquem à vontade para usar e compartilhar:

Data Science é uma abordagem multidisciplinar para a obtenção e análise de dados, geração de insights e suporte para tomada de melhores decisões. Sejam elas tomadas por pessoas ou máquinas.

Vamos para um exemplo prático então? Queria compartilhar com vocês um case da Netflix:

A Netflix tem um dos Sistemas de Recomendação mais avançados do mundo (possivelmente o mais avançado).

Para fazer as recomendações de filmes e séries, a Netflix divide os usuários em clusters (grupos), usando Machine Learning. Ou seja, baseado no que os usuários assistem, eles são organizados em grupos de preferência: quem gosta de séries dramáticas, filme de comédia, documentários e por vai. E as recomendações que aparecem na tela de cada usuário variam de acordo com as preferências individuais e do grupo de preferências que a pessoa faz parte.

Isso tudo é decidido por algoritmos e por aproximação. Nem todo mundo dentro do cluster de fãs de filmes de comédia, por exemplo, assistiram os mesmos filmes. E eles não assistiram só comédia. Mas os algoritmos da Netflix estão processando esses dados de uso a todo momento e identificando novos padrões entre os usuários.

A empresa faz isso porque sabe que as pessoas têm dificuldade de escolher o que vão assistir, e gostam de receber boas recomendações. E usuários que assistem mais, cancelam menos. Por isso esse esforço monumental no Sistema de Recomendação.

E o que podemos então, concluir disso tudo?

A área de Data Science é muito recente. Apesar de já possuir muitas aplicações práticas, ela precisa de tempo para atingir a sua maturidade.

Sobre a carreira de Cientista de Dados, ela foi considerada pela Harvard Business Review a mais “sexy” do século 21. É uma descrição curiosa, para dizer o mínimo. Mas é uma carreira muito interessante, extremamente útil para as empresas e os salários são bem altos.

Espero que tenham gostado deste conteúdo inicial sobre Data Science!

Deixe seu feedback para gente se você quiser saber mais sobre o tema.

Até a próxima!

DataData & Analytcisdata analyticsData drivendata science

Deixe seu comentário

CANAL DE ÉTICA E CONDUTA

O Código de Ética e Conduta da AMcom expressa a forma de atuação da empresa em todos os seus negócios, orientando o modo pelo qual seus colaboradores e terceiros devem se comportar e agir em relação aos temas nele abordados.

Ele reúne as principais diretrizes éticas, normas internas e o dever de conformidade com leis e normas externas, especialmente aquelas voltadas ao combate à corrupção, suborno e lavagem de dinheiro, ao assédio e a toda e qualquer prática irregular.

Ele dispõe, ainda, de regras relacionadas aos comportamentos desejados na empresa e que devem ser adotadas por todos, e estimula que seja utilizado o Canal de Denúncia imediatamente caso haja qualquer violação ao código.