4 Questões sobre Data Science #3

A nossa sociedade está a entrar numa nova era de dados e máquinas inteligentes. Data Science não é uma moda passageira ou algo que as organizações possam dispensar ou ignorar. Sabe o suficiente para perceber como aproveitar esta tendência? 

Filipa Rodrigues, Coordenadora Científica da Pós-Graduação em Data Science vai, numa série de 5 pequenos artigos sobre o tema, responder a algumas das questões que lhe são colocadas com frequência.

 

4 Questões sobre Data Science #3 1 Rumos, Formação e Serviços em Tecnologias da Informação

 

Artigo de Filipa Rodrigues, Coordenadora Científica da Pós-Graduação em Data Science na Rumos

 

#3: Qual a melhor linguagem de programação para Data Science?

Programar é inevitável quando se trabalha em Data Science devido à necessidade de criar modelos e relatórios altamente personalizados que respondem a questões muito específicas do negócio. Mas programar não precisa de ser uma tarefa apenas dos engenheiros de software. Existem duas linguagens bastante populares em Data Science, R e  Python, com as quais é possível aprender rapidamente o suficiente para fazer as principais tarefas de Data Science.

Python é uma linguagem de programação legível e fácil de aprender, que pode ser usada para transformação, análise, predição e visualização avançadas de dados e que se comporta bem com outras ferramentas e tecnologias, lidando muito bem com Big Data. Existem vários pacotes e frameworks em Python que a tornam a linguagem de eleição para muitos data scientists. Entre as mais populares temos o Pandas, biblioteca dedicada às tarefas mais importantes relacionadas com a limpeza, transformação e análise de dados e o Scikit-Learn, que oferece um conjunto de ferramentas muito completo para uso de algoritmos de previsão. Existem também uma série de frameworks para deep learning, um tipo de machine learning que tem revolucionado o mundo dos dados nos últimos anos, como o Tensorflow, Keras e Pytorch.

O R foi desenvolvido especificamente para computação estatística e, consequentemente, tem uma oferta abundante de packages de computação estatística. Os recursos de visualização de dados de R são um pouco mais sofisticados que os do Python e geralmente mais fáceis de gerar. No entanto, tem uma oferta menor no que toca a algoritmos de deep learning, e não lida tão bem com Big Data como o Python. E, para pessoas sem experiência de programação, não é tão intuitivo de aprender.

 


Leia os restantes artigos deste tema aqui:

4 Questões sobre Data Science #1: Business Intelligence e Data Science, não é tudo a mesma coisa?

4 Questões sobre Data Science #2: Analistas, Engenheiros, Cientistas de Dados… afinal, de quantos profissionais precisamos?

4 Questões sobre Data Science #4: Que aplicações pode ter a Data Science no mundo real?

+ 3 questões sobre a Pós-Graduação em Data Science