Cientista de dados é uma das profissões mais requisitadas atualmente. Se realizarmos uma simples pesquisa no Linkedin encontraremos muitas oportunidades. No momento que escrevo esse artigo encontrei mais de 600 oportunidades somente no Brasil. Os segmentos também são os mais variados. Podemos falar de alguns mais solicitados: Saúde, finanças, logística, e-commerce. E a cada dia que passa novas oportunidades vão surgindo. O nível de experiência também são os mais variados: trainee, júnior, assistente, pleno, sênior e especialista.
Os conhecimentos solicitados também são os mais variados. Porém alguns conhecimentos são imprescindíveis. Estamos falando de hard e soft skills.
Primeiro vamos definir o que é “Ciência e dados” e o que é “Cientista de Dados”?
Ciência de dados: É a exploração e análise de todos os dados disponíveis, sejam eles estruturados ou não, com o objetivo de desenvolver compreensão, extrair conhecimento e formular ações que gerem resultados.
Cientista de dados: São profissionais especialistas em análise de dados. Adquirem uma grande massa de dados, realizam o tratamento (limpar, organizar, preparar). Com esses dados tratados, utilizam suas habilidades (matemática, estatística e machine learning) para desvendar os mistérios ocultos nos dados. Com isso conseguem realizar insights que posteriormente são utilizados para a tomada de decisões.
Então vamos falar sobre o que é necessário para possibilitar a entrar no mundo dos “Cientistas de Dados”
Se auto-avalie
Avalie a sua situação atual e onde você quer estar daqui a 5 anos. Parece clichê, mas é importante realizar essa avaliação. Veja quais conhecimentos você tem e quais serão necessários adquirir.
Programação: O cientista de dados utiliza muito alguma linguagem de programação (java, python, R) para realizar a preparação de dados e construir/utilizar os algoritmos de machine learning. Se você já tiver experiência de programação, ótimo, já sai na frente. Caso não tenha experiência, mas tenha noções de programação também vai ajudar.
Pensamento lógico: É fato que se você já tiver experiência em programação, com certeza também terá o pensamento lógico. Se tiver, quer dizer que conseguiu subir mais um degrau.
Matemática: Se você é bom em matemática, show. A habilidade em manipular números é a base da ciência de dados.
Banco de dados: Esse é mais um conhecimento relacionado com programação. Nas diversas fases da análise de dados, você será continuamente confrontado com algum aspecto de armazenamento em banco de dados. E neste item, alguns conhecimentos extras são necessários. Por exemplo: linguagem SQL, Banco de dados relacionais, Data Warehouse, Banco de dados NoSql e Hadoop.
Existem ainda outras habilidades não tão palpáveis. Por exemplo: ser curioso, determinado, e estar sempre em modo de aprendizado
Estatística e Matemática
Em todas as áreas da nova vida sempre estamos utilizando a matemática. E para o cientista de dados, a matemática deve ser levado muito a sério. E não estamos falando de matemática básica. Estamos falando de um conhecimento mais aprofundado que envolve modelos estatísticos, algoritmos de machine learning, álgebra linear, etc.
É necessário ser especialista ou graduado em estatística ou matemática? Não. É necessário ter um conhecimento mais abrangente e ir se aprofundando conforme a evolução da sua jornada de aprendizagem. E sempre aplicá-los utilizando alguma linguagem de programação.
Big Data
Dados, dados e mais dados. Ou seja, matéria prima para o cientista de dados. A profissão de cientista de dados surgiu pela necessidade de criação novos métodos de analisar essa gigantesca montanha de dados. Dar ordem no caos do Big Data e tirar insights.
Então é importante que o cientista de dados conheça bem o funcionamento da infraestrutura de armazenamento de dados.
Hadoop: Praticamente podemos dizer que hadoop se tornou sinônimo de processamento e armazenamento de grande volume de dados (big data).
Spark: Essa ferramenta foi concebida com o objetivo de ser veloz no processamento de grande volume de dados.
Bancos de dados: Conhecer os tipos de bancos de dados e como manipulá-los é mais um requisito essencial na sua caixa de ferramentas. E aqui estamos falando de banco de dados relacionais, bancos de dados NoSql e Data Warehouses.
Como cientista de dados você precisa estar sempre conhecendo e sendo especialista em novas tecnologias? Não. Mas com certeza, estar antenado nas novas tecnologias trará vantagens profissionais. E se conhecer, você subirá mais alguns degraus.
Linguagem de Programação
É aqui que muita gente desiste. Linguagem de programação não é um bicho de sete cabeças. Talvez 6 cabeças (rs). Muitos desistem, pois querem já ir para o modo avançado. Dessa forma o aprendizado se torna frustrante e desanimador. É importante subir um degrau de cada vez, aprendendo conceitos básicos e programas com poucas linhas de código e ir aumentando conforme seu conhecimento e expertise vai aumentando. Vença pequenos desafios, e vá aumentando a complexidade do desafio. Ahh. E o mais importante: no seu ritmo.
Podemos citar algumas linguagens de programação gratuitas e muito utilizadas no mercado de trabalho.
Java: É uma linguagem de uso geral. É muito utilizado no mercado de trabalho para as mais variadas aplicabilidades. Porém é uma linguagem mais difícil de dominar.
Python: Também é uma linguagem de uso geral. E tem recebido muitos módulos para Data Science. É uma linguagem mais fácil de aprender.
R: É uma linguagem criada especificamente para aplicações estatísticas, mas que também pode ser aplicada para uso geral. Tem uma alta capacidade para processar grandes volumes de dados e criar gráficos muito bem elaborados.
Existem outras linguagens que também podem ser utilizadas como Julia, Scala, etc.
Machine Learning
Talvez essa seja a expressão mais utilizada como sinônimo de ciência de dados. Aqui temos os algoritmos de aprendizado de máquina e que você utiliza diariamente sem saber. Por exemplo: mecanismos de buscas (google ou bing), reconhecimento facial no Facebook, sistemas de recomendação do Netflix, etc.
Existem atualmente mais de 60 tipos de algoritmos de aprendizagem. Cada um tem um nicho específico de aplicação, e também formas diferentes de serem utilizados. Por exemplo, método aprendizagem supervisionada e método de aprendizagem não-supervisionada. E em cada método há diversos algoritmos, como por exemplo: K-Means, Linear Regression, PCA, KNN, etc.
Você irá aprendendo os algoritmos conforme os problemas de negócio forem surgindo. Mas saber o que cada um faz é muito importante com o intuito de conhecer e consequentemente ter capacidade de decidir qual algoritmo aplicar em cada problema.
Conhecimento de negócios
Ahh tá… Você ainda quer que saibamos sobre logística, finanças, cartões, saúde, e-commerce, etc, etc, etc.
Sim e não.
Sim, você precisa saber. Ou melhor, estar familiarizado com o negócio. Por exemplo: Logística: é o segmento de negócio que fala de transporte de mercadorias e que leva do ponto A até o B, e blá, blá, blá blá….. Pronto, eu sei o que a logística faz.
Não, você não precisa saber. Opa. Acabei de dizer que precisa e agora disse que não precisa. Vamos explicar. Voltando na logística. É necessário levar a mercadoria do ponto A até o B. Mas o que acontece entre a saída do ponto A até chegar no ponto B? Acontece muita coisa. E você não precisa ser expert em logística. Porém, se você for colocado frente a um problema de logística, será necessário buscar o conhecimento. Como? Através de pesquisas, livros. E até mesmo através de um profissional de logística.
Porém, quanto mais você souber sobre o negócio, melhor será e mais vantagens você terá. E subirá mais um degrau.
Procure compreender a área de negócio. Quais são seus KPI’s? Que tipo de dados devem ser analisados? Quais os problemas da empresa?
Visualização e apresentação de dados
Com tanta informação sendo gerada a cada dia, surge um desafio: Como mostrar essas informações para que façam sentido e sejam compreendidas?
Você precisa saber transmitir a informação que os dados querem dizer. Parece fácil? A princípio é. Criar um gráfico de barra, de linha, pizza, etc. com diferentes estruturas, tamanhos e cores, está ao alcance de um clique. Ou melhor de alguns cliques. Porém os gráficos estão deixando de ser gráficos para se tornarem infográficos. Com a quantidade crescente de informação torna a criação da apresentação um grande desafio.
Aqui também entra um pouco de programação e também de muita criatividade. Que dados serão mostrados? Como mostrar esses dados? Preciso contar alguma história sobre os dados?
Ahh. Essa última necessidade: Contar histórias. O cientista de dados deve saber contar a história dos dados. E mais, contar de formas diferentes para públicos diferentes. É claro que você não precisa ser um contador de histórias como Forest Gump (rs).
Prepare seu computador
Preparar o computador? Sim. Você precisa ter um computador e prepará-lo para auxiliá-lo na jornada do Cientista de Dados.
Uma boa máquina, que suporte todas as ferramentas que irá utilizar é muito importante.
A ciência de dados exige muito de um computador, pois tem um intenso processamento das informações.
Caso não tenha um computador a altura das suas necessidades, seja de estudo ou de trabalho, você se sentirá frustrado por não conseguir realizar as atividades.
A configuração mínima é 8Gb de RAM com o processador I5 e com possibilidades de criar máquinas virtuais. Menos que isso, nem comece, pois você ficará com vontade de jogar o computador pela janela, caso tenha uma por perto. Caso contrário joga na parede mesmo (rs).
Qual SO utilizar? Aqui fica a critério de cada um. Utilize aquele onde se sinta melhor (Windows, MacOS ou Linux).
É claro que você terá que instalar tudo o que vai utilizar:
Editores de texto: Sublime Text, NotePad++
Softwares de máquinas virtuais: Virtual box, parallels
Git e Github: Caso você queira publicar seus trabalhos e criar um portifólio
Suite Office: Libre Office, Microsoft Office
Somente esses softwares são suficientes? Claro que não. Como é que você vai construir seus processos? Onde vai armazenar os dados e os resultados?
Independente da empresa onde irá trabalhar, você vai precisar de uma linguagem de programação junto com uma IDE. Por exemplo: R + R Studio. Pyhton + Jupyter Notebook.
Qual banco devo instalar? Aqui depende do problema, dos dados, do cliente. Porém, ter um banco de dados relacional (MySql) e um banco de dados NoSQL (MongoDB), já é um bom começo.
E é claro que não deve faltar o Hadoop e Spark.
Praticar
Além de ter que aprender várias coisas, preciso praticar? Sim, e praticar muito.
O aprendizado, para ser fixado e ganhar em experiência, deve ser praticado muitas vezes e de diferentes formas e com desafios diversos.
E posso afirmar que os erros são essenciais para a aprendizagem, pois eles nos desafiam a descobrir o motivo e encontrar soluções.
Conclusão
Ufa!!! Pensei que isso não ia acabar.
Não tente aprender tudo. Vá devagar. Eleja alguns tópicos e vá avançando. Se tentar aprender tudo ao mesmo tempo, pode ser frustrante e estressante, fazendo com que você desista antes mesmo de começar a ter algum resultado.
Se estiver com algum obstáculo (erro, problema, falta de conhecimento, etc) que está parecendo impossível transpor, então pare, respire fundo, mude de assunto, vá tomar um café, ou até mesmo deixe para amanhã. Isso vai aliviar a carga de exigência com o seu cérebro e dará tempo para que ele mesmo vá dando dicas de como conseguir transpor o obstáculo.
Defina Metas. O que você vai estudar na próxima semana ou no mês? Quantas horas por dia serão necessárias?
Experimente. Faça testes com diferentes cenários. Modifique o algoritmo. Troque o dataset.
A cada passo conquistado, comemore, compartilhe.
Depois de falar sobre como se tornar um cientista de dados, alguns poderão afirmar que eu sou um grande cientista de dados. Isso está longe de ser verdade. O meu aprendizado continua acontecendo todos os dias. Ou melhor, de segunda a sábado. Domingo eu descanso porque eu não sou de ferro (rs). A cada novo projeto, a cada nova ideia, tenho que buscar mais conhecimento. E também não trabalho 100% do tempo como cientista de dados.
Estou apenas compartilhando o que aprendi até o momento e dando dicas para quem quiser se tornar um cientista de dados.