Hoje, como todo dia, estava eu "viajando" pela internet e dei "de cara" com uma página interessante que analisa um subconjunto de um arquivo de dados famoso (mais sobre ele daqui a pouco) em R.
É claro, como tudo que se refere à internet, uma coisa leva a outra, que leva a outra, etc.... e assim descobri um pacote do R que eu não conhecia que contém dados de vôos originários de New York em 2013. A fonte primária é o "Bureau of Transportation Statistics"do Governo dos EUA.
Então vamos ao que interessa primeiro: os links!
O pacote R se chama "nycityflights13" e sua descrição está em:
https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf
O URL dos dados é:
http://github.com/hadley/nycflights13
Em R pode-se instalar o pacote e chamar o arquivo de dados através do comando:
install.packages("nycflights13", repos='http://cran.us.r-project.org')
A fonte original destes dados é (divirta-se!):
http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236
Uma análise bem interessante destes dados é mostrada em:
http://www.rpubs.com/howelb/32599
E uma versão bem mais básica em
https://welcomedata.wordpress.com/2015/01/27/new-york-flights-dataset/
Divirta-se!
M.Barros
Resolução de questões de concursos, projetos em andamento, comentários e idéias
sexta-feira, 17 de julho de 2015
sábado, 24 de janeiro de 2015
Previsões (dos outros) para o mundo tech em 2015
Em primeiro lugar... os créditos: este "post" é um resumo resumidíssimo com muitas pitadas de opiniões próprias do seguinte artigo:
Tech predictions for 2015 that you should actually listen to
Quartz · January 20, 2015
There will be less of this stuff in 2015.(Reuters/Las Vegas Sun/Steve Marcus)Written by
Leo Mirani@lmiraniObsession
Mobile WebJanuary 20, 2015
E quais são as previsões?
Segundo o autor, que usa o estudo de uma boutique de investimentos especializada em "tech" (http://www.gpbullhound.com/wp-content/uploads/2015/01/GP-Bullhound-Technology-Predictions-2015.pdf), o que vai ser "quente" em 2015 é:
1) Uber, uber e mais uber (e similares, como AirBnb)
2) Aparelhos "inteligentes" passarão a sê-los (de verdade...). Por exemplo, as pulseirinhas para monitorar sua atividade física não precisarão de inputs e serão mais inteligentes.
Os novos dispositivos serão sensíveis ao contexto e coletarão dados automaticamente a partir de múltiplas fontes. Poderão aprender, fazer recomendações e ,em alguns casos, agir sem a necessidade de interferência de usuários.
Ahh, então minha pulseira da Nike terá que ser esperta e notar quando eu estou dirigindo numa estrada esburacada e sinuosa e não interpretar isso como um exercício vigoroso (por mais que eu quisesse...)
Além disso, e não faltarão letras MAIÚSCULAS...
A "INTERNET OF THINGS" (destes lindos aparelhinhos, dentre outros) é uma maravilhosa oportunidade para os estatísticos, cientistas de dados, etc... Por que? Já imaginaram a quantidades gerados e que precisam ser analisados por cada uma destas maquininhas?? Aliás, já vi em algum lugar, acho que numa das competições do Kaggle (juro que ainda falo sobre isso), a análise sobre um conjunto de dados que buscava identificar se a pessoa estava em movimento, de pé ou sentada a partir dos dados de um smartphone Samsung.
3) O uso de cartões de crédito vai cair e será substituído por meios eletrônicos. No Brasil deve demorar mais um pouco, não?
4) Novos conteúdos de midia e modelos de distribuição
5) Jogos online crescem ainda mais.
Em 2016 a gente olha para trás e comenta, mas tudo isso me parece bem razoável, vocês não acham?
Marcadores:
data science,
internet,
internet of things,
previsões,
tech,
tecnologia
Ano Novo, post novo...
Faz tanto tempo que quase tinha esquecido como se fazia um "post" neste blog...
Enfim, é tão fácil que não dá para esquecer.
Sei que não bastam boas intenções, mas a ideia em 2015 é escrever "posts" curtos (se é que eu consigo...) sobre as coisas que considero interessante neste oceano da internet.
A seleção de assuntos vai refletir meu interesse no momento, então por favor não espere coerência e linearidade, ok?
O único compromisso é que tentarei mante o foco em assuntos meio "estatísticos", meio "geek", meio "tecnológicos", meio "data science", meio "data science", etc e tal.
Enfim, é tão fácil que não dá para esquecer.
Sei que não bastam boas intenções, mas a ideia em 2015 é escrever "posts" curtos (se é que eu consigo...) sobre as coisas que considero interessante neste oceano da internet.
A seleção de assuntos vai refletir meu interesse no momento, então por favor não espere coerência e linearidade, ok?
O único compromisso é que tentarei mante o foco em assuntos meio "estatísticos", meio "geek", meio "tecnológicos", meio "data science", meio "data science", etc e tal.
Marcadores:
blog,
carta de intenções,
data mining,
data science,
Estatística
domingo, 23 de fevereiro de 2014
APIs e novas funções do Excel 2013 para acessar dados na internet
Faz tempo, né?
Mas espero que este post seja bem interessante para os meus dois leitores...
O tema: algo que vem me fascinando há algum tempo - APIs ou "Application Programmable Interfaces", Interfaces que muitos sites tem para facilitar a consulta e o uso dos dados neles hospedados.
Em muitos casos, para usar uma API, basta o registro do seu e-mail (verdadeiro, pois nele você receberá um link para confirmação ou a sua própria senha (key) de acesso).
Os termos para utilização variam muito de site para site, e o número de consultas que é permitido no plano gratuito também.
E o que eu quero fazer?
Mostrar como você pode utilizar o Excel 2013 que tem 3 lindas funções para Web para fazer consultas direto a uma API, SEM NECESSIDADE de qualquer programação!
Neste caso usarei a API do site http://www.wunderground.com/, que fornece dados gratuitos sobre o tempo atual e a previsão ds próximos dias. Os limites de uso para o registro gratuito são bem apertados, confesso que "estourei" o meu pois você pode fazer só 10 consultas por minuto, e fiz bem mais que isso.
Qual era meu objetivo?
Descobrir as condições do tempo em diversas cidades brasileiras. Veja o resultado a seguir para algumas cidades. Note que eu usei os códigos dos aeroportos. Por exemplo, CGH é o aeroporto de Congonhas, e GRU é o de Guarulhos, e ambos servem São Paulo. Por que fiz isso? Em alguns casos o site do wunderground nao conseguia achar os dados para a cidade, e tive a ideia de procurar por aeroporto. Bingo! Existiam informações para todos os aeroportos que eu queria...
Agora que você já viu que funciona, vamos ao "como fazer"...
Atenção - o help do Excel 2013 em inglês tem um "how to" excelente para o uso destas novas funções, e inclusive usa o mesmo site como exemplo, mas procura por dados nos EUA, o que leva a uma consulta um pouco diferente.
Supondo que você já tenha se registrado no site e tenha obtido sua API_key, e a colocado numa célula da planilha que eu convenientemente chamei de (adivinhe?) API_key, o próximo passo é escrever o comando:
=SERVIÇOWEB("http://api.wunderground.com/api/"&API_Key&"/geolookup/conditions/forecast/q/Brazil/"&C$4&".xml")
O que a célula C$4 contém? Na planilha que eu acabei de mostrar para vocês, o código do aeroporto, por exemplo, SDU para o Santos Dumont.
O resultado da função SERVIÇOWEB acima é um arquivo .xml que tem um MONTE de informações sobre o local que você está investigando, inclusive a previsão dos próximos dias. Esta função SERVIÇOWEB é talvez a mais importante das 3 novas funções para Web do Excel 2013, e em seguida mostraremos outra.
Suponha que o resultado da função SERVIÇOWEB acima esteja na célula C3 da sua planilha.
Como eu falei, o conteúdo desta célula C3 é um arquivo .xml, no qual você tem que "pescar" a informação que te interessa (e este tem sido o meu grande problema). Para isso use a função FILTROXML, a segunda das 3 novas do Excel 2013.
Por exemplo:
=FILTROXML(C$3;"//local_time_rfc822")
Fornece a data e horário da consulta. No caso da imagem neste post, o resultado é:
Sun, 23 Feb 2014 15:16:32 -0300
Em resumo, a sintaxe da função FILTROXML é: FILTROXML(cél. que contem o arquivo xml, xpath).
E onde está a encrenca? Em definir o xpath...
No meu caso está sendo meio tentativa e erro - funciona mais ou menos como estrutura de diretórios e subdiretórios e existem aplicativos que "pegam" um arquivo .xml e te dizem qual o xpath correto para o "pedaço" de informação que você quer. Em teoria... na prática não consegui fazer funcionar para mim!
O post está meio grande e eu vou me despedindo, mas antes gostaria de dizer que:
1) O Yahoo tem uma API maravilhosa (e grátis), inclusive com uma linguagem de programação moleza, que é uma parente de SQL mas é uma obviedade! Lindo!
2) Existe um número enorme (e crescente) de APIs. Neste momento em que escrevo o post, o site: www.programmableweb.com lista 11063 APIs, sendo que 53 foram adicionadas nos últimos 7 ias e 208 nos últimos 30 dias. Isso deve significar algo, não é?
3) É claro que você pode programar as suas chamadas às APIs. Em R existe um pacote XML, mas eu ainda não usei. Ex
Mas espero que este post seja bem interessante para os meus dois leitores...
O tema: algo que vem me fascinando há algum tempo - APIs ou "Application Programmable Interfaces", Interfaces que muitos sites tem para facilitar a consulta e o uso dos dados neles hospedados.
Em muitos casos, para usar uma API, basta o registro do seu e-mail (verdadeiro, pois nele você receberá um link para confirmação ou a sua própria senha (key) de acesso).
Os termos para utilização variam muito de site para site, e o número de consultas que é permitido no plano gratuito também.
E o que eu quero fazer?
Mostrar como você pode utilizar o Excel 2013 que tem 3 lindas funções para Web para fazer consultas direto a uma API, SEM NECESSIDADE de qualquer programação!
Neste caso usarei a API do site http://www.wunderground.com/, que fornece dados gratuitos sobre o tempo atual e a previsão ds próximos dias. Os limites de uso para o registro gratuito são bem apertados, confesso que "estourei" o meu pois você pode fazer só 10 consultas por minuto, e fiz bem mais que isso.
Qual era meu objetivo?
Descobrir as condições do tempo em diversas cidades brasileiras. Veja o resultado a seguir para algumas cidades. Note que eu usei os códigos dos aeroportos. Por exemplo, CGH é o aeroporto de Congonhas, e GRU é o de Guarulhos, e ambos servem São Paulo. Por que fiz isso? Em alguns casos o site do wunderground nao conseguia achar os dados para a cidade, e tive a ideia de procurar por aeroporto. Bingo! Existiam informações para todos os aeroportos que eu queria...
Agora que você já viu que funciona, vamos ao "como fazer"...
Atenção - o help do Excel 2013 em inglês tem um "how to" excelente para o uso destas novas funções, e inclusive usa o mesmo site como exemplo, mas procura por dados nos EUA, o que leva a uma consulta um pouco diferente.
Supondo que você já tenha se registrado no site e tenha obtido sua API_key, e a colocado numa célula da planilha que eu convenientemente chamei de (adivinhe?) API_key, o próximo passo é escrever o comando:
=SERVIÇOWEB("http://api.wunderground.com/api/"&API_Key&"/geolookup/conditions/forecast/q/Brazil/"&C$4&".xml")
O que a célula C$4 contém? Na planilha que eu acabei de mostrar para vocês, o código do aeroporto, por exemplo, SDU para o Santos Dumont.
O resultado da função SERVIÇOWEB acima é um arquivo .xml que tem um MONTE de informações sobre o local que você está investigando, inclusive a previsão dos próximos dias. Esta função SERVIÇOWEB é talvez a mais importante das 3 novas funções para Web do Excel 2013, e em seguida mostraremos outra.
Suponha que o resultado da função SERVIÇOWEB acima esteja na célula C3 da sua planilha.
Como eu falei, o conteúdo desta célula C3 é um arquivo .xml, no qual você tem que "pescar" a informação que te interessa (e este tem sido o meu grande problema). Para isso use a função FILTROXML, a segunda das 3 novas do Excel 2013.
Por exemplo:
=FILTROXML(C$3;"//local_time_rfc822")
Fornece a data e horário da consulta. No caso da imagem neste post, o resultado é:
Sun, 23 Feb 2014 15:16:32 -0300
Em resumo, a sintaxe da função FILTROXML é: FILTROXML(cél. que contem o arquivo xml, xpath).
E onde está a encrenca? Em definir o xpath...
No meu caso está sendo meio tentativa e erro - funciona mais ou menos como estrutura de diretórios e subdiretórios e existem aplicativos que "pegam" um arquivo .xml e te dizem qual o xpath correto para o "pedaço" de informação que você quer. Em teoria... na prática não consegui fazer funcionar para mim!
O post está meio grande e eu vou me despedindo, mas antes gostaria de dizer que:
1) O Yahoo tem uma API maravilhosa (e grátis), inclusive com uma linguagem de programação moleza, que é uma parente de SQL mas é uma obviedade! Lindo!
2) Existe um número enorme (e crescente) de APIs. Neste momento em que escrevo o post, o site: www.programmableweb.com lista 11063 APIs, sendo que 53 foram adicionadas nos últimos 7 ias e 208 nos últimos 30 dias. Isso deve significar algo, não é?
3) É claro que você pode programar as suas chamadas às APIs. Em R existe um pacote XML, mas eu ainda não usei. Ex
Marcadores:
API,
data mining,
data science,
Excel,
Excel 2013,
internet,
mineração de dados,
python,
R,
wunderground
terça-feira, 2 de julho de 2013
StatAce - R via browser
Ainda em versão beta, mas com uma interface bastante agradável como vocês podem ver.
Disponível em www.statace.com - o registro é necessário para importar e salvar arquivos.
Disponível em www.statace.com - o registro é necessário para importar e salvar arquivos.
Marcadores:
browser,
navegador,
R,
R via browser,
R via internet,
R via navegador
quinta-feira, 28 de março de 2013
domingo, 23 de dezembro de 2012
Blogs e sites sobre a linguagem R em português
Abaixo alguns links de páginas dedicadas à linguagem R em português e espanhol. A lista não pretende ser exaustiva, é apenas um ponto de partida para quem detesta ler manuais.
O manual "oficial" (em inglês) na página do projeto R está em: http://cran.r-project.org/doc/manuals/R-lang.html
Na página oficial do R existem vários documentos, um deles é a seguinte apostila:
http://cran.r-project.org/doc/contrib/Provete-Estatistica_aplicada.pdf
Os links a seguir apresentam tutoriais variados e aulas em português:
http://www.academia.edu/1739126/Introducao_a_Programacao_R
http://aolinto-r.blogspot.com.br/
http://leg.ufpr.br/~paulojus/embrapa/Rembrapa/
Achei este blog particularmente interessante - dê uma olhada em alguns dos aplicativos que ele menciona, inclusive o de análise de dados do Twitter e o de dados financeiros da Bloomberg: http://www.estudarcomputacao.com/2010/09/breve-introducao-linguagem-r-e-seus.html
Aqui existem comandos básicos da linguagem R: http://andersonmedeiros.com/2010/06/08/comandos-basicos-do-sistema-estatistico-r/
Este link apresenta notas de aula de estatística aplicada ao sensoriamento remoto e inclui códigos em R, dentre outros: http://www.dpi.inpe.br/~camilo/estatistica/aulas.html
Este é o Blog: aprenda a usar o R-http://www.r-bloggers.com/lang/portuguese/378
Neste link há um curso introdutório de R: http://leg.ufpr.br/Rpira/Rpira/
http://www.feferraz.net/files_/Rlang-PT.pdf (introdução ao R, versão traduzida do manual)
http://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o) - página na Wikipedia em português sobre o R
http://pt.wikibooks.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o) - página no Wikibooks em português sobre o R
http://www.mobileread.mobi/forums/showthread.php?t=67441 (neste link pode-se baixar o documento "Introdução à Programação em R" de Luís Torgo, que eu APENAS disponibilizo aqui também, através do slideshare na "iframe" abaixo:
http://estatisticanor.forumeiros.com/t12-livros-sobre-programacao-r
http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:03_apostila:programar_ale
http://www.slideshare.net/andycds/linguagem-r que está, para facilitar, colocado na "iframe" a seguir:
O manual "oficial" (em inglês) na página do projeto R está em: http://cran.r-project.org/doc/manuals/R-lang.html
Na página oficial do R existem vários documentos, um deles é a seguinte apostila:
http://cran.r-project.org/doc/contrib/Provete-Estatistica_aplicada.pdf
Os links a seguir apresentam tutoriais variados e aulas em português:
http://www.academia.edu/1739126/Introducao_a_Programacao_R
http://aolinto-r.blogspot.com.br/
http://leg.ufpr.br/~paulojus/embrapa/Rembrapa/
Achei este blog particularmente interessante - dê uma olhada em alguns dos aplicativos que ele menciona, inclusive o de análise de dados do Twitter e o de dados financeiros da Bloomberg: http://www.estudarcomputacao.com/2010/09/breve-introducao-linguagem-r-e-seus.html
Aqui existem comandos básicos da linguagem R: http://andersonmedeiros.com/2010/06/08/comandos-basicos-do-sistema-estatistico-r/
Este link apresenta notas de aula de estatística aplicada ao sensoriamento remoto e inclui códigos em R, dentre outros: http://www.dpi.inpe.br/~camilo/estatistica/aulas.html
Este é o Blog: aprenda a usar o R-http://www.r-bloggers.com/lang/portuguese/378
Neste link há um curso introdutório de R: http://leg.ufpr.br/Rpira/Rpira/
http://www.feferraz.net/files_/Rlang-PT.pdf (introdução ao R, versão traduzida do manual)
http://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o) - página na Wikipedia em português sobre o R
http://pt.wikibooks.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o) - página no Wikibooks em português sobre o R
http://www.mobileread.mobi/forums/showthread.php?t=67441 (neste link pode-se baixar o documento "Introdução à Programação em R" de Luís Torgo, que eu APENAS disponibilizo aqui também, através do slideshare na "iframe" abaixo:
http://estatisticanor.forumeiros.com/t12-livros-sobre-programacao-r
http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:03_apostila:programar_ale
http://www.slideshare.net/andycds/linguagem-r que está, para facilitar, colocado na "iframe" a seguir:
Assinar:
Postagens (Atom)