Estou usando dados de painel e estou tentando mesclar conjuntos de dados de acordo com o ano ea variável de identificação única. No entanto, minha variável de identificação não é uniforme em todos os conjuntos de dados. Embora, eu reconheço que isso é fundamental para a fusão de dados, estou inseguro como lidar com este problema. Estou usando dados para países do mundo, mas nem todos os países são registrados em todos os conjuntos de dados. Para alguns há mais países incluídos. Atualmente, os dados são classificados pelo id do país. Que é alfabeticamente, e cada país é atribuído um valor numérico em Stata. Portanto, alguns dos países têm valores diferentes atribuídos a eles de acordo com quantos países existem nesse conjunto de dados específicos. E, portanto, quando eu mesclar os dados de acordo com o id para cada país, eo ano. Estes correspondem a diferentes países. Existe uma maneira de atribuir o mesmo número a cada país, e torná-lo uniforme, independentemente do número de países no conjunto de dados pediu Maio 19 14 às 21: 49Bem vindo ao Instituto de Pesquisa Digital e Educação Stata FAQ: Como posso ver O número de valores em falta e os padrões de valores em falta no meu arquivo de dados Às vezes, um conjunto de dados pode ter quotholesquot nele, ou seja, valores em falta. Alguns procedimentos estatísticos, como a análise de regressão, não funcionarão tão bem, ou em absoluto, num conjunto de dados com valores em falta. As observações com valores em falta têm de ser eliminadas ou os valores em falta têm de ser substituídos para que um procedimento estatístico produza resultados significativos. A maioria dos programas estatísticos (incluindo SAS, SPSS e Stata) removerá automaticamente esses casos de qualquer análise executada (sem excluir os casos do conjunto de dados). É por isso que o quotnquot muitas vezes varia de análise para análise, mesmo se o conjunto de dados é o mesmo. Diferentes variáveis têm quantidades diferentes de dados em falta e, portanto, a alteração das variáveis num modelo altera o número de casos com dados completos sobre todas as variáveis no modelo. Como o software descarta casos com valores faltantes para nós, é muito fácil quotforgetquot sobre dados ausentes completamente. No entanto, a presença de dados em falta pode influenciar os nossos resultados, especialmente quando um conjunto de dados ou mesmo uma única variável, tem uma elevada percentagem de valores em falta. Assim, é sempre uma boa idéia verificar um conjunto de dados para dados ausentes e pensar sobre como os dados ausentes podem influenciar nossas análises. Esta página mostra alguns métodos de olhar para valores em falta em um conjunto de dados, essas informações podem ser usadas para tomar decisões melhor informadas sobre como lidar com os valores ausentes. Antes de começar, precisamos de alguns dados com valores ausentes, o código abaixo insere um pequeno conjunto de dados no Stata e, em seguida, exibe esses dados. Em um pequeno conjunto de dados, como o abaixo, é muito fácil olhar para os dados brutos e ver onde os valores estão faltando. No entanto, quando os conjuntos de dados são grandes, precisamos de uma maneira mais sistemática para examinar o nosso conjunto de dados para valores em falta. Abaixo mostramos algumas maneiras de fazer isso, usando os dados abaixo como exemplo. 1. Número de valores em falta versus número de valores não faltantes A primeira coisa que vamos fazer é determinar quais variáveis têm muitos valores em falta. Criamos um pequeno programa Stata chamado mdesc que conta o número de valores faltantes em variáveis numéricas e de caractere. Você pode fazer o download do mdesc no Stata digitando findit mdesc (consulte Como usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do finidit). Em seguida, você pode executar mdesc para uma ou mais variáveis conforme ilustrado abaixo. Agora sabemos o número de valores em falta em cada variável. Por exemplo, salepric variável tem quatro valores em falta e saltoapr tem dois valores em falta. 2. Obtendo o número de valores faltantes por observação Também podemos observar a distribuição de valores faltantes entre as observações. O código abaixo cria uma variável chamada nmis que dá o número de valores em falta para cada observação. A função rmiss2 () usada aqui é uma extensão para a função egen rmiss (). Conta o número de valores em falta na varlist. Rmiss2 () aceita variáveis de cadeia e numéricas. Você pode fazer o download rmiss2 () através da Internet a partir do Stata digitando findit rmiss2 (veja Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit ). Abaixo, tabulamos a variável que acabamos de criar. Observando a tabela de frequências, sabemos que existem quatro observações sem valores em falta, nove observações com um em falta, uma observação com dois valores em falta e uma observação com três valores em falta. 3. Padrões de valores em falta Podemos também olhar para os padrões de valores em falta. Você pode fazer o download de mvpatterns através da Internet a partir do Stata digitando findit mvpatterns (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). O comando mvpatterns produz saída para todas as variáveis no dataset, para padrões de dados ausentes em um subconjunto de variáveis, uma lista de variáveis pode ser incluída, por exemplo, mvpatterns landval improval totval. A saída produzida por mvpatterns é mostrada abaixo. A primeira tabela lista as variáveis, seu tipo de armazenamento (tipo), o número de observações (obs), o número de valores ausentes (mv) eo rótulo da variável se as variáveis tiverem um. A segunda tabela contém as informações sobre o padrão de valores em falta. O primeiro bloco de colunas na saída mostra os padrões de dados em falta. Dentro do bloco, cada variável é representada por uma coluna, uma quotquot indica que os valores dessa variável estão presentes em um determinado padrão de dados faltantes, um quot. quot indica que eles estão faltando. As colunas seguem a mesma ordem que a lista de variáveis na primeira tabela, de modo que a primeira coluna na saída abaixo representa landval. A segunda improv. e assim por diante. Os padrões de dados em falta estão listados em frequência descendente, aqui o padrão de dados em falta mais comum é dados completos (quotquot). A tabela também mostra o número de valores em falta nesse padrão (mv) eo número de casos com esse padrão de dados em falta (freq). Com base nas informações da segunda tabela sabemos que há quatro observações sem valores faltantes, dois casos faltando apenas na variável salepric. E uma observação com valores faltantes na improvação. Salepric e saltoapr. 4. Quando todas as variáveis de interesse são numéricas Os exemplos acima de tudo funcionam independentemente de as variáveis de interesse (ou seja, as variáveis cujos padrões de dados ausentes você deseja examinar) serem numéricas ou de seqüência de caracteres. Quando todas as variáveis que você deseja verificar os valores em falta são numéricas, podemos usar um programa chamado misschk para simplificar as etapas de examinar os dados em falta no nosso conjunto de dados. (Nota: as variáveis numéricas incluem aquelas com etiquetas de valor que são strings, desde que os valores reais das variáveis sejam armazenados como números.) Você pode fazer o download de misschk no Stata digitando findit misschk (consulte Como posso usar o comando findit para Procure programas e obtenha ajuda adicional para obter mais informações sobre como usar o findit). Abaixo está o comando para misschk. Foram listadas todas as cinco variáveis em nosso conjunto de dados na lista de variáveis após o comando misschk. No entanto, nós poderíamos ter deixado a lista de variáveis em branco (ou seja, usamos apenas misschk. Gen (miss) em vez disso), se tivéssemos, misschk teria executado usando todas as variáveis em nosso conjunto de dados. A lista de variáveis só é necessária se quisermos executar misschk apenas em algumas das variáveis do nosso conjunto de dados. A opção gen (miss) diz a misschk que queremos que crie duas novas variáveis, ambas começando com quotmissquot. Essas duas variáveis serão denominadas misspattern e missnumber. A variável misspattern indica qual dos padrões de dados ausentes segue cada caso. A variável missnumber indica o número de valores em falta para cada caso. A saída para misschk consiste em três tabelas. A primeira tabela lista o número de valores em falta, bem como percentagem de falta para cada variável, isto é semelhante à tabela produzida pelo mdesc na parte 1 acima. Esta tabela também contém uma coluna rotulada que atribui a cada variável um número que é usado para identificar a variável mais tarde na saída. A segunda tabela mostra a distribuição dos valores faltantes. O padrão de missingness é descrito usando os números variáveis da primeira tabela, e underscores (). Os números indicam quais variáveis estão faltando nesse padrão, os sublinhados representam observações não faltantes. Por exemplo, a partir da segunda tabela vemos que dois casos faltam valores na variável 1 (landval), mas dados completos sobre todas as outras variáveis, e que um caso está faltando dados nas variáveis 2, 4 e 5. A linha inferior mostra Que quatro casos não estão faltando nenhum valor em todos (todos os sublinhados). Esta tabela mostra as mesmas informações geradas na parte três acima, mas em um formato ligeiramente diferente. O padrão de dados faltantes para cada caso é descrito na variável misspattern. Finalmente, a terceira tabela mostra a distribuição do número de valores faltantes por caso. Esta é a mesma informação discutida acima na parte 2. O número de variáveis que cada caso está faltando também está contido na variável missnumber. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. Bem-vindo ao Instituto de Pesquisa e Educação Digital Stata FAQ Como posso detectar observações duplicadas Esta Stata FAQ Mostra como verificar se um conjunto de dados tem observações duplicadas. Existem dois métodos disponíveis para esta tarefa. O primeiro exemplo usará comandos disponíveis no Stata base. O segundo exemplo usará um programa escrito pelo usuário. Este comando escrito pelo usuário é bom porque cria uma variável que captura todas as informações necessárias para replicar as observações excluídas. Exemplo 1 Este exemplo usa o conjunto de dados High School e Beyond, que não tem observações duplicadas. Portanto, adicionamos cinco observações duplicadas aos dados e, em seguida, usamos o comando duplicates para detectar quais observações são repetidas. Além disso, para avaliar a sensibilidade do comando, alteramos um valor de uma das observações duplicadas. A justificativa para alterar um valor é imitar o que pode acontecer na prática, muitas vezes, procurar por quotduplicatequot casos que não são identicamente entrou no conjunto de dados. No dataset, o id da variável é o identificador de caso exclusivo. Para adicionar as observações duplicadas, classificamos os dados por id. Em seguida, duplicar as primeiras cinco observações (id 1 a 5). Isso leva a 195 observações únicas e 5 observações duplicadas no conjunto de dados. Para a identificação de assunto 1, todos os seus valores são duplicados, exceto para sua pontuação de matemática, uma pontuação duplicada é definida como 84. Começamos executando o comando de relatório de duplicatas para ver o número de linhas duplicadas no conjunto de dados. Isto é seguido por id de relatórios duplicados. Que dá o número de linhas de repetição pelas variáveis especificadas nesta instância temos apenas id. Poderíamos ter usado o comando duplicates examples em vez do comando duplicates report. O comando duplicates examples lista um exemplo de cada conjunto duplicado. Claramente, a saída do relatório duplicado e do relatório de duplicatas é diferente. A saída de relatório de duplicatas mostra o número de linhas de repetição sobre todas as variáveis. Note que na duplicata cujo valor mudamos (id1), as duas linhas não são tecnicamente iguais, e este comando corretamente não as pegou. O segundo comando duplica o ID de relatório mostra que temos 195 valores de identificação únicos e cinco id s (excedente) que aparecem duas vezes cada (cópias), o que leva a um total de 10 observações questionáveis baseadas em id. Em seguida, listamos observações duplicadas com o comando de lista duplicados. Esta lista de duplicatas corresponde a listar essas observações com linhas duplicadas no entanto, como encontrado com relatório duplicado. Ele não identifica as cinco identificações duplicadas. Portanto, tentamos duplicar lista ID. Agora vemos quais cinco assuntos são duplicados no entanto, a lista duplicada lista somente a variável especificada. Podemos desejar listar as outras variáveis para ver quais variáveis estão causando a diferença entre a lista de duplicatas e as saídas de lista de duplicados. Para ter uma saída como essa dada a partir de lista duplicados. Usamos o comando duplicates tag para criar uma nova variável dupid que atribui um 1 se o id é duplicado, e 0 se aparecer uma vez. Em seguida, listar os casos em que dupido é igual a 1. É evidente que id 1 tem valores diferentes nas pontuações matemáticas sobre as observações duplicadas. A partir disso, seria aconselhável verificar qual pontuação, se qualquer um, é o correto. Suponha que neste caso ambas as pontuações foram incorretas ea pontuação real foi 44. Nós corrigimos as pontuações, e após a correção, os resultados do relatório de duplicatas e id do relatório de duplicatas devem coincidir. Agora, podemos usar o comando drop drop para soltar as observações duplicadas. O comando descarta todas as observações, exceto a primeira ocorrência de cada grupo com observações duplicadas. Depois que nós executamos duplicatas gota. Verificamos que não há outras observações duplicadas. Parece que nos livramos das observações duplicadas. Exemplo 2 No Stata, vários programas estão disponíveis para detectar os duplicados e também podem, opcionalmente, descartar os duplicados. Um dos programas é chamado dups. O programa dups não é um programa embutido no Stata, mas pode ser instalado através da internet usando findit dups (veja Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). Uma vez instalado o dups, podemos usá-lo imediatamente. Este exemplo usa o subconjunto a seguir do conjunto de dados maior usado acima com duplicados adicionados. Primeiramente nós entramos os dados: Então nós olhamos-os: Em nosso exemplo, nós temos um grupo das observações com as duplicatas que consistem na observação número 1, 7 e 8. Isso é o que nós vemos abaixo. Agora vamos usar o comando dups. Sem argumentos, dups retorna informações sobre o número de grupos de observações que têm duplicatas eo número de duplicatas em cada grupo. Podemos adicionar uma lista de variáveis após dups. Por exemplo, no exemplo a seguir, adicionamos a variável race after dups. Agora dups conta quantas observações duplicadas na raça variável somente. Podemos ver a partir da lista de dados que existem três grupos de observações de raça (1, 2 e 4) e dois deles têm duplicatas. Isso é mostrado por dups abaixo. Adicionando a opção exclusiva. Também solicitamos informações sobre grupos que têm uma única observação única. Por exemplo, Com a opção key (varlist). Podemos pedir para listar as observações. Por exemplo, no exemplo a seguir, vemos os valores de id em cada grupo. Uma opção chamada "terse" pode ser adicionada para obter informações resumidas sobre duplicatas. Por exemplo, Agora, e se quisermos descartar as duplicatas Podemos fazê-lo adicionando uma opção chamada drop. Queremos avisá-lo de que é sempre perigoso excluir observações, pois você pode perder seus dados. Então, sempre faça isso com cautela. O que é bom sobre dups é que ele cria uma nova variável que tem informações suficientes para recuperar as observações excluídas se mudarmos de idéia sobre o que acabamos de fazer. O nome padrão da variável é expandir (você pode alterar o nome usando a opção expandir após dups). Usando a variável expand, podemos obter as observações excluídas de volta usando um comando chamado expand. Veja o exemplo abaixo. Se por algum motivo você quisesse retornar a um conjunto de dados que tenha duplicatas, você pode usar o comando expand, usando a variável de expansão criada por dups para especificar o número de duplicatas a serem feitas. Note que isso só irá recuperar seu conjunto de dados original se você detectou duplicatas com base em todas as variáveis no seu conjunto de dados. Se você usou apenas um subconjunto de variáveis, então só será capaz de recriar com precisão os valores desses casos (porque você não tem dados sobre as variáveis que não foram usadas para determinar duplicatas). Agora nós vimos como detectar e soltar observações duplicadas usando o comando dups escrito pelo usuário. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia.
Saiba Forex usando a ação de preço Eu acredito que os comerciantes inteligentes, que querem ter sucesso em Forex deve dominar a ação de preço e sua psicologia de negociação. Ação de preço é a maneira mais fácil de aprender Forex trading, e psicologia comercial garante que o comércio da maneira certa. Esqueça usando indicadores confusos. Esqueça preocupar-se com todo o comércio. Esqueça a negociação sem um plano. Se você quiser aprender Forex da maneira certa, eu posso ajudá-lo. Faça alguns negócios de ação de preço esta semana Junte-se ao meu boletim semanal para obter minha última análise de ação de preço e minhas dicas de negociação. Domine sua psicologia de negociação, construa sua confiança comercial e leve alguns negócios comigo. O que você está esperando por onde começar. Você quer aprender Forex, mas você não sabe por onde começar. Bem, eu projetei forex4noobs para levá-lo desde o básico até o preço avançado negociação ação. Eu também cobrir psicologia comercial, e gestão do din...
Comments
Post a Comment