Re: [Fwd: Re: çift kayıtları bulma]
Çrş, 2006-07-05 tarihinde 18:52 +0300 saatinde, Recai Oktaş yazdı:
Merhaba,
> "Aralık" dediğinizden ben mesela "3.ncü ve 15.nci sütunlar arası"nı
> anlıyorum. Eğer belirli bir sütundaki (alandaki) değer aralığını
> kastediyorsanız o farklı. Bu (basit) betik içeriğin ayrıntılarıyla
> ilgilenmez, sadece kayıtların (karakter bazlı bir karşılaştırmayla)
> mükerrer olup olmadığına bakar.
Evet benim kasdettiğimde aynen "3. ve 15. sütunlar arası" tanımına uyuyor.
> > seçim yaptı ama bu yöntemle dosya fazla kırpıldı. 1007 kayıt içeren bir dosyayı
> > bu yöntemle "dosya numarası" değişkenine göre tarayınca 402 kayda
> > indirgedi. Oysa ilk önerdiğiniz (dünkü e-postanız) yöntemde aynı alana
> > göre tarama 758 kayda indiriyordu.
>
> Evet, hata yapmışım. Ekteki sürümde bu hatanın olmaması lazım.
Maalesef aynı şekilde 402 kayda indirgiyor.
> > Aynı dosyayı .csv formatına çevirip Serdar Aytekin'in önerdiği yöntemle
> > "cat aaanv.csv | sort -t' ' | uniq -w10 > dene1.txt" işleyince 751 kayıt
> > ile sonuçlanıyor. -w10 sadece dosya numarası kadar karaktere karşılık
> > geliyor.
> > Ayrıca bugünkü perl betiği değişken adlarını karışık sıralıyor, dünkü
> > numarasız ama doğru sırayla dökmekteydi.
>
> Düzelttim.
Evet bu kısım düzelmiş. Doğru sırada listeliyor.
> > Son perl betiği çıktısı ------------------------------------
> > ..................................................
> > Malformed UTF-8 character (byte 0xfe) at dbf_uniq2.pl line 54.
> ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
>
> Bu uyarılar zararsız. Bazı iletiler için UTF-8 kodlu Türkçe karakterler
> kullanmıştım. Bu karakterler posta iletimi sırasında ISO'ya dönüştürülmüş
> görünüyor. Yenisini gzip korumalı olarak gönderiyorum. Yine sorun çıkarsa
> göz ardı edin.
İşlemde çıkan tek hata bu oldu. UTF-8 karakter hatası kalktı.
Use of uninitialized value in hash element at dbf_uniq.pl line 67.
> > dbf formatında perl ile işlem yapmak ile csv formatında bash ile işlem
> > yapmak öneriniz nedir?
>
> Bir kereye has bir işlem ise bu, en basit (ve sizin tarafınızdan müdahale
> edilebilir) olanını, yani Serdar'ın önerdiği yöntemi tercih edebilirsiniz.
> Ama böyle başka bir çok dosya varsa ve gelecekte bu durumla tekrar
> karşılaşma ihtimaliniz varsa dbf üzerinden gitmek daha uygun olabilir.
Bu dosyalar bizim hasta veri tabanı programımızın sorgu sonucu oluşturduğu bir veri alt grubu.
Butür dosyalar hep olacak, bende o nedenle sizin önerdiğiniz yöntem ile
gitmeyi düşünerek size zahmet vermeye devam etmekteyim.
Ancak eğer isterseniz sizi daha fazla yormaktan vazgeçip diğer yöntemi
kullanmaya devam edebilirim.
Teşekkürler.
İyi çalışmalar.
--
Zeki Çatav <zcatav@isnet.net.tr>
Türkiye Yüksek İhtisas Hastanesi
Reply to: