Q&A
답변완료

문의드립니다.

  • 글쓴이 : 장어진
  • 날짜 : 2023.10.05 14:40
  • 조회 수 : 56
  • 댓글 : 1

안녕하세요. 

6번 주제 관련해서 궁금한 점이 있어 문의드립니다. 

 

우선 데이터부분인데, Task 1의 경우에 NIH 데이터를 통해 학습한 모델을 통해 어떤 공개된 chest X-ray dataset에 대해 비식별화를 진행하고 이 중에서 랜덤하게 10,000장을 추출한 것으로 보면 되는 것일지 궁금합니다. 만약 그렇다면 제공되는 데이터는 난독화된 영상 500장과 후보 원본 영상 10,000장만 주어지는 것인지도 알고 싶습니다. 

그리고 대회에서 주어지는 데이터 이외의 데이터 사용 가능 여부도 알고 싶습니다. 

 

두번째로 정량적 평가지표인 guesswork에 대해 알고 싶습니다. 이에 관한 레퍼런스나 자료가 있으면 공유해주시면 감사하겠습니다. 

이와 더불어서 최종 제출파일은 csv인 것으로 보여지는데 행과 열은 알겠는데 각 항목에 대한 정보가 궁금합니다. guesswork를 통해 구해진 값을 넣는 것인지 그렇다면 이 값을 구하는 코드는 알아서 작성하는 것인지도 궁금합니다. 

 

감사합니다.

장어진 드림

댓글 1
  • HeLP챌린지관리자
    • 2023.10.07 02:20:57
    안녕하세요 장어진님, 문의주신 내용에 대한 답변입니다.

    데이터의 경우, NIH 데이터를 통해 학습된 모델을 이용하여 아산병원에서 제공한 흉부 X-ray 이미지를 난독화한 것입니다.
    네, 맞습니다. 난독화된 이미지 500장(EASY, MEDIUM, HARD 각각 100장, 200장, 200장)과 후보 원본 이미지 10,000장이 주어집니다.

    guesswork는 암호학에서 사용되는 메트릭[1-5]으로, 정답을 알지 못하는 상황에서 연속적으로 정답을 추론한다면 몇 번째 추론에 정답을 고를 수 있는지를 나타내며 난독화 알고리즘의 실제적 안정성을 보이기 위해 차용되었습니다[6].
    최적의 guesswork를 위해 공격자는 '정답일 가능성이 큰 순서대로 추론을 정렬'해야 합니다. 6번 주제 상황에서 '정답'이란 후보 원본 이미지 10,000장 중 실제 원본 이미지의 번호이며, 따라서 최종 제출 csv 파일의 각 행에는 각각의 난독화 이미지 파일에 대해 '원본일 가능성이 큰 순서대로 10,000장의 후보 원본 이미지를 정렬'한 결과를 기입해주시면 됩니다. 여기서의 '가능성'은 공격자의 전략에 따라 달라질 수 있습니다. 예를 들어, 육안으로 봤을 때의 유사성, 복원 공격 후 이미지 유사도 및 벡터 거리 등을 가능성의 척도로 설정할 수 있습니다.
    최종적으로 제출된 csv 파일을 토대로 저희가 평균 guesswork 값을 산정하여 순위를 부여합니다. 참가자 분들께 정답을 제공하지 않기에 직접 guesswork를 측정하는 것은 불가합니다.

    ---
    [1] Merhav, N. and Cohen, A. Universal randomized guessing with application to asynchronous decentralized brute—force attacks. In IEEE International Symposium on Information Theory (ISIT), pp. 485–489, 2019. doi: 10.1109/ISIT.2019.8849716.
    [2] Massey, J. Guessing and entropy. In IEEE International Symposium on Information Theory, pp. 204, 1994. doi: 10.1109/ISIT.1994.394764.
    [3] Arikan, E. An inequality on guessing and its application to sequential decoding. In IEEE International Symposium on Information Theory, pp. 322–, 1995. doi: 10.1109/ ISIT.1995.550309.
    [4] Pfister, C. and Sullivan, W. Renyi entropy, guesswork moments, and large deviations. IEEE Transactions on Information Theory, 50(11):2794–2800, 2004. doi: 10.1109/TIT.2004.836665.
    [5] Beirami, A., Calderbank, R., Christiansen, M. M., Duffy, K. R., and Médard, M. A characterization of guesswork on swiftly tilting curves. IEEE Transactions on Information Theory, 65(5):2850–2871, 2019. doi: 10.1109/TIT.2018.2879477.
    [6] Yala, A., Quach, V., Esfahanizadeh, H., D'Oliveira, R. G., Duffy, K. R., Médard, M., ... & Barzilay, R. Syfer: Neural obfuscation for private data release. arXiv preprint arXiv:2201.12406, 2022.