최근에는 AI 기술로 현실의 문제를 해결하는 모습을 많이 볼 수 있습니다. 자연어 처리(NLP) 기술을 활용하여 혐오발언을 해결하는 방법을 알아보겠습니다. 한국어 혐오 발언을 해결하는 데이터셋과 윤리성 판별 엔진의 사례를 살펴보고, AI 기술에 기대하는 발전하는 모습을 이야기하겠습니다.
목차
1. 혐오발언이란?
2. 데이터
- 혐오 데이터셋(스마일AI, AI허브)
3. AI 기술(NLP, 분류)
4. AI 제품
- 튜닙 - 세인트페트릭
5. 앞으로는
1. 혐오발언이란?
혐오발언이란 인종, 성, 연령, 민족, 국적, 종교, 성 정체성, 장애, 언어능력, 도덕관 또는 정치적 견해, 사회적 계급, 직업 및 외모, 지적 능력, 혈액형 등 특정한 그룹에 대한 편견, 폭력을 부추길 목적으로 이루어지는 의도적인 폄하, 위협, 선동 등을 담은 발언을 뜻한다. (출처 위키백과)
실제로 우리가 쓰고 있는 일상 언어에서도 다양한 사례를 찾을 수 있습니다. 인공지능 연구에서 혐오발언 데이터셋과 최근에 혐오표현과 개인정보 탐지하는 AI사이트가 나왔다. 인공지능으로 혐오발언을 구분하고 어떻게 활용하는지 알아봅시다.
2. 데이터
인공지능 윤리까지 고려한 사례 두 개를 살펴봅시다. 데이터는 모델링, 연구결과에 많은 영향을 줍니다. 데이터에서부터 윤리적으로 고려한다면 블랙박스인 인공지능도 윤리적인 가치를 포함할 가능성이 높다고 판단합니다.
(1) 스마일게이트
스마일게이트 AI 센터는 올해 악플 및 혐오 발언 데이터 셋을 공개하였습니다. ‘여성/가족’ ‘성소수자’ ‘남성’ ‘인종/국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등 8개의 대상으로 범주화했습니다. 스마일게이트 AI 센터의 악플 및 혐오 발언 데이터셋은 향후 다양한 영역에서 활용될 수 있을 것으로 기대된다. 게임 커뮤니티 내 댓글, 고객 응대 상담 챗봇, 여론 조사 등 여러 분야에서 대상을 둘러싼 혐오 발언 여부를 파악할 수 있다. 향후 지속적인 R&D를 실시하면서 확보된 기술력을 바탕으로 혐오 표현을 보다 높은 정확도로 정확하게 찾아낼 수 있는 기술을 고도화할 계획이다. 스마일게이트 AI 센터 한우진 센터장은 “AI 센터는 자연어 처리 및 분류 관련 연구 목적 외에도 윤리성이 결여된 인공지능이 사회에 미치는 문제에 대해서 연구하고 있는 기관으로서 책임과 문제의식을 갖고 있다. 특히 이번에 공개된 데이터가 혐오 표현이나 인공지능의 윤리성이 사전에 분류 및 예방되어 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되기를 바란다”며 “향후 스마일게이트 AI 센터는 그동안 진행해온 연구 결과와 노력들이 기술적인 관점에서 뿐만 아니라 사회에 긍정적인 기여를 할 수 있도록 다양한 노력을 시도할 것”이라고 말했다. (출처 - 스마일게이트 블로그)
스마일게이트 github를 보면, 단일 데이터는 [혐오표현, 악플/욕설, clean]으로 분류될 수 있으며, 혐오 표현은 다중 레이블(multi-label)로 전문가 집단을 통해 레이블링 되었습니다.
[데이터셋 예시]
[여성/가족], [남성], [성소수자], [인종/국적], [연령], [지역], [종교], [기타혐오], [악플/욕설], [Clean], [개인지칭] 총 11개의 카테고리로 이루어져 있습니다. github에 Baseline모델을 참고하면 좋습니다.
📺 UnSmile 데이터셋 홍보 영상을 보면, 제작 계기와 혐오표현인지 판단하는 기준과 모델에 대한 소개 5분 영상이므로 관심이 있으면 꼭 보시길 추천합니다.
(2) ai허브
AI허브의 한국어 감정 정보가 포함된 단발성 대화 데이터셋에도 혐오 라벨이 포함되어 있습니다. 7개 감정(기쁨, 슬픔, 놀람, 분노, 공포, 혐오, 중립) 레이블링 수행하였습니다. 이전에 감성분석은 긍정/부정에 대한 분류에 국한되었다면, 인공지능이 더욱 발전할 수 있는 데이터셋이 만들어졌다고 생각합니다.
3. AI기술(자연어처리)
자연어처리(NLP, Natural Language Processing)는 인공지능의 한 분야로 자언어를 다룹니다. 텍스트를 읽고 요약을 하거나 분류를 하고, 질답을 해주는 task가 포함이 됩니다. 감성분석은 그중 하나로 글을 입력으로 주면, 그 글에 포함된 감성이 긍정/부정/그외로 분류해주는 기법 중에 하나입니다.
아래 소개할 세인트페트릭은 NLP와 분류 등의 기법이 들어갔습니다.
4. AI 제품
인공지능 스타트업 튜닙(TUNiB)에서 혐오 표현-개인정보 탐지하는 세인트 페트릭 출시를 하였습니다. 인공지능 기술로 문장 속에 개인정보, 혐오표현을 검출할 수 있습니다. 혐오 표현은 한국어 문장 속 욕설, 모욕, 폭력위협/범죄조장, 외설, 성 혐오, 연령 차별, 인종 차별/지역 혐오, 장애인 혐오, 종교 혐오, 정치 성향 혐오, 직업 혐오 11가지입니다. 혐오의 단계도 없음, 미약, 명백, 심각으로 구분합니다.
기사에 따르면, 튜닙은 윤리성 판별 엔진이 온라인상의 윤리 문제에 새로운 해결책이 될 것으로 기대했다. 최근 인터넷 비방 댓글, n번방 사태, 이루다 혐오발화 등 온라인상의 혐오 표현 문제는 더욱 극심해지고 있다. 지난해 국가인권위원회의 ‘온라인 혐오 표현 인식조사’에 따르면, 국내 만 15세 이상 남녀 중 70.3%가 온라인 혹은 오프라인 실생활에서 혐오 표현을 경험했다. 박규병 튜닙 대표는 “온라인의 윤리 문제나 인공지능 윤리 문제는 기술의 발전과 더불어 늘 고민해야 하는 본질적 문제”라며 “이번 윤리성 판별 엔진 개발을 시작으로 대화 문맥상의 윤리성 문제, 인공지능 모델의 윤리성 문제를 총체적으로 점검하고 수치화할 수 있는 솔루션 개발에 매진하겠다”고 말했다.
세인트 페트릭 베타 사이트 : https://demo.tunib.ai/safety/kor
St. Patrick:TUNiB Safety Engine
demo.tunib.ai
위 사이트를 실제로 직접 활용해 봅시다.
위와 같이 혐오 표현을 감지하고, 장애인 혐오를 명백히 하였다고 판별을 할 수 있습니다. 기본 세팅으로 사례들이 있고 실제 사례를 넣으면 좋은 성능을 보여주고 있습니다.
5. 앞으로는
온라인 윤리문제를 더욱이 중시하는 시대가 올 것입니다. 앞으로 글을 쓰면 맞춤법 검사하듯 윤리적인 중립을 위한 노력이 당연시되는 사회가 된다면 오늘 소개드린 데이터셋과 사이트가 도움이 될 것입니다. 인공지능은 기술이지만, 많은 사람들의 고민과 노력을 거쳐서 따뜻한 인공지능을 만들어갈 수 있지 않을까 기대해봅니다.
'인공지능' 카테고리의 다른 글
밑바닥부터 시작하는 딥러닝을 유투브에서 만나보자! 밑바닥부터 시작하는 TV(ゼロから作るTV) (0) | 2022.07.19 |
---|---|
[AI 코드리뷰 Codeball] AI가 대신 해주는 코드 리뷰 (0) | 2022.06.11 |
취업에 도움되는 AI제품 - 인공지능으로 AI자소서를 써볼까? (1) | 2022.05.12 |
디지털 교육 인증제 : 디지털 배지(Digital Badge) 도입 (0) | 2022.04.25 |