<뉴스 빅데이터란?>

  하버마스의 공론장이론에서 말하듯 민주주의가 제대로 이루어지기 위해선 오늘날 미디어의 역할이 엄청나다. 선생님께선 그 중 특히 뉴스가 (1.오랫동안 유지되어 왔고 2.세계를 체계화할 때 상당히 좋은 소스 3.거의 모든 나라에 존재하는 미디어 형태)라는 특징이 있기 때문에 세계를 빗대주는 창구로서의 역할을 할 수 있을 거라 생각했다고 한다. 다만, 사회체계가 바뀐 것을 설명하고자 DB를 만드는 거라고 했을 때, 과연 어디까지 DB구축 하는 것이 맞는 건지 '경계'에 대한 고민이 있었다고 했다. 

 뉴스 빅데이터의 한계를 말하자면, (1.다 수집했을 거라고 보장할 수 없다는 것 2.단지 보유하고 있는 DB안에만 한정해서 '전수'작업을 한 것 3.전부 신뢰하기도 어려움;뉴스에 나온게 다 사실은 아니니까) 이다. 빅카인즈는 DB를 구축할 때 자동화 기법을 이용해서 구축하는데 보통 해외에선 자동화하지 않는다고 한다. 다만, 자동화 기법을 이용하되 확실히 자동화하는 쪽으로 노력하고 있다고 한다.(그림 1 참고.)

<그림1. 로봇 저널리즘>

→보면,원래는 '데이터 저널리즘'이라고 해서 사람이 각종 소스를 모아 중복되거나 불필요한 걸 거르고 이를 잘 취합해서 각종 서비스까지 연결하는 과정을 통하지만 빅카인즈에서는 '로봇 저널리즘'을 이용한다. 로봇 저널리즘은 위의 순서도를 참고하면 되는데 부연설명을 하자면 다음과 같다. 'Data Crawling(데이터 크롤링;데이터를 다 긁어오는 거)'해서 사건을 추출하고(Extraction) 사건마다 점수를 매겨(Scoring) 중요도를 파악한다(Detection). 여기에 맥락정보(Contextual Information)를 입혀서 동향을 감지하고(Mood Detection) 뉴스기사를 내는 방식이다.   

 

  빅카인즈의 특징은 시맨틱 네트워크 분석을 하는 것이다. 현재는 영상 분할 기술, 객체 인식, 내용인식,…등을 기술적으로 해결하려는 노력을 하고 있다고 한다.(그림 2, 표1 참고.)

               <그림2. 객체인식 적용 사례      <표1. 영상 뉴스 빅데이터 시스템 구성안>

-관련 개념

Raw data, SNA, NLP, Meta data, structured data, structured journalism

 


 

<뉴스 빅데이터 기반 서비스>

<그림3. 뉴스 빅데이터 기반 서비스>

 

  '뉴스 빅데이터 기반 서비스'란, 뉴스를 데이터화한 다음 서비스로 제공하자는 것이다.(그림 3 참고.) 이게 원활하게 잘 이루어지면 장기적으론 해외로 눈을 돌릴 수도 있고 아니면 라디오뉴스와 같이 다른 매체를 통한 뉴스를 대상으로 할 수 있다. 하지만 아직은 사업적으로 현실가능성이 있을지를 점검하는 단계라고 한.(저널리즘의 비즈니스화)

 

  빅카인즈의 또다른 특징은 인용문장에 대한 메타데이터를 붙이고 있다는 것이다. 이런 서비스는 기자들이나 홍보기관에서 유용하게 쓰일 수 있는데 멀티소스로서의 활용가치가 있기 때문이다. 하지만 이는 ‘Eco system’이 없으면 말짱 도루묵이다. 

 

 <그림4. 멀티소스>

 

  선생님께선 국내 거대 포탈 기업들이 OPEN DATA를 스타트업 기업들에게 공유하고 / 스타트업 기업들이 이 DATA를 가지고서 컨텐츠를 만들면 / 이걸 거대 포탈 기업들이 자신들의 기업들의 성향에 맞게 재맥락화하는 그런 시도가 필요하다고 생각한다고 하셨다.

 

  타겟 유저는 누구로 할지, 사회언어에서의 자연어 처리를 어떻게 문장단위로 메타데이터를 붙일지, 문장 내의 다양한 level의 텍스트를 어떻게 분석할지, 중요도 측정 알고리즘은 어떤 것으로 할지 등등 여러가지 고민을 해볼 필요가 있다고 생각한다.

 

 

<여러 논의사항들>

1.로봇 저널리즘의 대두로 인한 인간대체 현상

2.빅카인즈를 오픈아카이브로 볼 수 있는지

3.저작권 문제

 

 

 


by 도룡뇽:D 2017. 4. 19. 21:51
| 1 |