Nowości w WordStat 9


Główne ulepszenia i nowości w pakiecie WordStat 9.0

1. Pełna obsługa Unicode
Zawsze staramy się wybierać techniki analizy tekstu niezależne od języka. Dzięki temu użytkownicy mogli analizować dane tekstowe w ponad 50 językach. Jednak, aby przeanalizować języki, które nie są obsługiwane przez ich domyślną instalację systemu Windows, użytkownik musiał zmienić niektóre ustawienia systemu Windows. I chociaż możliwe było analizowanie zbiorów danych w wielu językach, niektóre kombinacje języków były po prostu niemożliwe. Nowa wersja WordStat dla Unicode pozwala analizować dowolne z nich bez zmian w ustawieniach, jak również nowe języki, które wcześniej nie były obsługiwane, takie jak chiński, japoński czy tajski. Dodano również procedury segmentacji słów dla poprzednich trzech języków azjatyckich.


2. Integracja skryptów przetwarzania wstępnego i końcowego R i Python
W 2018 roku do WordStat 8 została wprowadzona możliwość tworzenia skryptów preprocessingu w Pythonie. Wersja 9.0 rozszerza tę możliwość, oferując możliwość tworzenia skryptów preprocessingu również w R. Co ważniejsze, teraz możliwe jest tworzenie skryptów post-processingu w tych dwóch językach programowania, co pozwala na wykonanie niestandardowej analizy na oryginalnych lub przekształconych danych tekstowych lub na kwantyfikowanych wynikach uzyskanych poprzez analizę treści tych dokumentów. Taka funkcja daje nieskończone możliwości rozszerzenia funkcji WordStat, takich jak wdrażanie nowych algorytmów uczenia maszynowego, zaawansowanych technik modelowania statystycznego lub niestandardowej transformacji danych. Dołączono przykładowe skrypty do obliczania metryk czytelności tekstu, wykrywania języków, stosowania innych technik modelowania tematów (LDA lub STM) lub tworzenia modeli predykcyjnych z wykorzystaniem uczenia maszynowego (SVM, kNN itp.).


3. Automatyczna korekta pisowni
Nowy mechanizm sprawdzania pisowni został napisany od podstaw aby osiągnąć znacznie szybsze i dokładniejsze poprawki pisowni, umożliwiając wdrożenie funkcji automatycznej korekty pisowni przy minimalnym wpływie na istniejącą prędkość przetwarzania tekstu w WordStat. Inteligentna korekta pisowni może nawet poprawiać pisownię nieznanych terminów, takich jak słownictwo techniczne, rzeczowniki własne itp. Wyniki mogą być automatycznie zapisywane na liście zamienników w celu sprawdzenia i korekty.

4. Tabela krzyżowa z panelami wykresów i filtrowaniem
Strona tabeli krzyżowej zawiera teraz panel wykresów pozwalający na szybkie wykreślenie rozkładu wybranych wierszy tabeli krzyżowej dla wartości aktualnie wybranej zmiennej lub dowolnej innej zmiennej. Pole listy filtrującej pozwala również na analizę takich rozkładów dla pojedynczej wartości lub zbioru wartości wybranej zmiennej.


5. Interaktywna macierz współwystępowania
Do strony co-occurrences została dodana nowa interaktywna funkcja matrycy, która pozwala skupić się na określonych koincydencjach. Główne wyniki składają się z tabeli przedstawiającej wybór spośród różnych statystyk współwystępowania. Taka macierz jest również wysoce interaktywna, umożliwiając przekształcenie określonych wierszy w nowe kolumny lub odwrotnie za pomocą prostych operacji przeciągania i upuszczania. Panel wykresów po lewej stronie pozwala również ocenić rozkład współwystępowania wśród innych zmiennych. Można również uzyskać szybki podgląd wszystkich segmentów tekstu związanych z określonym współwystępowaniem. Tę nową funkcję WordStat można również wywołać z listy częstotliwości, wybierając elementy docelowe (słowa lub kategorie treści), które mają być wyświetlane jako kolumny, klikając prawym przyciskiem myszy i wybierając ‘Co-Occurrence Matrix’.


6. Import plików Nexis UNI i Factiva
Wprowadzony w QDA Miner 6.0 w 2020 r., a teraz i w WordStat - umożliwia teraz importowanie transkrypcji wiadomości z plików wyjściowych LexisNexis i Factiva. Po wybraniu jednego lub wielu plików .DOCX lub RTF uzyskanych z tych usług, WordStat wyodrębni i zapisze w osobnych zmiennych tytuł i treść transkrypcji wiadomości, jej źródło, datę publikacji i inne istotne informacje. Taka cecha powinna przydać się w zarządzaniu reputacją, zarządzaniu marką, komunikacji kryzysowej, analizie ram medialnych, komparatystyce medialnej itp.


7. Przetwarzanie wsadowe modeli tematycznych
Wybór liczby tematów do wyodrębnienia za pomocą technik modelowania tematów pozostaje pytaniem, na które, o ile nam wiadomo, nie ma ostatecznej odpowiedzi. Możemy nawet mieć wątpliwości, czy istnieje taka optymalna liczba. W rzeczywistości można nawet sugerować, że informacje uzyskane przy użyciu różnych ustawień mogą służyć różnym celom lub ujawniać różne aspekty rzeczywistości. W takim kontekście niepewności badacze często chcą porównywać różne rozwiązania. Nowa funkcja przetwarzania wsadowego umożliwia obliczanie wielu modeli tematów poprzez systematyczne zmienianie liczby tematów do wyodrębnienia, a w przypadku metody probabilistycznej (np. NNMF) wykonanie kilku przebiegów przy użyciu tych samych ustawień w celu oceny stabilności wyników. Wszystkie rozwiązania modeli tematycznych są tymczasowo agregowane w menedżerze raportów, co pozwala na porównanie rozwiązań uzyskanych w wielu uruchomieniach przy użyciu różnych ustawień.

8. Tworzenie chmury słów na temat pobierania słów kluczowych i wyników KWIC
Interaktywne chmury słów i tabele częstotliwości słów można teraz uzyskać bezpośrednio w wynikach wyszukiwania słów kluczowych i słów kluczowych w kontekście (KWIC), umożliwiając szybką identyfikację słów związanych z określonymi kategoriami treści lub tych, które pojawiają się przed/po określonym elemencie docelowym.


9. Bardziej zaawansowane zasady bliskości
Liczba warunków w regułach zbliżeniowych została zwiększona z czterech do maksymalnie dwudziestu warunków.


10. Ochrona plików projektu hasłem
WordStat 9.0 oferuje teraz możliwość ochrony hasłem plików projektów, ograniczając dostęp do określonych projektów dla autoryzowanych użytkowników. Okno dialogowe umożliwia administratorowi projektu tworzenie nowych kont użytkowników i określanie, jaką operację może wykonać każdy użytkownik. Można ograniczyć edycję danych, import lub transformację danych, a także eksport danych projektowych, tabel i grafik. Alternatywnie możesz zezwolić użytkownikom na wykonanie dowolnej transformacji, ale uniemożliwić im zapisanie pliku projektu.


11. Nowe opcje czyszczenia danych
Strona wstępnego przetwarzania zawiera teraz opcje automatycznego usuwania adresów URL z wiadomości tekstowych, a także oznaczeń prelegentów w wiadomościach i transkrypcjach wywiadów.

12. Nowe skumulowane wykresy
Funkcja tworzenia wykresów na stronie Crosstab dodaje możliwość tworzenia dwóch typów skumulowanych wykresów warstwowych.


13. Kolorowe elementy na wykresie korespondencyjnym
Gradienty kolorów mogą być teraz używane do reprezentowania pozycji określonych elementów lub klas zmiennych na trzecim wymiarze (głębokości) lub wykresie korespondencji 2D i 3D. Do tworzenia tych gradientów można wybrać do czterech kolorów.


14. Ulepszony wykres bąbelkowy
Teraz można transponować wiersze i kolumny wykresu bąbelkowego


15. Bufor analizy linków
Bufor analizy łączy umożliwia cofnięcie się do poprzednich diagramów a następnie przejście do kolejnych.

16. Szybsze i bardziej precyzyjne wzbogacanie tematów
WordStat wykracza poza typowe modelowanie tematów, oferując unikalną funkcję wzbogacania tematu, która identyfikuje powiązane frazy, potencjalne wyjątki i błędy ortograficzne. Automatycznie generuje również odpowiednie nazwy tematów. W wersji 9 ta funkcja wzbogacania tematu jest teraz dwa razy szybsza niż wcześniej i zapewnia lepsze ujednoznacznienie sensu wyrazów, aby uzyskać dokładniejszą listę wyjątków. Zapewnia również lepsze sugestie dotyczące poprawek pisowni.

17. Poprawiona szybkość i dokładność istniejących poprawek pisowni
Istniejąca funkcja poprawiania pisowni jest teraz do 30 razy szybsza, wymagając zaledwie sekundy lub dwóch, aby zasugerować korekty pisowni dla dziesiątek tysięcy nieznanych słów.

18. Nowy format pliku .PPRJ
Utworzono nowy format pliku z nowym rozszerzeniem pliku (.pprj), zapewniający lepszą obsługę danych Unicode. Jednak WordStat 9 zachowuje kompatybilność wsteczną z poprzednimi wersjami całego oprogramowania oferowanego przez Provalis Research i może otwierać i analizować bieżące pliki projektów (.ppj) utworzone przez QDA Miner, SimStat lub starsze wersje WordStat.

Script logo