Perché Il Linguaggio Di Programmazione R È Un Bene Per Il Business

Grazie alla società, lo stesso codice che sta rivoluzionando la comunità scientifica si sta ora spostando le componenti del mondo del lavoro.
come utilizzare r

Grazie alla società, lo stesso codice che sta rivoluzionando la comunità scientifica si sta ora spostando le componenti del mondo del lavoro.

Questa storia contiene interviste con David Smith, capo ufficiale della comunità presso il Revolution Analytics; Casey Herron, data scientist presso il Revolution Analytics; Tess Nesbitt, direttore di analisi presso DataSong; e Salomone Messing, dati scienziato a Facebook.

Terabyte di dati a portata di mano, ogni azienda sta cercando di capire il modo migliore per capire le informazioni sui loro clienti e se stessi. Ma semplicemente l’utilizzo di Excel, tabelle pivot per analizzare una quantità tale di informazioni che è assurdo, così molte aziende disponibile in commercio utensili SAS di abbattere la business intelligence.

Ma SAS non è partita per il linguaggio sorgente che pionieristica dati gli scienziati del mondo accademico, che è noto semplicemente come R. Il linguaggio di programmazione R si appoggia più frequentemente all’avanguardia della scienza di dati, fornendo alle aziende i più recenti strumenti di analisi dei dati. Il problema: Con norme vaghe e decine di diversi collaboratori, è un terreno infido per il business. Potrà mai cambiare?

R Evangelisti

Almeno una società pensa di R è pronto per commerciale in prime time. Come RedHat è per Linux e Cloudera è Hadoop, Rivoluzione Analytics è il linguaggio R nel mondo commerciale. Diversi anni fa, David Smith, capo ufficiale della comunità presso il Revolution Analytics, notato che un sacco di docenti e studenti utilizzata R ma visto meno di utilizzo nell’industria. “Al momento, non c’era la compagnia di sostegno della ricerca, offrire le proprie competenze in tutto R, o a fornire qualsiasi tipo di supporto commerciale per R. Così la Rivoluzione di google Analytics è stata fondata,” dice Smith.

Per chiamare Smith R appassionato è un eufemismo. Egli è co-autore del manuale di programmazione Introduzione alla R che viene fornito con l’open source R distribuzione. E ha un team di like-minded R evangelisti lavorare con lui, che continuano a qualsiasi menzione di R nel mondo del business sul loro radar, mentre anche la pubblicazione di R-notizie correlate sul blog della società e dando laboratori didattici per le altre aziende. Egli è un esempio di una curiosa razza di imprenditore creativo che esiste solo per il settore tecnologico: qualcuno che fa un grande lavoro in un libero, open source e di risorse, e, così facendo, la creazione di un commerciale opportunità per se stessi il rovescio della medaglia.

“Ho sempre guardare fuori per gli articoli di riviste dove R è utilizzato. Ho sentito indietro da parte dei clienti. E ogni volta che una corretta visualizzazione è utilizzato, c’è una buona probabilità che è stato creato in R, in modo che io possa sempre risalire all’autore. Sto sempre sui social media, quindi, ogni volta che vedo un riferimento R, io di solito scuotere [squadra],” dice Smith.

Tutti R librerie di programmazione sono liberi, ma la Rivoluzione Analytics fa il suo business da pacchetti di servizi, che danno ai clienti l’accesso alle biblioteche l’azienda si sviluppa in-house. Queste librerie commerciali sono adatti per i clienti aziendali che spesso trattano con grandi quantità di dati, in terabyte gamma. Non solo R, Rivoluzione Analytics, inoltre, crea interfacce utente e algoritmi, spesso utilizzando C++ per scrivere i suoi algoritmi.

Alcune delle librerie, l’azienda sviluppa, infine, fare diventare open source, come il RHadoop progetto biblioteche. RHadoop gratis librerie consentono agli utenti di sfruttare i dati di elaborazione ambiente Hadoop per gestire i propri dati. Ma se un utente non dispone di accesso a Hadoop, Rivoluzione Analytics ancora passaggi e fornisce i suoi servizi.

Trattare Con Tonnellate Di Dati Aziendali

Ecco cosa i loro pacchetti di effettivamente fare. Uno ScaleR, aiuta le aziende a passare attraverso tutti i loro dati da parte di scala per funzionare su processori paralleli. L’utilizzo di standard di pacchetti R, macchine a corto di memoria quando si tratta di tali grandi quantità di dati, ma ScaleR repurposes i dati di processo di pezzi su server diversi contemporaneamente. Smith chiama questo parallelo algoritmo di elaborazione del suo “secret sauce”.

DataSong, marketing, società di analisi e uno di Rivoluzione Analytics per i clienti, utilizza questa potenza di elaborazione parallela per dividere i suoi grandi clienti set di dati tra i nodi in Hadoop.

“Di Base R non sono abbastanza grandi muscoli”, dice Tess Nesbitt, direttore di analisi presso DataSong. Utilizzando la Rivoluzione di Analytics per i pacchetti, Nesbitt è in grado di fare più sofisticate analisi statistiche e prospetti controlli sui dati durante l’elaborazione di utilizzo di software open-source R da solo.

“I nostri modelli hanno effettivamente beneficiato, perché non solo abbiamo il permesso di utilizzare più dati, siamo in grado di prendere più passa i dati e perfezionare i nostri modelli e ottenere dati statistici più avanzato rispetto a quello che abbiamo usato per fare, solo calci fuori una regressione logistica, il che permette di correre per un giorno e sperando di non crash”, dice Nesbitt.

A DataSong, Nesbitt fa una cosa chiamata funzione di ingegneria. Crea un mucchio di variabili su un cliente al dettaglio essenzialmente di creare un modello quantitativo. Lei potrebbe avere 30 milioni di righe di dati per 60 variabili, che lei ora può eseguire in circa 10 minuti, utilizzando commerciale R i pacchetti. Lei dice che il metodo batte utilizzo di SAS.

Anche se Nesbitt ha iniziato la sua carriera a DataSong utilizzo di SAS, la società, infine, si è spostata R. dice: “io sono sempre stato un fan di R dato che il mio grad giorni di scuola.”

Grafica Fresca

A Facebook, la data science team di visualizzazioni di dati in R dare il meglio panoramica di ciò che tipo di dati si tratta. I dati possono variare da qualcosa come News Feed numeri correlazioni con la quantità di Facebook di amici di un utente. Nonostante questi pacchetti non sono commerciali, Rivoluzione Analytics ha mantenuto schede su Facebook R uso per qualche tempo.

“In generale, utilizziamo i R a muoversi velocemente, quando si ottiene un nuovo set di dati”, dice Salomone Messing, dati scienziato a Facebook. “Con la R, non abbiamo bisogno di sviluppare strumenti personalizzati o scrivere un sacco di codice. Possiamo, invece, basta andare su pulizia e di esplorare i dati.”

Messing e l’altro Facebook di dati, gli scienziati utilizzano regolarmente open source R i pacchetti da Hadley Wickham, chief scientist di RStudio. Wickham pacchetti, come ggplot2, dplyr, plyr e rimodellare, permettono al team di esplorare nuovi dati attraverso la personalizzazione delle visualizzazioni.

Visualizzazioni Pasticciano i colleghi a Facebook, fatto in collaborazione con la Stanford University, Gruppo HCI.

Scherzi ama particolarmente utilizza ggplot2 per creare dot plot e i grafici a dispersione. Nel suo blog personale, Pasticciano scrive di come questi grafici rappresentano al meglio ogni tipo di dati, come egli usa R per la loro esecuzione.

L’Facebook data science team usa R ardentemente per visualizzare i dati che ha anche creato un MOOC che insegna agli studenti ciò che conosce. Il MOOC il materiale del corso è disponibile a tutti, anche senza registrazione al corso.

Nesbitt accetta che R è forte in visualizzazioni e grafica. “Una delle cose che ci piace di R è che è possibile creare una bella grafica rispetto, ad esempio, SAS, che è molto brutto, bruttissimo grafica”, dice Nesbitt.

Il Talento È Ovunque

A scuola, i dati scienziato Casey Herron studiato statistica e venuto alla Rivoluzione Analytics con già una comprensione intima di R. di Aver usato la R come una laurea, lei ha continuato con il suo programma di master e quando si è trasferita nel suo primo lavoro dopo la laurea, come statistico. Ora è stata Rivoluzione Analytics per 10 mesi.

“Penso che il numero uno di valore per le imprese [R] è accesso al talento”, dice Smith. “Così molte aziende ora stanno facendo molto di più con i dati, in particolare con la rivoluzione dei big data e fare molto di più con analytics. E perché sono di assunzione di persone provenienti al di fuori della scuola. Sanno R già.”

Dati gli scienziati come Herron sono comunemente trascorso anni in un college, la codifica in R. “e ‘ una tipica storia che tipo di led per la società, fondata. Abbiamo visto, nel lontano 2007, proprio come R aveva preso il sopravvento il mondo accademico. Tutti che stava studiando le statistiche, o di machine learning, o ciò che noi, oggi, chiamiamo scienza di dati facendo in R,” dice Smith.

DataSong del Nesbitt è anche un esperto di statistica di formazione. “SAS è stata solo usata nell’industria, per qualsiasi motivo. Ho un background accademico, e un sacco di altre persone che stanno venendo fuori delle discipline sono molto addestrati in R,” Nesbitt dice.

E aggiunge, “Il candidato di lavoro in piscina è già addestrato in questa lingua, che è un enorme vantaggio di cercando di utilizzarlo nell’industria, troppo.”

L’Avanguardia Della Ricerca

A parte i numerosi neo-laureati con formazione, Smith presse a casa il significato di R la presenza di comunità di ricerca.

“R è in grado di fare letteralmente di tutto e a tutte le nuove attività di ricerca viene svolta in R. Quindi, soprattutto per le imprese che vogliono davvero entrare in competizione con i loro concorrenti sulla base di analisi avanzate, possono ottenere l’accesso a tutto ciò di cui hanno bisogno all’interno di R, le cose che potrebbero non venire per cinque o 10 anni attraverso il software commerciale,” dice Smith.

Facebook, per esempio, utilizza una tecnica chiamata analisi della potenza per capire se ha raccolto un numero sufficiente di dati rilevanti quando si studia come gli utenti interagiscono con le nuove funzionalità del sito. Tutto questo grazie ai dati della ricerca, gli scienziati che hanno sviluppato strumenti statistici in R e reso disponibili a tutti.

“Quando qualcuno sviluppa un nuovo modello predittivo o di una nuova visualizzazione, non si limitano a pubblicare le loro ricerche in una rivista, inoltre, pubblica R codice open source che chiunque può accedere e utilizzare,” dice Smith.

Quando si tratta di dati la scienza, il mondo accademico e il mondo delle imprese sono in collisione. C’è l’impollinazione incrociata tra i metodi di analisi dei ricercatori in laboratorio e come la carriera di dati, gli scienziati studiano le esigenze dei loro clienti modelli di dati. E sembra che la loro lingua comune, R, continuerà a sostenere la loro scienza di dati di exchange per qualche tempo a venire.

Like this post? Please share to your friends:
Lascia un commento

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: